AI项目和框架

OpenCodeInterpreter – 开源的代码解释器,可生成和执行代码

OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件开发过程中生成、测试和优化...
阅读原文

ChatMusician – 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成音乐的大型语言模型...
阅读原文

EMO – 阿里推出的AI肖像视频生成框架

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语...
阅读原文

StarCoder 2 – BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...
阅读原文

MeloTTS – MyShell AI推出的多语言文本到语音转换工具

MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语音输出,支持多种语言。MeloTTS 的语音合成速度非...
阅读原文

Snap Video – Snapchat公司推出的AI视频生成模型

Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段描述性的文本,模型能够根据这段文本生成相...
阅读原文

LayerDiffusion – AI生成具有透明度的图像的框架

LayerDiffusion是由来自斯坦福大学的研究人员提出的一种利用大规模预训练的潜在扩散模型生成透明图像的技术,可以帮助用户生成单个透明图像或多个透明图层。...
阅读原文

TextDiffuser-2 – 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散模型生成文字时在灵活性...
阅读原文

UniEdit – 免训练调优的统一视频编辑框架

UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架,允许用户在不需要进行模型微调的情况下,对视频的运动和外观进行编辑,...
阅读原文

DUSt3R – 从任意图像集合中重建3D场景的框架

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视...
阅读原文

ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表

ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视觉和语言处理的...
阅读原文

ResAdapter – 字节推出的扩散模型的分辨率适配器

ResAdapter是由字节跳动的研究人员推出的一种为扩散模型(如Stable Diffusion)设计的分辨率适配器,允许这些图像生成模型生成具有任意分辨率和宽高比的图像...
阅读原文

AtomoVideo – 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图像到视频(I2V)生成框架,旨在从输入的静态图像生成高质量的视频内容。该框架能够保持生成视频与给定参...
阅读原文

Moondream – 开源的轻量级AI视觉语言模型,可在本地快速运行

Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,...
阅读原文

PIXART-Σ – 华为推出的可生成4K高清图像的文生图模型

PixArt-Σ是由来自华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一个基于扩散Transformer架构(DiT)的文生图模型,专门设计用于从文本提示直...
阅读原文
13456743