AI项目和框架

FaceChain

FaceChain是阿里巴巴达摩院推出的一个开源的人物写真和个人数字形象的AI生成框架(类似于免费开源版的妙鸭相机),用户仅需要提供最少一张照片即可生成独属于...
阅读原文

Motionshop

Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架,可将视频中的人物角色替换为3D化身,同时不改变视频中的其他场景和人物。该框架利用视频处理...
阅读原文

AnyText

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素...
阅读原文

InstantID

InstantID是一种基于扩散模型的图像生成技术,它专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。这项技术允许用户仅使用一张...
阅读原文

VideoCrafter2

VideoCrafter2是一个由腾讯AI实验室开发的视频生成模型,旨在克服高质量视频数据获取的局限性,训练出能够生成高质量视频的模型。该模型的核心思想是将视频的...
阅读原文

Screenshot to Code

Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码...
阅读原文

DDColor

DDColor是阿里达摩院的研究人员推出的一个开源的AI图像着色框架,可以一键将黑白图片上色变为全彩图像。该方法通过使用双解码器架构(像素解码器和颜色解码器...
阅读原文

DemoFusion

DemoFusion是一个旨在低成本进行高分辨率图像生成的技术框架,通过扩展现有的开源生成人工智能模型(如Stable Diffusion),使得这些模型能够在不进行额外训...
阅读原文

ActAnywhere

ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型,旨在解决视频背景生成的问题,特别是在需要将前景主体(如人物)与新背景...
阅读原文

Lepton Search

Lepton Search是由原阿里巴巴技术副总裁和AI科学家贾扬清创办的Lepton AI应用构建平台开源的一个对话式AI搜素引擎,该项目基于调用Lepton平台上的云端人工智...
阅读原文

Follow Your Pose

Follow Your Pose是由清华大学、香港科技大学、腾讯AI Lab以及中科院的研究人员开源的一个基于文本到视频生成的框架,允许用户通过文本描述和指定的人物姿态...
阅读原文

IP-Adapter

IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...
阅读原文

OLMo

OLMo(Open Language Model)是由Allen AI(AI2,艾伦AI研究所)开发的一个完全开源开放的大型语言模型(LLM)框架,设计初衷是为了通过开放研究,促进学术界...
阅读原文

DiffusionGPT

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
阅读原文

MetaGPT

MetaGPT是一个创新的元编程框架,结合了大语言模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序(SOPs)...
阅读原文