AI项目和框架

EchoMimic

EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不...
阅读原文

MimicMotion

MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架,利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。此外,MimicM...
阅读原文

FunAudioLLM

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语...
阅读原文

Chameleon

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态模型。拥...
阅读原文

Mem0

Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断...
阅读原文

STORM AI

STORM AI 是斯坦福大学推出的开源AI写作工具,可在几秒钟内将一个主题转换为长篇文章/研究论文,完全免费,是 Perplexity Pages 的一种 替代品 。STORM AI 利...
阅读原文

DCLM-7B

DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机...
阅读原文

LivePortrait

LivePortrait是快手推出的开源人像动画生成框架,专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式...
阅读原文

Llama3.1

Llama 3.1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长...
阅读原文

GPT-4o Long Output模型

GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型,支持高达64k tokens的长文本输出,相当于约200页小说。相较于原GPT-4o模型,输出能力提升16倍,但...
阅读原文

MindSearch

MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型,MindSearch能在3分钟内从...
阅读原文

Diffree

Diffree是由OpenGVLab推出的AI贴图框架,能根据用户的文字描述,在图片中自动找到合适的位置添加新对象。通过智能掩码预测,无需手动绘制,即可确定新对象的...
阅读原文

FLUX.1

FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型,拥有12B参数,是迄今为止最大的文生图模型。包含三种变体:顶级性能的FLUX.1 [pro]、开源非商...
阅读原文

Stable Fast 3D

Stable Fast 3D(SF3D)是Stability AI推出的一种创新3D网格重建技术,能在0.5秒内从单张图片生成高质量的3D模型。Stable Fast 3D采用先进的Transformer网络...
阅读原文

Tora

Tora是阿里推出的AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。Tora由轨迹...
阅读原文