AI项目和框架

Toolkami

Toolkami 是极简的 AI Agent 框架,用七种工具支持运行, 包括读(Read)、写(Write Diff)、浏览(Browse)、命令(Command)、提问(Ask)、思考(Think)。框架支持 T...
阅读原文

SWE-1

SWE-1是Windsurf团队推出的首个软件工程 AI 模型系列,专为整个软件开发流程优化,涵盖代码生成、测试、调试、资料查找等开发环节,提升开发效率和用户体验。
阅读原文

DICE-Talk

DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关...
阅读原文

混元图像2.0

混元图像2.0(Hunyuan Image 2.0)是腾讯推出的业内首个毫秒级响应的实时生图大模型。混元图像2.0支持文本、语音、草图等多种交互方式,用户输入指令后,图像...
阅读原文

Paper2Coder

Paper2Coder 是韩国科学技术院推出的多智能体大语言模型(LLM)系统,支持将机器学习领域的科学论文自动转换为代码库。基于规划、分析和代码生成三个阶段,将...
阅读原文

Sketch2Anim

Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、...
阅读原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音...
阅读原文

Stable Audio Open Small

Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3.41亿,生成速度...
阅读原文

FaceShot

FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生...
阅读原文

MT-Color

MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩...
阅读原文

Being-M0

Being-M0 是北京大学、中国人民大学等机构联合推出的首个大规模人形机器人通用动作生成模型。Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 Mo...
阅读原文

DanceGRPO

DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(diffusion 和 rectified ...
阅读原文

AlphaEvolve

AlphaEvolve是谷歌DeepMind推出的通用科学Agent,基于结合大型语言模型(LLMs)的创造力和自动评估器来设计和优化高级算法。用Gemini Flash和Gemini Pro两种...
阅读原文

WorldMem

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题...
阅读原文

GPDiT

GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型...
阅读原文
11415161718131