AI项目和框架

MindOmni

MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模...
阅读原文

盘古大模型 5.5

盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升...
阅读原文

Stream-Omni

Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音...
阅读原文

OneRec

OneRec 是快手推出的新型端到端生成式推荐系统。采用编码器-解码器架构,通过稀疏 Mixture-of-Experts(MoE)技术提升模型容量,保持高效的计算性能。与传统...
阅读原文

Kimi-Researcher

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能...
阅读原文

Self Forcing

Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶...
阅读原文

SongGeneration

SongGeneration是腾讯AI Lab推出的AI音乐生成大模型。模型支持解决音乐AIGC领域中的音质、音乐性与生成速度等关键问题,SongGeneration基于LLM-DiT融合架构,...
阅读原文

Skywork-SWE-32B

Skywork-SWE-32B是昆仑万维开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,特别是仓库级代码修复能力,能在多轮交互和长文...
阅读原文

Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server 是基于 Model Context Protocol(MCP)的开源工具,专门用在演示文稿的自动化创建和编辑。工具基于 python-pptx 库实现对 Powe...
阅读原文

MeWM

MeWM(Medical World Model)是创新的医学模型,由香港科技大学(广州)等机构提出,通过模拟疾病动态来辅助临床决策。由策略模型、动态模型和逆向动态模型组...
阅读原文

EX-4D

EX-4D是字节跳动(ByteDance)旗下Pico团队推出的新型4D视频生成框架,能从单目视频输入生成极端视角下的高质量4D视频。框架基于独特的深度防水网格(DW-Mesh...
阅读原文

LinGen

LinGen是普林斯顿大学和Meta共同推出的新型文本到视频生成框架。框架基于线性复杂度的MATE模块(包含MA-branch和TE-branch),替换传统Diffusion Transformer...
阅读原文

Midjourney V1

Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮...
阅读原文

EmbodiedGen

EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员...
阅读原文

SurveyForge

SurveyForge是上海AI Lab联合复旦大学、上海交通大学等机构推出的创新框架,用在自动化生成高质量学术综述。框架基于两阶段设计,大纲生成和内容生成。在大纲...
阅读原文
145678131