AI项目和框架

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，用户可以通过上传一张图片进行简短描述，让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效...

阅读原文

AI工具

1年前 (2025)

Granite 3.2

Granite 3.2 是IBM开源的多模态AI模型系列，具备强大的推理、视觉理解和预测能力。Granite 3.2包含多个版本， Granite 3.2 Instruct 提供实验性链式推理能力...

阅读原文

AI工具

1年前 (2025)

Image-01

Image-01 是 MiniMax 推出的先进文本到图像生成模型，具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像，支持多种纵横比和高分辨率输出...

阅读原文

AI工具

1年前 (2025)

PRefLexOR

PRefLexOR（Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning）是MIT团队提出的新型自学习AI框架，结合了偏好优化...

阅读原文

AI工具

1年前 (2025)

Probly

Probly 是 AI 驱动的电子表格工具，结合电子表格功能与 Python 数据分析能力。Probly基于 WebAssembly 在浏览器中运行 Python 代码，支持交互式电子表格、数...

阅读原文

AI工具

1年前 (2025)

MindLLM

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型，能将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。MindLLM基于一个主体无关（subjec...

阅读原文

AI工具

1年前 (2025)

MiniMind

MiniMind 是开源的超小型语言模型项目，极低成本帮助个人开发者从零开始训练自己的语言模型。MiniMind 基于轻量级设计，最小版本仅需25.8M参数，体积仅为GPT-...

阅读原文

AI工具

1年前 (2025)

Fractal Generative Models

Fractal Generative Models（分形生成模型）是麻省理工学院计算机科学与人工智能实验室和Google DeepMind团队推出的新型图像生成方法。Fractal Generative Mo...

阅读原文

AI工具

1年前 (2025)

CogView4

CogView4 是智谱推出的开源文生图模型，具有60亿参数，支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一，达到开源文生图模型...

阅读原文

AI工具

1年前 (2025)

AgiBot Digital World

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架，为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...

阅读原文

AI工具

1年前 (2025)

ARTalk

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架，基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。A...

阅读原文

AI工具

1年前 (2025)

HumanOmni

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于...

阅读原文

AI工具

1年前 (2025)

Spark-TTS

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从 LLM 预测的编码中重建音频，实现零样...

阅读原文

AI工具

1年前 (2025)

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理，解决传统方法在处理复杂...

阅读原文

AI工具

1年前 (2025)

Shandu

Shandu 是开源的 AI 研究自动化工具，结合了 LangChain 和 LangGraph 技术，能自动化地进行多层次信息挖掘和分析，生成结构化的研究报告。Shandu 的核心功能...

阅读原文

AI工具

1年前 (2025)

1…106 107108109 110…196