AI项目和框架

AgiBot Digital World

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...
阅读原文

ARTalk

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。A...
阅读原文

HumanOmni

HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于...
阅读原文

Spark-TTS

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样...
阅读原文

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂...
阅读原文

Shandu

Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能...
阅读原文

LCVD

LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与...
阅读原文

SepLLM

SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和...
阅读原文

story-flicks

story-flicks 是基于AI大模型的项目,支持一键生成高清故事短视频。用户输入故事主题后,系统基于AI技术生成包含图像、文本、音频和字幕的短视频。story-flic...
阅读原文

Avat3r

Avat3r 是慕尼黑工业大学和 Meta Reality Labs 推出的高保真三维头部头像的大型可动画高斯重建模型,仅需几张输入图像,能生成高质量且可动画化的 3D 头部头...
阅读原文

WhisperChain

WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别,将语音转换为文本,基于 LangChain 对文本进...
阅读原文

星火医疗大模型X1

星火医疗大模型X1是科大讯飞发布的深度推理大模型,专门针对医疗领域设计,具备强大的复杂问题处理能力。模型通过深度推理算法,能逐步解释循证过程,显著降...
阅读原文

WarriorCoder

WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型(LLM)。基于模拟专家模型之间的对抗生成高质量训练数据,提升模型性能。...
阅读原文

xAR

xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Lear...
阅读原文

AI-Infra-Guard

AI-Infra-Guard是腾讯开源的高效、轻量级易于使用的 AI 基础设施安全评估工具,能发现和检测 AI 系统中的潜在安全风险。AI-Infra-Guard支持 28 种 AI 框架指...
阅读原文
14142434445131