AgiBot Digital World

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...
阅读原文

ARTalk

ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生成。A...
阅读原文

HumanOmni

HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于...
阅读原文

Spark-TTS

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样...
阅读原文

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂...
阅读原文

Shandu

Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能...
阅读原文

Mochii AI

Mochii AI 是多功能的智能AI助手,通过先进的人工智能技术提升用户的生产力和创造力。支持多种高级AI模型,如GPT-4、Claude 3.5和Gemini,能提供智能对话、语...
阅读原文

LCVD

LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LCVD基于分离肖像的内在特征(如身份和外观)与...
阅读原文

SepLLM

SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理速度和...
阅读原文

Grok3上线最强图片编辑工具,“动动嘴”就能P图

原标题:Grok3上线最强图片编辑工具,“动动嘴”就能P图 文章来源:科技未来派 内容字数:2249字告别繁琐P图!Grok3模型:文字编辑图片,轻松实现图像魔术 大...
阅读原文

字节跳动Trae:国内首款AI原生IDE,开启高效智能编程新纪元

原标题:字节跳动Trae:国内首款AI原生IDE,开启高效智能编程新纪元 文章来源:小夏聊AIGC 内容字数:1522字Trae:引领AI辅助开发新纪元 2025年3月3日,字节...
阅读原文

阿里巴巴开源ViDoRAG:视觉文档理解领域迎来突破

原标题:阿里巴巴开源ViDoRAG:视觉文档理解领域迎来突破 文章来源:小夏聊AIGC 内容字数:1897字阿里巴巴开源ViDoRAG:视觉文档理解的全新突破 人工智能领...
阅读原文

科大讯飞星火X1重磅升级:数学、医疗、教育等多领域能力跃升

原标题:科大讯飞星火X1重磅升级:数学、医疗、教育等多领域能力跃升 文章来源:小夏聊AIGC 内容字数:1179字科大讯飞星火X1升级:AI赋能多元领域,开启智能...
阅读原文

百度文库网盘联手推出AI创作工具“画布”

原标题:百度文库网盘联手推出AI创作工具“自由画布” 文章来源:小夏聊AIGC 内容字数:1817字百度“自由画布”:AI赋能,重塑内容创作 内容创作的效率和便捷性...
阅读原文