标签:多语言支持

AVD2

AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出...
阅读原文

Manus

Manus 是Monica团队推出的全球首款通用型 AI Agent。Manus能独立思考、规划和执行复杂任务,直接交付完整成果。与传统 AI 不同,Manus 拥有强大的工具调用能...
阅读原文

BGE-VL

BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检...
阅读原文

Image-01

Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵横比和高分辨率输出...
阅读原文

PRefLexOR

PRefLexOR(Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习AI框架,结合了偏好优化...
阅读原文

MindLLM

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subjec...
阅读原文

AgiBot Digital World

AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。AgiBot Digital World集成海量逼真的三维资产、多...
阅读原文

Spark-TTS

Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 LLM 预测的编码中重建音频,实现零样...
阅读原文

ViDoRAG

ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂...
阅读原文

Shandu

Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化的研究报告。Shandu 的核心功能...
阅读原文

Mochii AI

Mochii AI 是多功能的智能AI助手,通过先进的人工智能技术提升用户的生产力和创造力。支持多种高级AI模型,如GPT-4、Claude 3.5和Gemini,能提供智能对话、语...
阅读原文

WhisperChain

WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别,将语音转换为文本,基于 LangChain 对文本进...
阅读原文

T2V-01-Director

T2V-01-Director 是海螺AI(MiniMax)推出的文本到视频生成工具,专注于通过自然语言指令实现精准的镜头运动控制。支持用户在生成视频时,通过简单的文字描述...

Mahilo

Mahilo 是灵活的多智能体框架,支持创建与人类互动的多智能体系统。Mahilo支持实时语音和文本通信,智能体之间能自主共享上下文和信息,保持人类对交互的监督...
阅读原文

Mobius

Mobius 是先进的无缝循环视频生成技术,能通过人工智能算法从文本描述生成无限循环的视频内容。核心在于强大的AI模型,能自动识别视频中的关键元素并生成平滑...
阅读原文
1131415161761