AI工具

Qwen3-VL-Embedding

Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型,专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构,能将...
阅读原文

Qwen3-VL-Reranker

Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型,专为多模态信息检索设计。模型接收任意模态组合的查询与文档对(如图文查询匹配图文文档...
阅读原文

VoiceSculptor

VoiceSculptor 是西北工业大学、语图智能等机构推出的音色设计模型,能通过自然语言指令实现对语音合成的细粒度控制。
阅读原文

ChatDev 2.0

ChatDev 2.0 是清华大学、上海交通大学、OpenBMB、面壁智能联合团队开源的零代码多智能体工具。工具通过可视化交互,让用户通过“拖拽 + 配置”快速构建多智能...
阅读原文

EvoCUA

EvoCUA(Evolving Computer Use Agent)是美团开源的多模态模型,专注于计算机使用自动化任务。EvoCUA通过自然语言指令和屏幕截图实现对Chrome、Excel、Power...
阅读原文

MMSI-Video-Bench

MMSI-Video-Bench 是用于评估多模态大语言模型(MLLMs)在视频空间智能方面能力的基准测试工具。由上海人工智能实验室等多所高校联合推出,全面评估模型在真...
阅读原文

Youtu-LLM

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大...
阅读原文

OS-Copilot

OS-Copilot是开源的操作系统智能助手项目,为构建能与操作系统中各种元素(如网络、代码终端、文件、多媒体和第三方应用)交互的通用计算机智能体。核心是FRI...
阅读原文

Genie Sim 3.0

Genie Sim 3.0 是智元机器人推出的首个大语言模型驱动的开源仿真平台。平台基于 NVIDIA Isaac Sim 构建,融合三维重建与视觉生成技术,可实现数字孪生级的高...
阅读原文

TeleStudio

TeleStudio是中国电信人工智能研究院(TeleAI)和中电信人工智能科技有限公司共同研发的全链路AI视频创作平台,平台以“专业能力平民化、创作流程标准化、生成...
阅读原文

10Kh RealOmni-Open

10Kh RealOmni-Open是Gen Robot.AI团队开源的具身智能数据集,是目前行业内规模最大的开源数据集之一。包含超过10000小时的数据、100万+任务剪辑,存储总量达...
阅读原文

UI-TARS Desktop

UI-TARS Desktop 是字节跳动开源的基于视觉语言模型的桌面自动化工具。支持通过自然语言指令控制电脑操作,如打开文件、浏览网页、操作软件等,能精准识别屏...
阅读原文

Rubin

Rubin是英伟达推出的新一代AI芯片平台,包含六种芯片:Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9网卡、BlueField-4 DPU和Spectrum-6以太网交换机。
阅读原文

NIM

NIM(NVIDIA Inference Microservices)是英伟达推出的用于快速部署加速生成式AI推理的微服务解决平台。NIM提供预构建、优化的推理微服务,支持在任何NVIDIA...
阅读原文

TeleChat3

TeleChat3是中国电信人工智能研究院(TeleAI)自主研发的千亿参数细粒度MoE语义大模型,采用国产算力训练,支持多轮对话、文本创作、代码生成等任务。模型包...
阅读原文
123300