AI工具

随变

随变是字节跳动旗下抖音推出的AI视频社区应用,定位为潮流玩法社区,主打AI形象生成、合拍等创新功能。应用通过简化界面(仅保留关注、推荐双栏)降低用户门...
阅读原文

Obsidian-skills

Obsidian-skills 是 Obsidian 团队开发的一组开源工具,帮助用户更好地将 AI 工具(如 Claude Code)与 Obsidian 笔记系统结合使用。包含三大核心技能:obsid...
阅读原文

FantasyWorld

FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基...
阅读原文

Yollo AI

Yollo AI是结合沉浸式AI角色对话和AI视频生成平台。平台拥有超过20万种个性化的AI角色,用户在这里能找到AI伴侣,进行浪漫互动或奇幻角色扮演,体验深度情感...
阅读原文

Nemotron Speech ASR

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转...
阅读原文

Evai建筑大师

Evai 建筑大师(OpenEvai)是专为建筑师、室内设计师和景观规划师打造的云端 AI 创作平台。通过集成前沿的 AIGC 技术,打破专业设计的算力壁垒,提供从草图到...
阅读原文

Qwen3-VL-Embedding

Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型,专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构,能将...
阅读原文

Qwen3-VL-Reranker

Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型,专为多模态信息检索设计。模型接收任意模态组合的查询与文档对(如图文查询匹配图文文档...
阅读原文

VoiceSculptor

VoiceSculptor 是西北工业大学、语图智能等机构推出的音色设计模型,能通过自然语言指令实现对语音合成的细粒度控制。
阅读原文

ChatDev 2.0

ChatDev 2.0 是清华大学、上海交通大学、OpenBMB、面壁智能联合团队开源的零代码多智能体工具。工具通过可视化交互,让用户通过“拖拽 + 配置”快速构建多智能...
阅读原文

EvoCUA

EvoCUA(Evolving Computer Use Agent)是美团开源的多模态模型,专注于计算机使用自动化任务。EvoCUA通过自然语言指令和屏幕截图实现对Chrome、Excel、Power...
阅读原文

MMSI-Video-Bench

MMSI-Video-Bench 是用于评估多模态大语言模型(MLLMs)在视频空间智能方面能力的基准测试工具。由上海人工智能实验室等多所高校联合推出,全面评估模型在真...
阅读原文

Youtu-LLM

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大...
阅读原文

OS-Copilot

OS-Copilot是开源的操作系统智能助手项目,为构建能与操作系统中各种元素(如网络、代码终端、文件、多媒体和第三方应用)交互的通用计算机智能体。核心是FRI...
阅读原文

Genie Sim 3.0

Genie Sim 3.0 是智元机器人推出的首个大语言模型驱动的开源仿真平台。平台基于 NVIDIA Isaac Sim 构建,融合三维重建与视觉生成技术,可实现数字孪生级的高...
阅读原文
123300