AI项目和框架

BabyVision

BabyVision是 UniPat AI团队推出的多模态理解评测集,评估多模态语言模型(MLLMs)和图像生成模型在视觉推理任务上的表现。包含两个主要赛道:MLLM评估和生成...
阅读原文

PixVerse R1

PixVerse R1 是爱诗科技(PixVerse)推出的全球首个通用实时世界模型,标志着AI视频生成从“预录制”迈向“实时动态生成”的重大突破。R1通过三大核心技术实现创...
阅读原文

Baichuan-M3

Baichuan-M3是百川智能正式发布的新一代开源医疗增强大语言模型。模型在问诊能力、医疗幻觉控制以及Healthbench和Healthbench Hard评测中均排名第一,超越了O...
阅读原文

女娲智能体OS

女娲智能体OS(Nuwax Agent OS)是全球首个产品级开源的通用智能体操作系统。女娲智能体OS支持将AI从单纯的对话工具转变为企业的智能执行者,通过自主执行引...
阅读原文

Oh My OpenCode

Oh My OpenCode 是为 AI 编程助手设计的开源增强插件,能让 AI (如OpenCode )像真正的开发团队一样高效协作,提升编程体验。工具通过集成多种 AI 模型(如 ...
阅读原文

Spirit-v1.5

Spirit-v1.5 是千寻智能推出的具身智能基础模型。模型采用多样化、开放式的数据采集方式,摒弃传统“干净数据”的限制,让模型在预训练阶段接触更丰富的动作和...
阅读原文

Obsidian-skills

Obsidian-skills 是 Obsidian 团队开发的一组开源工具,帮助用户更好地将 AI 工具(如 Claude Code)与 Obsidian 笔记系统结合使用。包含三大核心技能:obsid...
阅读原文

FantasyWorld

FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基...
阅读原文

Nemotron Speech ASR

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转...
阅读原文

Qwen3-VL-Embedding

Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型,专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构,能将...
阅读原文

Qwen3-VL-Reranker

Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型,专为多模态信息检索设计。模型接收任意模态组合的查询与文档对(如图文查询匹配图文文档...
阅读原文

VoiceSculptor

VoiceSculptor 是西北工业大学、语图智能等机构推出的音色设计模型,能通过自然语言指令实现对语音合成的细粒度控制。
阅读原文

ChatDev 2.0

ChatDev 2.0 是清华大学、上海交通大学、OpenBMB、面壁智能联合团队开源的零代码多智能体工具。工具通过可视化交互,让用户通过“拖拽 + 配置”快速构建多智能...
阅读原文

EvoCUA

EvoCUA(Evolving Computer Use Agent)是美团开源的多模态模型,专注于计算机使用自动化任务。EvoCUA通过自然语言指令和屏幕截图实现对Chrome、Excel、Power...
阅读原文

MMSI-Video-Bench

MMSI-Video-Bench 是用于评估多模态大语言模型(MLLMs)在视频空间智能方面能力的基准测试工具。由上海人工智能实验室等多所高校联合推出,全面评估模型在真...
阅读原文
134567169