AI项目和框架
MMSI-Video-Bench
MMSI-Video-Bench 是用于评估多模态大语言模型(MLLMs)在视频空间智能方面能力的基准测试工具。由上海人工智能实验室等多所高校联合推出,全面评估模型在真...
Genie Sim 3.0
Genie Sim 3.0 是智元机器人推出的首个大语言模型驱动的开源仿真平台。平台基于 NVIDIA Isaac Sim 构建,融合三维重建与视觉生成技术,可实现数字孪生级的高...
10Kh RealOmni-Open
10Kh RealOmni-Open是Gen Robot.AI团队开源的具身智能数据集,是目前行业内规模最大的开源数据集之一。包含超过10000小时的数据、100万+任务剪辑,存储总量达...
UI-TARS Desktop
UI-TARS Desktop 是字节跳动开源的基于视觉语言模型的桌面自动化工具。支持通过自然语言指令控制电脑操作,如打开文件、浏览网页、操作软件等,能精准识别屏...
openPangu-VL-7B
openPangu-VL-7B 是华为推出的开源多模态模型,专为昇腾硬件优化。模型结合语言和视觉能力,具备强大的视觉定位和OCR功能,能高效处理图像、文档和视频任务。
MiroThinker v1.5
MiroThinker v1.5 是 MiroMind 团队开源的搜索智能体模型。模型通过交互式扩展技术,将推理与外部环境深度耦合,打破传统大模型依赖庞大参数的局限。
XVERSE-Ent
XVERSE-Ent是元象科技开源的专为泛娱乐领域设计的中英双语底座大模型,包含中文模型XVERSE-Ent-A4.2B和英文模型XVERSE-Ent-A5.7B。模型在角色一致性、长剧情...
粤公网安备 44011502001135号