AI项目和框架 - 第 13 页

SpatialLM 1.5

SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练，能理解自然语言指令，输出包含空间结构、物体关系和物理参数的空间语言。用户...

阅读原文

AI工具

2个月前

WhisperLiveKit

WhisperLiveKit 是开源的实时语音识别工具，能将语音实时转录为文字，支持说话人识别。工具基于先进的技术如 SimulStreaming 和 WhisperStreaming，提供超低...

阅读原文

AI工具

2个月前

XBai o4

XBai o4是开源的大语言模型，基于“反射生成形式”训练，结合长CoT强化学习和过程奖励学习，在复杂推理能力上表现出色，中等模式下已超越OpenAI-o3-mini。

AI工具

2个月前

VibeVoice

VibeVoice 是微软推出的新型文本到语音（TTS）模型，能生成富有表现力、长篇幅、多说话者的对话式音频，如播客。

阅读原文

AI工具

2个月前

EchoMimicV3

EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数，基于任务混合和模态混合范式，结合新颖的训练与推理策略，实现快速、...

阅读原文

AI工具

2个月前

SpatialGen

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构，支持根据文字描述、参考图像和 3D 空间布局，生成时空一致的多视角图像，且能进一步得...

阅读原文

AI工具

2个月前

问小白o4

问小白o4是国内首个并行思考模型，能同时启动8条思考路径，自动筛选最优解，提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习，具备深度推理和高质量思...

阅读原文

AI工具

2个月前

FutureX

FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的，专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个...

阅读原文

AI工具

2个月前

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本，具备混合推理架构，能自由切换思考模式与非思考模式，思考效率显著提升。模型在V3的基础上进行多项升级，上下...

阅读原文

AI工具

2个月前

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5（简称SF-LLaVA-1.5）是专为长视频理解设计的高效视频大语言模型。基于双流（SlowFast）机制，平衡处理更多输入帧与减少每帧令牌数量之间...

阅读原文

AI工具

2个月前

ComoRAG

ComoRAG 是华南理工大学未来技术学院、微信 AI 团队等机构联合推出的认知启发式检索增强生成（RAG）框架，专门用在长篇叙事文本的理解和推理。

阅读原文

AI工具

2个月前

Grok 2.5

Grok 2.5 是埃隆·马斯克旗下 xAI 公司开源的人工智能模型。模型文件可在 Hugging Face 下载，包含 42 个文件，总大小约 500GB，需 8 张显存超 40GB 的 GPU 才...

阅读原文

AI工具

2个月前

Fun-ASR

Fun-ASR 是钉钉与通义实验室语音团队联合推出的新一代语音识别大模型。经过海量音频数据训练，能精准识别互联网、科技、家装、畜牧等十多个行业的专业术语，...

阅读原文

AI工具

2个月前

Intern-S1-mini

Intern-S1-mini是上海人工智能实验室推出的轻量级开源多模态推理模型。基于与 Intern-S1 相同的技术构建。模型融合 8B 密集语言模型（Qwen3）和 0.3B 视觉编...

阅读原文

AI工具

2个月前

Seed-OSS

Seed-OSS 是字节跳动 Seed 团队开源的系列大型语言模型，专注于长文本处理、推理和智能代理能力。模型包含多个版本，如 Seed-OSS-36B-Base 和 Seed-OSS-36B-I...

阅读原文

AI工具

2个月前