AI项目和框架 - 第 26 页

LightOnOCR-2-1B

LightOnOCR-2-1B 是 LightOnAI 推出的高效 OCR 模型，参数量仅 1B，在复杂文档处理中表现卓越，擅长学术论文、数学公式和复杂表格的识别。

阅读原文

AI工具

4个月前

VibeVoice-ASR

VibeVoice-ASR 是微软开源的先进语音识别模型，专为处理长达60分钟的长音频设计。模型能一次性处理整段音频，保持全局上下文，避免传统模型分段处理导致的上...

阅读原文

AI工具

4个月前

Being-H0.5

Being-H0.5 是卢宗青团队推出的通用机器人模型，能通过人类先验知识和统一的动作对齐，解决机器人在不同形态硬件间的策略迁移问题。

阅读原文

AI工具

4个月前

AgentCPM-Report

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合推出的本地化深度调研智能体，基于8B参数的MiniCPM4.1模型。

阅读原文

AI工具

4个月前

Chroma 1.0

Chroma 1.0 是FlashLabs首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。模型通过紧密耦合语音理解与生成，采用1:2文...

阅读原文

AI工具

4个月前

Model1

Model1 是 DeepSeek 在 FlashMLA 代码库中更新曝光的神秘模型，可能为下一代旗舰模型 DeepSeek-V4 的内部代号或首个工程版本。

阅读原文

AI工具

4个月前

Step3-VL-10B

Step3-VL-10B 是阶跃星辰推出的仅含 10B 参数的开源多模态模型，在视觉感知、逻辑推理、数学竞赛和通用对话等任务中达到 200B 参数模型的性能水平。

阅读原文

AI工具

4个月前

EmbodiChain

EmbodiChain 是跨维智能开源的具身智能学习平台，通过生成式仿真数据推动具身智能的发展。自动创建符合物理规律的 3D 场景和任务，结合在线数据流和自我修复...

阅读原文

AI工具

4个月前

json-render

json-render是 Vercel 开源的项目，解决 AI 生成 UI 的不可控问题。json-render通过定义一个 Catalog，约束 AI 只能生成符合特定 Schema 的 JSON 数据，用前...

阅读原文

AI工具

4个月前

COTA

COTA是超参数科技推出的新型游戏智能体，基于大语言模型（LLM）驱动，具备认知、操作、战术和辅助能力。COTA突破传统强化学习与监督学习模式，通过架构创新实...

阅读原文

AI工具

4个月前

x-Algorithm

x-Algorithm是马斯克开源的x平台推荐算法，为“为你”信息流提供个性化内容的核心系统。结合用户关注账号的帖子（In-Network）和通过机器学习检索的全球内容（O...

阅读原文

AI工具

4个月前

PersonaPlex

NVIDIA PersonaPlex 是英伟达推出的全双工对话AI模型，具备同时听和说的能力，能处理自然对话中的打断、停顿和回应。用户可通过语音和文本提示自定义角色和声...

阅读原文

AI工具

4个月前

GLM-4.7-Flash

GLM-4.7-Flash 是智谱开源、免费的混合思考模型，具有300亿参数和30亿激活参数。模型在性能与效率上达到平衡，尤其在编程、中文写作、翻译等多场景表现出色，...

阅读原文

AI工具

4个月前

VerseCrafter

VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型，具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练...

阅读原文

AI工具

4个月前

NovaSR

NovaSR 是开源的音频超分辨率模型，仅有 52KB 能将 16kHz 的低采样率音频（如电话音质）提升到 48kHz 的高采样率音频（如录音室级音质）。模型通过神经网络预...

阅读原文

AI工具

4个月前