AI项目和框架

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 推出的新一代系列语音转文本模型,包含两个版本:Voxtral Mini Transcribe V2 专注批量转录,支持13种语言、说话人分离...
阅读原文

Intern-S1-Pro

Intern-S1-Pro是上海AI实验室开源的万亿参数科学多模态大模型,采用MoE架构(1T总参数,22B激活),基于"通专融合"SAGE技术打造。
阅读原文

CL-bench

CL-bench是腾讯混元与复旦大学联合推出的Context学习能力评测基准,能衡量大语言模型从全新上下文信息中实时学习、应用知识的能力。
阅读原文

MiniCPM-o 4.5

MiniCPM-o 4.5 是面壁智能开源的 9B 参数全模态旗舰模型,采用端到端架构融合 SigLip2、Whisper、CosyVoice2 与 Qwen3-8B。
阅读原文

可灵3.0模型

可灵AI 3.0是快手推出的新一代多模态AI创作模型,实现"All in One"原生创作工作流。模型版本更新包括,推出视频3.0支持AI智能分镜、15秒长视频生成...
阅读原文

ACE-Step 1.5

ACE-Step 1.5是ACE Studio与StepFun联合推出的开源音乐生成基础模型,能在消费级硬件上实现商业级音乐生成。模型采用混合架构,语言模型作为规划器将用户提示...
阅读原文

玄武 CLI

玄武 CLI(xw-cli)是清昴智能开源的国产大模型部署工具,专为华为昇腾、沐曦、燧原等国产芯片深度优化,通过自动硬件检测和智能引擎调度,让用户无需复杂配...
阅读原文

SoulX-FlashTalk

SoulX-FlashTalk 是 Soul App 旗下 AI 团队开源的首个 14B 参数实时数字人生成模型,实现了 0.87 秒亚秒级延迟和 32fps 高帧率。
阅读原文

Qwen3-Coder-Next

Qwen3-Coder-Next 是阿里 Qwen 团队开源的编程智能体模型,采用混合专家(MoE)架构,总参数 80B 每次推理仅激活 3B,大幅降低显存与算力成本。
阅读原文

Thinker

Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。
阅读原文

GLM-OCR

GLM-OCR是智谱AI开源的轻量级多模态OCR模型,仅0.9B参数在OmniDocBench V1.5榜单以94.6分登顶SOTA。
阅读原文

Happy

Happy是什么 Happy 是开源工具,能让用户通过手机或网页客户端远程控制电脑上运行的 Claude Code 或 Codex。支持实时查看代码进度、语音交互、消息推送,采...
阅读原文

Step 3.5 Flash

Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。
阅读原文

Vidu Q3

Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型,专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片,画面、对白、环境...
阅读原文

UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。
阅读原文
17891011178