AI项目和框架

Qwen3-ASR

Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型,包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型,以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。
阅读原文

SenseNova-MARS

SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体...
阅读原文

SkyReels-V3

SkyReels-V3是昆仑万维开源的多模态视频生成模型,用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像,支持智能延长视频时长和电影级转场,让数...
阅读原文

Mureka V8

Mureka V8是昆仑万维推出的AI音乐大模型,基于MusiCoT(Music Chain-of-Thought)技术架构,实现从声音拼接到类人创作逻辑的跨越。
阅读原文

LongCat-Flash-Lite

LongCat-Flash-Lite是美团推出的新一代高效大语言模型。模型采用创新的混合专家(MoE)+ N元语法嵌入架构,总参数量达685亿,每次推理仅激活约29~45亿参数,...
阅读原文

MiniMax-M2-her

MiniMax-M2-her 是 MiniMax 专深度 AI 陪伴场景推出的角色扮演模型,是服务星野/Talkie 的底层模型。模型通过三大核心能力,独特的世界体验、有节奏的故事推...
阅读原文

MiniMax Music 2.5

MiniMax Music 2.5是MiniMax推出的新一代AI音乐创作模型,在「段落级强控制」与「物理级高保真」两大技术难题上实现突破。模型支持14种音乐结构标签(如前奏...
阅读原文

DeepSpeed-MII

DeepSpeed-MII 是 DeepSpeed 团队开源的 Python 库,提供高效模型推理。DeepSpeed-MII用阻塞 KV 缓存、连续批处理和动态 SplitFuse 等创新手段,显著提高推理...
阅读原文

Earth-2

NVIDIA Earth-2 是英伟达推出的全球首套完全开源的 AI 气象预测模型家族,基于 Atlas、StormScope、HealDA 三大核心架构,分别实现 15 天全球中期预报、0-6 ...
阅读原文

Lucy 2

Lucy 2.0 是 Decart AI推出的实时世界转换模型,支持让高保真视频编辑从离线渲染跃升为可交互的实时体验。
阅读原文

DeepSeek-OCR 2

DeepSeek-OCR 2 是 DeepSeek 团队推出的第二代 OCR 模型,通过引入 DeepEncoder V2 架构,实现从固定扫描到语义推理的范式转变。模型采用因果流查询和双流注...
阅读原文

Vidu Q2参考生Pro

Vidu Q2参考生Pro是全球首创的「万物可参考」视频模型,模型通过支持多模态输入(2个视频和4张图片),为创作者提供强大的功能。
阅读原文

LingBot-Depth

LingBot-Depth 是蚂蚁灵波科技开源的高精度空间感知模型,专为解决机器人在透明、反光物体(如玻璃)场景下的深度感知难题设计。
阅读原文

Kimi K2.5

Kimi K2.5 是月之暗面开源的全新一代全能旗舰模型,模型基于约 15T 视觉与文本数据训练而成,具备顶尖的代码生成、视觉理解能力,支持自主 Agent 集群协作,...
阅读原文

白虎-VTouch

白虎-VTouch是国家地方共建人形机器人创新中心联合纬钛机器人开源的全球首个最大规模跨本体视触觉多模态数据集。数据集包含视触觉传感器数据、RGB-D数据、关...
阅读原文
11718192021186