AI项目和框架 - 第 24 页

Step 3.5 Flash

Step 3.5 Flash 是阶跃星辰最新开源的基座模型，专为 Agent 场景推出。模型采用稀疏 MoE 架构，总参数 1960 亿，每 token 仅激活 110 亿参数，兼顾性能与效率。

阅读原文

AI工具

4个月前

Vidu Q3

Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型，专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片，画面、对白、环境...

阅读原文

AI工具

4个月前

UnifoLM-VLA-0

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作（VLA）大模型，基于 Qwen2.5-VL-7B 架构进行持续预训练。

阅读原文

AI工具

4个月前

MOVA

MOVA（MOSS Video and Audio）是上海创智学院OpenMOSS团队与模思智能（MOSI）联合推出的，中国首个高性能开源音视频端到端生成模型。模型突破传统视频"...

阅读原文

AI工具

4个月前

TTT-Discover

TTT-Discover（Test-Time Training to Discover）是斯坦福、英伟达等机构推出的AI科学发现方法。TTT-Discover在测试阶段对模型进行强化学习训练，非冻结权重...

阅读原文

AI工具

4个月前

Project Genie

Project Genie 是谷歌 DeepMind 推出的实验性 AI 世界模型原型，基于 Genie 3、Nano Banana Pro 和 Gemini 技术驱动。用户通过文字提示或上传图片可创建虚拟...

阅读原文

AI工具

4个月前

LingBot-World

LingBot-World 是蚂蚁灵波科技开源的交互式世界模型。模型通过可扩展数据引擎从大规模游戏环境学习物理规律与因果关系，实现动作驱动的精准生成。

阅读原文

AI工具

4个月前

Qwen3-ASR

Qwen3-ASR 是阿里云通义千问团队开源的系列语音识别模型，包含 1.7B 高精度版、0.6B 高效版两个 ASR 模型，以及专用的 Qwen3-ForcedAligner-0.6B 强制对齐模型。

阅读原文

AI工具

4个月前

SenseNova-MARS

SenseNova-MARS是商汤科技开源的多模态自主推理模型，提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM，模型能像智能体...

阅读原文

AI工具

4个月前

SkyReels-V3

SkyReels-V3是昆仑万维开源的多模态视频生成模型，用单一架构实现专业级视频创作。模型能将静态图像转化为动态影像，支持智能延长视频时长和电影级转场，让数...

阅读原文

AI工具

4个月前

Mureka V8

Mureka V8是昆仑万维推出的AI音乐大模型，基于MusiCoT（Music Chain-of-Thought）技术架构，实现从声音拼接到类人创作逻辑的跨越。

阅读原文

AI工具

4个月前

LongCat-Flash-Lite

LongCat-Flash-Lite是美团推出的新一代高效大语言模型。模型采用创新的混合专家（MoE）+ N元语法嵌入架构，总参数量达685亿，每次推理仅激活约29~45亿参数，...

阅读原文

AI工具

4个月前

MiniMax-M2-her

MiniMax-M2-her 是 MiniMax 专深度 AI 陪伴场景推出的角色扮演模型，是服务星野/Talkie 的底层模型。模型通过三大核心能力，独特的世界体验、有节奏的故事推...

阅读原文

AI工具

4个月前

MiniMax Music 2.5

MiniMax Music 2.5是MiniMax推出的新一代AI音乐创作模型，在「段落级强控制」与「物理级高保真」两大技术难题上实现突破。模型支持14种音乐结构标签（如前奏...

阅读原文

AI工具

4个月前

DeepSpeed-MII

DeepSpeed-MII 是 DeepSpeed 团队开源的 Python 库，提供高效模型推理。DeepSpeed-MII用阻塞 KV 缓存、连续批处理和动态 SplitFuse 等创新手段，显著提高推理...

阅读原文

AI工具

4个月前