全球最大开源视频模型，现在也Created in China了，阶跃出品

AIGC动态1年前 (2025)发布量子位

开源生态滚雪球ing

原标题：全球最大开源视频模型，现在也Created in China了，阶跃出品
文章来源：量子位
内容字数：9329字

阶跃星辰开源两款多模态大模型：Step-Video-T2V和Step-Audio

近日，阶跃星辰联合吉利汽车集团开源了两款多模态大模型：Step-Video-T2V和Step-Audio，引发业界关注。文章详细介绍了这两款模型的技术特点、性能表现以及实际应用。

1. Step-Video-T2V：全球参数量最大的开源视频生成模型

Step-Video-T2V是全球参数量最大的开源视频生成模型，拥有30B参数量，原生支持中英双语输入。其主要技术特点包括：能够生成最长204帧、540P分辨率的视频；采用高压缩比的Video-VAE，大幅提升训练和生成效率；对DiT模型进行系统优化，确保训练高效稳定；引入Video-DPO算法，提升视频生成质量。

在Step-Video-T2V-Eval评测数据集上的表现显示，该模型在指令遵循、平滑性、物理合理性、美感度等方面均超越此前最佳的开源视频模型。实际测试也证明了其在复杂场景、人物细节刻画以及运镜控制方面的强大能力，生成的视频画面流畅、细节丰富，语义理解和指令遵循能力突出。

2. Step-Audio：行业首款产品级开源语音交互大模型

Step-Audio是行业内首个产品级的开源语音交互模型。在阶跃自建的StepEval-Audio-360基准测试以及其他主流公开测试集中，其性能均超过同类开源模型，尤其在汉语水平考试六级（HSK-6）评测中表现突出。

Step-Audio能够生成不同情绪、方言、语种、歌声和个性化风格的语音，并实现高质量的音色复刻和角色扮演，适用于影视娱乐、社交、游戏等多种场景。

3. 阶跃星辰的多模态生态建设

阶跃星辰已先后发布11款多模态大模型，并持续保持高频迭代。其多模态模型在国内外各大权威评测中屡获佳绩，积累了大量的市场和开发者用户。例如，茶百道已在其数千家门店接入Step-1V模型进行智能巡检，而多个开发者也选择阶跃的多模态模型API。

此次开源，阶跃星辰采用MIT开源协议，并致力于降低产业接入门槛，旨在促进大模型技术的共享与创新，推动人工智能的普惠发展。Step-Audio更提供了一整套实时对话方案，方便开发者直接使用。

4. 中国开源力量的崛起

文章最后指出，中国开源力量正在崛起，并在全球舞台上展现实力。阶跃星辰的开源行动，以及此前DeepSeek-R1的出现，都标志着中国在开源大模型领域取得了显著进展，并正在改变全球开发者的选择逻辑。中国开源力量正在用实力说话，并将在未来的AI大模型世界中扮演重要角色。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI视频生成技术 # 中国人工智能 # 国产AI视频模型 # 大型语言模型视频应用 # 开源视频模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

全球最大开源视频模型，现在也Created in China了，阶跃出品

开源生态滚雪球ing

阶跃星辰开源两款多模态大模型：Step-Video-T2V和Step-Audio

1. Step-Video-T2V：全球参数量最大的开源视频生成模型

2. Step-Audio：行业首款产品级开源语音交互大模型

3. 阶跃星辰的多模态生态建设

4. 中国开源力量的崛起

联系作者

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

相关文章

暂无评论