全球最大开源视频模型,现在也Created in China了,阶跃出品

开源生态滚雪球ing

全球最大开源视频模型,现在也Created in China了,阶跃出品

原标题:全球最大开源视频模型,现在也Created in China了,阶跃出品
文章来源:量子位
内容字数:9329字

阶跃星辰开源两款多模态大模型:Step-Video-T2V和Step-Audio

近日,阶跃星辰联合吉利汽车集团开源了两款多模态大模型:Step-Video-T2V和Step-Audio,引发业界关注。文章详细介绍了这两款模型的技术特点、性能表现以及实际应用。

1. Step-Video-T2V:全球参数量最大的开源视频生成模型

Step-Video-T2V是全球参数量最大的开源视频生成模型,拥有30B参数量,原生支持中英双语输入。其主要技术特点包括:能够生成最长204帧、540P分辨率的视频;采用高压缩比的Video-VAE,大幅提升训练和生成效率;对DiT模型进行系统优化,确保训练高效稳定;引入Video-DPO算法,提升视频生成质量。

在Step-Video-T2V-Eval评测数据集上的表现显示,该模型在指令遵循、平滑性、物理合理性、美感度等方面均超越此前最佳的开源视频模型。实际测试也证明了其在复杂场景、人物细节刻画以及运镜控制方面的强大能力,生成的视频画面流畅、细节丰富,语义理解和指令遵循能力突出。

2. Step-Audio:行业首款产品级开源语音交互大模型

Step-Audio是行业内首个产品级的开源语音交互模型。在阶跃自建的StepEval-Audio-360基准测试以及其他主流公开测试集中,其性能均超过同类开源模型,尤其在汉语水平考试六级(HSK-6)评测中表现突出。

Step-Audio能够生成不同情绪、方言、语种、歌声和个性化风格的语音,并实现高质量的音色复刻和角色扮演,适用于影视娱乐、社交、游戏等多种场景。

3. 阶跃星辰的多模态生态建设

阶跃星辰已先后发布11款多模态大模型,并持续保持高频迭代。其多模态模型在国内外各大权威评测中屡获佳绩,积累了大量的市场和开发者用户。例如,茶百道已在其数千家门店接入Step-1V模型进行智能巡检,而多个开发者也选择阶跃的多模态模型API。

此次开源,阶跃星辰采用MIT开源协议,并致力于降低产业接入门槛,旨在促进大模型技术的共享与创新,推动人工智能的普惠发展。Step-Audio更提供了一整套实时对话方案,方便开发者直接使用。

4. 中国开源力量的崛起

文章最后指出,中国开源力量正在崛起,并在全球舞台上展现实力。阶跃星辰的开源行动,以及此前DeepSeek-R1的出现,都标志着中国在开源大模型领域取得了显著进展,并正在改变全球开发者的选择逻辑。 中国开源力量正在用实力说话,并将在未来的AI大模型世界中扮演重要角色。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...