DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开

Hugging Face CEO转发支持。

DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开

原标题:DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开
文章来源:智东西
内容字数:4301字

中国AI开源势力崛起:阶跃星辰开源全球最大参数量开源文生视频模型

近日,中国AI大模型厂商阶跃星辰与吉利汽车集团联合开源了两款Step系列多模态大模型:Step-Video-T2和Step-Audio。这一举动得到了Hugging Face CEO的转发支持,标志着中国AI开源势力进一步崛起。

1. Step-Video-T2:全球参数量最大的开源文生视频模型

Step-Video-T2拥有300亿参数,是目前全球参数量最大的开源文生视频大模型。它能够生成最长204帧、540P分辨率的视频,并展现出较强的语义理解和指令遵循能力,可以还原复杂的和运镜要求。该模型采用了高压缩比的Video-VAE模型,显著提高了训练和生成效率。此外,它还利用双语文本编码器处理中英文提示,并优化了基于流匹配的DIT架构和Video-DPO算法,提升了视频生成质量。阶跃星辰还开源了用于评估文生视频质量的新基准数据集Step-Video-T2V-Eval。

2. Step-Audio:高效的语音交互模型

Step-Audio语音交互模型能够根据不同场景需求生成各种风格的语音,并支持语音识别、语义理解、对话、语音克隆、音频编辑和语音合成。它在多个主流公开测试集中性能排名第一,并解决了现有级联架构语音交互系统存在的延迟、错误传播等问题。阶跃星辰还开源了高效的Step-Audio-TTS-3B模型和多维度评估体系StepEval-Audio-360基准测试。

3. 开源的意义和影响

阶跃星辰开源Step系列模型,旨在分享技术成果,推动多模态模型技术发展,并促进产业落地。 其采用MIT开源协议,与DeepSeek一致。这一举动在DeepSeek掀起的开源浪潮之后,进一步壮大了中国AI开源势力,为开发者提供了更多机会,加速了AI技术创新。

4. 模型性能及局限

虽然Step-Video-T2在生成复杂和画面细节方面表现出色,但在处理高难度动作(例如跳水)时,仍存在一些肢体扭曲等问题。 这体现了当前文生视频技术仍处于发展阶段。

5. 总结

阶跃星辰开源Step系列模型是推动中国AI开源生态发展的重要一步,其高性能模型和开源数据集将为AI社区带来巨大贡献,并有望加速多模态AI技术的应用和发展。


联系作者

文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...