Hugging Face CEO转发支持。
原标题:DeepSeek迎最强队友!国产大模型开源猛踩油门,全球第一,免费可用,技术报告公开
文章来源:智东西
内容字数:4301字
中国AI开源势力崛起:阶跃星辰开源全球最大参数量开源文生视频模型
近日,中国AI大模型厂商阶跃星辰与吉利汽车集团联合开源了两款Step系列多模态大模型:Step-Video-T2和Step-Audio。这一举动得到了Hugging Face CEO的转发支持,标志着中国AI开源势力进一步崛起。
1. Step-Video-T2:全球参数量最大的开源文生视频模型
Step-Video-T2拥有300亿参数,是目前全球参数量最大的开源文生视频大模型。它能够生成最长204帧、540P分辨率的视频,并展现出较强的语义理解和指令遵循能力,可以还原复杂的和运镜要求。该模型采用了高压缩比的Video-VAE模型,显著提高了训练和生成效率。此外,它还利用双语文本编码器处理中英文提示,并优化了基于流匹配的DIT架构和Video-DPO算法,提升了视频生成质量。阶跃星辰还开源了用于评估文生视频质量的新基准数据集Step-Video-T2V-Eval。
2. Step-Audio:高效的语音交互模型
Step-Audio语音交互模型能够根据不同场景需求生成各种风格的语音,并支持语音识别、语义理解、对话、语音克隆、音频编辑和语音合成。它在多个主流公开测试集中性能排名第一,并解决了现有级联架构语音交互系统存在的延迟、错误传播等问题。阶跃星辰还开源了高效的Step-Audio-TTS-3B模型和多维度评估体系StepEval-Audio-360基准测试。
3. 开源的意义和影响
阶跃星辰开源Step系列模型,旨在分享技术成果,推动多模态模型技术发展,并促进产业落地。 其采用MIT开源协议,与DeepSeek一致。这一举动在DeepSeek掀起的开源浪潮之后,进一步壮大了中国AI开源势力,为开发者提供了更多机会,加速了AI技术创新。
4. 模型性能及局限
虽然Step-Video-T2在生成复杂和画面细节方面表现出色,但在处理高难度动作(例如跳水)时,仍存在一些肢体扭曲等问题。 这体现了当前文生视频技术仍处于发展阶段。
5. 总结
阶跃星辰开源Step系列模型是推动中国AI开源生态发展的重要一步,其高性能模型和开源数据集将为AI社区带来巨大贡献,并有望加速多模态AI技术的应用和发展。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。