全球最大开源视频模型Step-Video-T2V一手实测

全球最大开源视频模型Step-Video-T2V一手实测

原标题:全球最大开源视频模型Step-Video-T2V一手实测
文章来源:科技未来派
内容字数:3439字

国产AI大模型强势来袭:阶跃星辰开源双模态模型,引领技术新潮流

近日,国内AI创业公司阶跃星辰与吉利汽车集团强强联手,联合开源了两款多模态大模型:Step-Video-T2V视频生成模型和Step-Audio语音交互模型,在AI领域掀起一股热潮。其中,Step-Video-T2V更是被官方宣称为全球参数量最大、性能最好的开源视频生成模型,引发广泛关注。

Step-Video-T2V:引领视频生成新高度

Step-Video-T2V凭借其卓越的性能,在视频生成领域树立了新的标杆。其四大技术特点令人瞩目:

首先,它能够直接生成最长204帧、540P分辨率的视频,确保视频内容的一致性和信息密度。其次,它采用高压缩比的Video-VAE,在保证视频重构质量的同时,将训练和生成效率提升了惊人的64倍。再次,对DiT模型进行了深入的系统优化,确保训练过程的高效性和稳定性。最后,它详细介绍了完整的训练策略,为其他研究者提供了宝贵的经验。

为了客观评估模型性能,阶跃星辰还开源了Step-Video-T2V-Eval评测数据集,涵盖了、风景、人物等11个内容类别,共计128个真实用户评测问题。评测结果显示,Step-Video-T2V在指令遵循、平滑性等方面全面超越了此前最好的开源模型。

实际测试中,Step-Video-T2V在复杂的场景描述下,例如“希区柯克式变焦镜头,废弃工厂内部,神秘人物持枪从长廊尽头迎面走来”,也能展现出优秀的镜头控制能力和细节处理,体现了其强大的技术实力。

Step-Audio:自然流畅的语音交互体验

与Step-Video-T2V同时发布的Step-Audio语音交互模型,也展现了其在语音生成领域的出色表现。其反应速度快,生成的语音自然流畅,并具备一定的情商。据悉,Step-Audio还具备高质量音色复刻和角色扮演功能,未来将在影视娱乐、社交、游戏等领域大展身手。

虽然在实际测试中,Step-Audio的表现并未展现出特别惊艳之处,但这或许与其当前的版本和应用场景有关,未来仍有很大的提升空间。

开源的意义:推动中国AI技术发展

阶跃星辰此次开源双模态大模型,不仅展现了中国AI技术的蓬勃发展,更体现了其开放合作的理念。通过开源,更多开发者可以参与到模型的改进和应用中,加速AI技术的进步,最终惠及更广泛的用户。

这不仅是技术层面的突破,更是中国AI领域走向世界舞台的重要一步,标志着中国力量在全球AI竞赛中将扮演越来越重要的角色。

未来,我们期待看到更多像阶跃星辰这样的企业,以开放的心态,推动中国AI技术持续创新,为世界带来更多惊喜。


联系作者

文章来源:科技未来派
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...