腾讯Sora开源引爆创意浪潮,官方暗示下月推出惊艳图生视频!

网友:最强开源视频模型

腾讯Sora开源引爆创意浪潮,官方暗示下月推出惊艳图生视频!

原标题:腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频
文章来源:量子位
内容字数:2363字

FastHunyuan:性的视频生成模型

近日,来自加州大学圣地亚哥分校(UCSD)的Hao AI实验室推出了全新的混元视频模型——FastHunyuan。这一模型在视频生成速度和效果上实现了显著提升,成为业界关注的焦点。

1. 提速与效果提升

FastHunyuan的最大亮点在于其处理速度的飞跃。新模型仅需1分钟即可生成5秒长的视频,相较于之前的模型提速了8倍,生成步骤从50步减少至6步。此外,生成的视频在画面细节上也更加逼真,尤其在衣物、水果和山峰等细节表现上都有显著改善。

2. 技术原理

FastHunyuan的技术基础是全新的视频DiT蒸馏配方,采用了阶段一致性模型(PCM)。研究团队经过多次尝试,最终选择了单阶段设置,以保持与原始PCM模型的配置相似。同时,他们利用OpenSoraPlan中的MixKit数据集进行了蒸馏,并在训练过程中进行了数据预处理,以优化文本嵌入和VAE潜在变量的生成。

3. 可扩展性与硬件要求

在推理阶段,FastHunyuan支持可扩展训练,用户可通过FSDP、序列并行和选择性激活检查点等方式进行操作。模型的最低硬件要求为40 GB GPU内存,并推荐使用80GB内存的GPU进行最佳性能体验。

4. 微调方式与未来规划

FastHunyuan提供全微调和LoRA微调两种方式,用户可根据自身硬件条件选择适合的微调方案。未来,团队计划添加更多蒸馏方法,支持更多模型,并进行代码更新,以提升模型的加载和保存速度。

5. 图像到视频功能的展望

除了加速模型,FastHunyuan团队还预告了备受期待的图像到视频生成功能,最快将在下个月上线。这一新功能的推出无疑将进一步扩展用户的创作可能性。

想要了解更多信息,用户可以访问FastHunyuan的GitHub和Hugging Face页面,获取最新的模型和文档。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...