谷歌10秒视频生成模型破世界记录！LLM终结扩散模型，效果碾压顶流Gen-2

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：谷歌10秒视频生成模型破世界记录！LLM终结扩散模型，效果碾压顶流Gen-2
关键字：视频,模型,文本,音频,图像
文章来源：新智元
内容字数：7772字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界！十秒超长视频生成效果碾压Gen-2，还可进行音频生成，风格转化。AI视频生成，或许就是2024年下一个最前沿（juan）的领域。
回看过去几个月，RunWay的Gen-2、Pika Lab的Pika 1.0，国内大厂等视频生成模型纷纷涌现，不断迭代升级。
这不，RunWay一大早就宣布Gen-2支持文本转语音的功能了，可以为视频创建画外音。
当然，谷歌在视频生成上也不甘落后，先是与斯坦福李飞飞团队共同发布了W.A.L.T，用Transformer生成的逼真视频引来关注。
今天，谷歌团队又发布了一个全新的视频生成模型VideoPoet，而且无需特定数据便可生成视频。
论文地址：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
最令人惊叹的是，VideoPoet一次能够生成10秒超长，且连贯大动作视频，完全碾压Gen-2仅有小幅动作的视频生成。
另外，与领先模型不同的是，Vide

原文链接：谷歌10秒视频生成模型破世界记录！LLM终结扩散模型，效果碾压顶流Gen-2