谷歌重磅发布零样本视频生成模型！效果惊艳，赶超扩散模型？

AIGC动态3年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：谷歌重磅发布零样本视频生成模型！效果惊艳，赶超扩散模型？
关键字：视频,模型,文本,图像,语言
文章来源：夕小瑶科技说
内容字数：1739字

内容摘要：

夕小瑶科技说原创作者 | 王二狗今日，谷歌AI发布了最新的视频生成模型VideoPoet。
VideoPoet 没有采用流行的扩散模型架构，其本质上是一种多模态大语言模型，可将任何自回归语言模型或大语言模型转换为高质量的视频生成器。扩散模型能支持的文本到视频、图像到视频等功能，VideoPoet 也都能支持。
VideoPoet 包含一些简单的组件：
预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容，有助于与文本等其他模式的集成。
自回归语言模型跨视频、图像、音频和文本多模态学习，以自回归预测序列中的下一个视频或音频token 。
LLM 训练框架引入了多模态生成学习目标的混合，包括文本到视频、文本到图像、图像到视频、视频帧延续、视频的inpainting和outpainting操作、视频风格化和视频转语言功能。此外，这些任务可以组合在一起以获得额外的零样本功能（例如文本到音频）。
图注：VideoPoet模型概述，该模型能够对各种以视频为中心的输入和输出执

原文链接：谷歌重磅发布零样本视频生成模型！效果惊艳，赶超扩散模型？