AIGC动态欢迎阅读
原标题:谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?
关键字:视频,模型,文本,图像,语言
文章来源:夕小瑶科技说
内容字数:1739字
内容摘要:
夕小瑶科技说 原创作者 | 王二狗今日,谷歌AI发布了最新的视频生成模型VideoPoet。
VideoPoet 没有采用流行的扩散模型架构,其本质上是一种多模态大语言模型,可将任何自回归语言模型或大语言模型转换为高质量的视频生成器。扩散模型能支持的文本到视频、图像到视频等功能,VideoPoet 也都能支持。
VideoPoet 包含一些简单的组件:
预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容,有助于与文本等其他模式的集成。
自回归语言模型跨视频、图像、音频和文本多模态学习,以自回归预测序列中的下一个视频或音频token 。
LLM 训练框架引入了多模态生成学习目标的混合,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频的inpainting和outpainting操作、视频风格化和视频转语言功能。此外,这些任务可以组合在一起以获得额外的零样本功能(例如文本到音频)。
图注:VideoPoet模型概述,该模型能够对各种以视频为中心的输入和输出执
原文链接:谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...