谷歌推出视频生成大型语言模型VideoPoet

AIGC动态3年前 (2023)发布 AI范儿

AIGC动态欢迎阅读

原标题：谷歌推出视频生成大型语言模型VideoPoet
关键字：视频,模型,文本,音频,图像
文章来源：AI范儿
内容字数：2042字

内容摘要：

点击上方蓝字关注我们“Google推出VideoPoet，一款生成式AI系统，通过文本等输入创建和编辑视频。与竞争模型不同，VideoPoet整合多项功能于单一模型，包括文本转视频、图像转视频、视频风格化等。该模型利用多个标记器跨视频、图像、音频和文本进行训练，可生成可变长度、多样风格的视频。Google 推出了 VideoPoet，这是一款新型生成式人工智能系统，能够通过文本和其他输入创建和编辑视频。
据 Google 表示，VideoPoet是一款庞大的语言模型，专为各种视频生成任务而设计，包括文本转视频、图像转视频、视频风格化、视频修复与拓展以及视频转音频等。与竞争模型不同，VideoPoet将许多功能集成到一个单一模型中，而不是依赖于为每个任务分别训练的组件。
VideoPoet使用多个标记器（MAGVIT V2 用于视频和图像，SoundStream 用于音频），以训练跨视频、图像、音频和文本多模态的自回归语言模型。一旦模型生成了在某个上下文中有条件的标记，这些标记可以通过标记解码器转换回可视化表示。
VideoPoet能够生成具有可变长度、多种和样式的视频，具体取决于文

原文链接：谷歌推出视频生成大型语言模型VideoPoet