Meta Movie Gen：新的 SOTA 视频生成模型-技术报告解读

AIGC动态2年前 (2024)发布智猩猩GenAI

AIGC动态欢迎阅读

原标题：Meta Movie Gen：新的 SOTA 视频生成模型-技术报告解读
关键字：模型,视频,文本,作者,数据
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

01背景前段时间 Meta 发布了对标 OpenAI SORA 和快手可灵的视频生成模型 Movie Gen，这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分，进行详细介绍；然后对视频个性化、编辑和音频生成进行简单概述。
对应的论文：Movie Gen: A Cast of Media Foundation Models
对应的 Blog：How Meta Movie Gen could usher in a new AI-enabled era for content creators
02摘要Movie Gen 是一组基础模型，可生成具有不同宽高比、同步音频的高质量 1080P 高清视频。此外，作者还展示了其他的能力，比如基于指令的精确视频编辑、根据用户图像生成个性化视频等。
作者的模型在多个任务上都达到了新的 SOTA 水平，包括：文本->视频生成、视频个性化、视频编辑、视频->音频生成、文本->音频生成等。
最大的视频生成模型是一个 30B 参数的 Transformer 模型，经过训练，最大上下文长度可达 73K 视频 Token，对应以每秒 16 帧的速度

原文链接：Meta Movie Gen：新的 SOTA 视频生成模型-技术报告解读