Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开
关键字：视频,模型,维度,编码器,文本
文章来源：量子位
内容字数：0字

内容摘要：

梦晨衡宇发自凹非寺量子位 | 公众号 QbitAI刚刚，Meta抢在OpenAI之前推出自己的Sora——Meta Movie Gen
Sora有的它都有，可创建不同宽高比的高清长视频，支持1080p、16秒、每秒16帧。
Sora没有的它还有，能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。
Meta表示，这是“迄今为止最先进的媒体基础模型（Media Foundation Models）”。
只需一句“把灯笼变成飞向空中的泡泡”，就能替换视频中的物体，同时透明的泡泡正确反射了背景环境。
上传一张自己的照片，就能成为AI电影的主角。
生成的视频不再无声，也不只是能安一个背景音乐。
比如看这里！视频会配合滑板轮子转动和落地配上逼真音效。（注意打开声音）
有人表示，随着大量创作者学会使用AI视频编辑工具，很难想象几年后长视频和短视频会变成什么样。
这一次，与Sora只有演示和官网博客不同，Meta在92页的论文中把架构、训练细节都公开了。
不过模型本身还没开源，遭到抱抱脸工程师贴脸开大，直接在评论区扔下Meta的开源主页链接：
在这等着您嗷。

原文链接：Meta版Sora无预警来袭！抛弃扩散损失，音视频生成/画面编辑全包，92页论文无保留公开