大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界
关键字：视频,模型,任务,视觉,语言
文章来源：新智元
内容字数：12635字

内容摘要：

新智元报道编辑：润好困
【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为，如果用大语言模型的思路来做大视频模型，能解决很多语言模型不擅长的问题，可能能更进一步接近世界模型。没人怀疑，OpenAI开年推出的史诗巨作Sora，将改变视频相关领域的内容生态。
但Google DeepMind、UC伯克利和MIT的研究人员更进一步，在他们眼里，「大视频模型」也许能够像世界模型一样，真正的做到理解我们身处的这个世界。
论文地址：https://arxiv.org/abs/2402.17139
在作者看来，视频生成将彻底改变物理世界的决策，就像语言模型如何改变数字世界一样。
研究人员认为，与文本类似，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。
例如，经典的计算机视觉任务可以被视为下一代帧生成任务（next-frame generation task）。
模型可以通过生成操作视频（例如「如何制作寿司」）来回答人们的问题，这可能比文本响应更直观。
视觉和算法推理也可以作为下一帧/视频生成任务。视频也可以统一不同实体（embodiment）的观察空间（obser

原文链接：大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界