AIGC动态欢迎阅读
原标题:大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
关键字:视频,模型,任务,视觉,语言
文章来源:新智元
内容字数:12635字
内容摘要:
新智元报道编辑:润 好困
【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。
但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。
论文地址:https://arxiv.org/abs/2402.17139
在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。
研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。
例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-frame generation task)。
模型可以通过生成操作视频(例如「如何制作寿司」)来回答人们的问题,这可能比文本响应更直观。
视觉和算法推理也可以作为下一帧/视频生成任务。视频也可以统一不同实体(embodiment)的观察空间(obser
原文链接:大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...