从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

AIGC动态8个月前发布 量子位
12 0 0

从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

AIGC动态欢迎阅读

原标题:从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成
关键字:视频,模型,视觉,世界,语言
文章来源:量子位
内容字数:4469字

内容摘要:


允中 发自 凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型,也能通过Transformer来实现了!
来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。
它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。
据团队介绍,通过预测Token的方式来建立通用场景世界模型,WorldDreamer是业界首个。
它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。
可视化实验已经证明,WorldDreamer已经深刻理解了通用世界的动态变化规律。
那么,它都能完成哪些视频任务,效果如何呢?
支持多种视频任务图像生成视频(Image to Video)WorldDreamer可以基于单一图像预测未来的帧。
只需首张图像输入,WorldDreamer将剩余的视频帧视为被掩码的视觉Token,并对这部分Token进行预测。
如下图所示,WorldDreamer具有生成高质量电影级别视频的能力。
其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。


原文链接:从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...