首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作
关键字：模型,上下文,文本,视频,图像
文章来源：新智元
内容字数：7396字

内容摘要：

新智元报道编辑：alan
【新智元导读】来自UC berkeley的研究人员开源了首个世界模型，多模态性能优秀，长视频理解吊打GPT-4，同时将上下文长度增加到百万级别首个开源「世界模型」来了！
来自UC berkeley的研究人员发布并开源了LWM（LargeWorldModel）系列模型：
论文地址：https://arxiv.org/pdf/2402.08268.pdf
代码地址：https://github.com/LargeWorldModel/LWM
LWM采用了一个包含各种视频和书籍的大型数据集，利用RingAttention技术对长序列进行可扩展的训练，最终将上下文长度增加到1M token。
在超长上下文的加持下，LWM系列模型可以轻松完成各种多模态任务，
比如文本图像生成（LWM 基于文本提示以自回归方式生成图像）：文本视频生成：
烟花在天空中
海浪拍打着海岸
伦敦熙熙攘攘的街道，背景是红色的电话亭和大本钟
桌子上的芒果切片，相机从左向右移动
一个球在空中飞舞
慢动作花瓣落在地上
森林中燃烧的篝火
一艘在波涛汹涌的海洋上航行的船
基于图像的对话：
用户：如果你