AIGC动态欢迎阅读
原标题:首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
关键字:模型,上下文,文本,视频,图像
文章来源:新智元
内容字数:7396字
内容摘要:
新智元报道编辑:alan
【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别首个开源「世界模型」来了!
来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型:
论文地址:https://arxiv.org/pdf/2402.08268.pdf
代码地址:https://github.com/LargeWorldModel/LWM
LWM采用了一个包含各种视频和书籍的大型数据集,利用RingAttention技术对长序列进行可扩展的训练,最终将上下文长度增加到1M token。
在超长上下文的加持下,LWM系列模型可以轻松完成各种多模态任务,
比如文本图像生成(LWM 基于文本提示以自回归方式生成图像):文本视频生成:
烟花在天空中爆炸
海浪拍打着海岸
伦敦熙熙攘攘的街道,背景是红色的电话亭和大本钟
桌子上的芒果切片,相机从左向右移动
一个球在空中飞舞
慢动作花瓣落在地上
森林中燃烧的篝火
一艘在波涛汹涌的海洋上航行的船
基于图像的对话:
用户:如果你
原文链接:首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...