AIGC动态欢迎阅读
原标题:与Sora一样能生成视频、图像,还能一次解读100万数据!
关键字:华为,字节跳动,模型,侵权,序列
文章来源:AI前线
内容字数:4078字
内容摘要:
来源| AIGC开放社区
大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在 Sora 一夜爆红之后,让人们意识到未来主流模型一定是文本 + 音频 + 图像 + 视频的多模态生成、理解功能。
因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。
LWM 是一种通用的多模态自回归模型,与前不久谷歌发布的 Gemini 1.5 一样,一次性可精准解答 100 万 tokens 的视频、文本,例如,LWM 可以正确回答 1 小时 YouTube 视频中包含 500 多个视频片段的问题。
开源地址:https://github.com/LargeWorldModel/LWM
论文地址:https://arxiv.org/abs/2402.08268
huggingface:https://huggingface.co/LargeWorldModel
此外,LWM 可以精准检索 100 万 tokens 文本中的内容,同时与 Sora 一样具备文本生成视频
原文链接:与Sora一样能生成视频、图像,还能一次解读100万数据!
联系作者
文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...