与Sora一样能生成视频、图像，还能一次解读100万数据！

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：与Sora一样能生成视频、图像，还能一次解读100万数据！
关键字：华为,字节跳动,模型,侵权,序列
文章来源：AI前线
内容字数：4078字

内容摘要：

来源| AIGC开放社区
大语言模型（LLM）在生成文本内容方面非常强，但在理解、生成视频、图像等方面略显不足。尤其是在 Sora 一夜爆红之后，让人们意识到未来主流模型一定是文本 + 音频 + 图像 + 视频的多模态生成、理解功能。
因此，加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型（Large World Model，简称“LWM”）。
LWM 是一种通用的多模态自回归模型，与前不久谷歌发布的 Gemini 1.5 一样，一次性可精准解答 100 万 tokens 的视频、文本，例如，LWM 可以正确回答 1 小时 YouTube 视频中包含 500 多个视频片段的问题。
开源地址：https://github.com/LargeWorldModel/LWM
论文地址：https://arxiv.org/abs/2402.08268
huggingface：https://huggingface.co/LargeWorldModel
此外，LWM 可以精准检索 100 万 tokens 文本中的内容，同时与 Sora 一样具备文本生成视频

原文链接：与Sora一样能生成视频、图像，还能一次解读100万数据！