清华、华为等提出iVideoGPT：专攻交互式世界模型

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：清华、华为等提出iVideoGPT：专攻交互式世界模型
关键字：模型,华为,世界,视频,数据
文章来源：机器之心
内容字数：6666字

内容摘要：

机器之心报道
机器之心编辑部iVideoGPT，满足世界模型高交互性需求。近年来，生成模型取得了显著进展，其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是，在多样化的互联网规模数据上以无监督方式学习，用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识，从而能够基于智能体的行为预测潜在的未来结果。
通过利用这些世界模型，采用基于强化学习的智能体可以在世界模型中进行想象、推理和规划，从而在现实世界中通过少量试验就能更安全、更有效地获得新技能。尽管生成模型和世界模型有着基本的联系，但用于视频生成的生成模型和用于智能体学习的世界模型的发展之间仍然存在显著的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。
在基于模型的强化学习领域，世界模型主要使用循环网络架构。这种设计允许在每一步中基于动作传递观察或潜在状态，从而促进交互行为学习。然而，这些模型大多专注于游戏或模拟环境，数据简单，并且对大规模复杂的 in-the-wild 数据进行建模的能力有限。
相比之下，互联网规模的视频生成模型可以合成逼真的长视频，这些视频可以通过文本描述或未来动作序列

原文链接：清华、华为等提出iVideoGPT：专攻交互式世界模型