WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型
WorldMem是一款由南洋理工大学、北京大学与上海AI实验室联合开发的创新型人工智能世界生成模型。该模型通过引入记忆机制,有效解决了传统世界生成模型在长时序生成中一致性不足的关键问题。在WorldMem中,智能体能够在多样化的场景中自如探索,生成的虚拟世界在视角和位置变化后依然保持几何一致性。
WorldMem是什么
WorldMem是一款由南洋理工大学、北京大学和上海AI实验室联合推出的前沿AI世界生成模型。通过引入记忆机制,WorldMem解决了传统世界生成模型在长时间序列生成中常见的一致性缺失问题。该模型允许智能体在多种虚拟场景中探索,并确保在不同视角和位置下生成的世界依然保持几何一致性。此外,WorldMem还支持时间一致性的建模,模拟动态变化(例如物体对环境的影响),并在Minecraft数据集上进行了大规模训练,以验证其在真实场景中的有效性。WorldMem为构建真实、持久且互动的虚拟世界提供了新的技术路径。
WorldMem的主要功能
- 保持一致性:在长时间的生成过程中,确保虚拟世界的一致性。
- 模拟动态变化:能够模拟随着时间推移而产生的变化,例如物体对环境的影响(如灯光融化积雪)。
- 支持交互:用户在虚拟世界中放置物体或进行其他操作,交互行为会被记录并影响后续生成。
- 多样化场景生成:支持在多种虚拟环境(如平原、沙漠、冰原等)中进行探索。
- 适用于真实场景:在真实世界数据集上验证生成一致性的能力。
WorldMem的技术原理
- 条件生成模块:基于条件扩散变换器(Conditional Diffusion Transformer),结合Diffusion Forcing训练策略,支持自回归式的长时生成。通过外部动作信号(如移动、视角控制、物体放置等)引导生成第一人称视角。
- 记忆读写模块:记忆库存储生成过程中的关键历史信息,每个记忆单元包含图像帧及其对应状态(如视角位姿和时间戳)。记忆检索使用贪心匹配算法,根据视野重叠和时间差异计算相似度,高效筛选出与当前场景最相关的记忆单元。
- 记忆融合模块:将当前帧与记忆帧的状态嵌入(位姿 + 时间)结合,利用注意力机制提取与当前场景最相关的记忆信息,生成融合特征以引导当前帧的生成。使用Plücker坐标表示位姿,基于MLP映射时间戳,加入相对嵌入机制,提升模型的空间理解和细节保持能力。
WorldMem的项目地址
- 项目官网:https://xizaoqu.github.io/worldmem/
- GitHub仓库:https://github.com/xizaoqu/WorldMem
- arXiv技术论文:https://arxiv.org/pdf/2504.12369
- 在线体验Demo:https://huggingface.co/spaces/yslan/worldmem
WorldMem的应用场景
- 虚拟游戏:生成长期一致的虚拟游戏世界,支持探索和环境交互。
- VR/AR:创建持久且动态变化的虚拟环境,提升用户的沉浸体验。
- 自动驾驶:模拟真实交通场景,用于自动驾驶系统的测试。
- 建筑设计:生成虚拟建筑环境,辅助设计方案进行评估。
- 教育:创造互动教学环境,支持学生进行实验和探索。
常见问题
在使用WorldMem时,用户可能会遇到一些常见问题,例如如何开始使用、如何进行交互、以及如何在不同场景中保持一致性等。项目团队提供了详细的文档和支持,帮助用户解决这些问题并充分利用WorldMem的功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...