颠覆现实:AI驱动的虚拟世界,无限生成3A画质互动视频!

零样本就可以直接泛化

颠覆现实:AI驱动的虚拟世界,无限生成3A画质互动视频!

原标题:AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互
文章来源:量子位
内容字数:3473字

人类离《黑客帝国》又近一步

近日,一个名为The Matrix的首个AI基础世界模拟器问世,带来了令人惊叹的技术突破。该模拟器能够生成无限长、高保真的720p真实场景视频,并实现实时交互。这一项目由全华人团队开发,成员来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Institute。

无限生成与实时交互

The Matrix可以在长达1小时的时间内穿梭于沙漠、草原、水体和城市等不同景观,用户可通过键盘实时控制场景的移动,效果每秒可达到16帧。通过结合3A游戏的监督数据与现实世界的无监督视频,The Matrix展现出惊人的泛化能力,能够理解和预测不同环境中物体的行为。

核心技术模块

The Matrix的技术架构主要由三个模块组成:

  1. 交互模块:该模块理解用户输入并将其整合到视频生成中,允许帧级别的精确控制。
  2. 移窗去噪过程模型:通过滑动时间窗口处理长时间依赖关系,实现连续、平滑的视频生成。
  3. 流一致性模型:提升推理速度,实现实时生成,速度可达8-16 FPS。

数据捕获与模型训练

团队还开发了GameData平台,用于自动捕获游戏状态数据和视频帧,生成标注的动作帧数据集。这一数据集结合真实世界的视频数据,增强了模型的视觉质量和域泛化能力。

项目负责人介绍

The Matrix的项目负责人是滑铁卢大学的助理教授Hongyang Zhang和来自阿里巴巴的Ruili Feng。两位研究者在基础模型研究和AI应用领域具有丰富的经验。

总之,The Matrix不仅实现了高保真度的场景生成和实时交互,还展现了强大的泛化能力,标志着AI模拟技术的又一重要进展。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...