零样本就可以直接泛化
原标题:AI版《黑客帝国》:无限生成逼真视频,3A画质,还能实时交互
文章来源:量子位
内容字数:3473字
人类离《黑客帝国》又近一步
近日,一个名为The Matrix的首个AI基础世界模拟器问世,带来了令人惊叹的技术突破。该模拟器能够生成无限长、高保真的720p真实场景视频,并实现实时交互。这一项目由全华人团队开发,成员来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Institute。
无限生成与实时交互
The Matrix可以在长达1小时的时间内穿梭于沙漠、草原、水体和城市等不同景观,用户可通过键盘实时控制场景的移动,效果每秒可达到16帧。通过结合3A游戏的监督数据与现实世界的无监督视频,The Matrix展现出惊人的泛化能力,能够理解和预测不同环境中物体的行为。
核心技术模块
The Matrix的技术架构主要由三个模块组成:
- 交互模块:该模块理解用户输入并将其整合到视频生成中,允许帧级别的精确控制。
- 移窗去噪过程模型:通过滑动时间窗口处理长时间依赖关系,实现连续、平滑的视频生成。
- 流一致性模型:提升推理速度,实现实时生成,速度可达8-16 FPS。
数据捕获与模型训练
团队还开发了GameData平台,用于自动捕获游戏状态数据和视频帧,生成标注的动作帧数据集。这一数据集结合真实世界的视频数据,增强了模型的视觉质量和域泛化能力。
项目负责人介绍
The Matrix的项目负责人是滑铁卢大学的助理教授Hongyang Zhang和来自阿里巴巴的Ruili Feng。两位研究者在基础模型研究和AI应用领域具有丰富的经验。
总之,The Matrix不仅实现了高保真度的场景生成和实时交互,还展现了强大的泛化能力,标志着AI模拟技术的又一重要进展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...