WBench – 美团推出的交互式视频世界模型多轮评测基准
WBench:开启交互式视频世界模型评测新纪元
在人工智能飞速发展的今天,视频世界模型的进步尤为引人注目。然而,如何系统性地评估这些模型在真实交互场景下的表现,却一直是行业面临的挑战。美团 LongCat 团队应运而生,推出了 WBench——首个面向交互式视频世界模型的、具备多轮评测能力的基准系统。它不仅包含了海量的测试案例和交互轮次,更覆盖了丰富多样的场景和艺术风格,为我们深入洞察模型的能力边界提供了前所未有的工具。
WBench 的核心价值何在?
WBench 的诞生,旨在为蓬勃发展的视频世界模型领域注入一股清流。它通过一套严谨、全面的评测体系,对当前 20 个顶尖模型进行“CT 扫描”,精准定位它们从被动观看向主动交互的演进过程中的优势与短板。WBench 专注于揭示模型在多轮交互、精准导航以及视角切换等关键维度上的核心局限。
WBench 的强大功能一览
- 多元化世界定义:WBench 支持对测试环境进行高度自定义,涵盖自然风光、都市街景、室内空间、工作场景、奇幻想象以及体育赛事等 6 大类场景。同时,它还能模拟写实、动漫、卡通、油画、水墨、扁平、素描等 7 种截然不同的艺术风格。视角方面,则支持第一人称、第三人称以及具身第一人称等多种模式。
- 四大核心交互能力:该基准提供了四种核心交互方式:导航(移动与探索)、主体动作(操控虚拟对象)、编辑(修改场景内容)以及视角切换(改变观察角度),全面模拟用户与虚拟世界的互动。
- 无缝统一的交互接口:WBench 创新性地引入了 Action Router 机制,能够将各种形式的指令——无论是文本描述、精确的 6DoF 空间坐标,还是键盘操作——统一转化为标准化输入信号,从而轻松适配不同模型的原生接口,实现公平高效的评测。
- 五维量化评测套件:为了提供客观、深入的评估,WBench 构建了包含视频质量、设定遵循度、交互遵循度、一致性以及物理真实性在内的五维评测体系,并引入了 NavScore、Gated Spatial Consistency 等一系列硬核指标进行量化打分。
- 深度多轮长程评估:WBench 突破了传统单轮评测的局限,支持连续多轮的交互测试。这使得我们能够深入分析模型在长时间交互过程中的性能衰减情况,洞察其鲁棒性和持久性。
WBench 的技术支撑原理
- 四大核心要素架构:WBench 的设计遵循一个精巧的框架:世界定义(构建多样化测试环境)、指令集(标准化动作描述)、统一交互接口(Action Router 转换异构输入)以及评测套件(输出量化指标)。这一闭环设计确保了评估的完整性和有效性。
- 场景与交互解耦设计:WBench 采用了“舞台与剧本分离”的理念,将场景的构建与交互的定义进行解耦。用户可以组合不同的场景和交互方式,从而能够精准地定位模型在特定环节出现的问题根源。
- 多轮自回归反馈机制:WBench 的评测流程巧妙地运用了自回归机制。每一轮的输出结果都会被作为下一轮的输入,这极大地模拟了真实用户与虚拟世界进行连续交互的场景。通过这种方式,WBench 能够有效地检测出模型在长程交互中可能出现的错误累积效应。例如,研究表明,在多轮交互后,模型的导航能力平均会下降约 33 个百分点。
如何驾驭 WBench 进行评测?
- 获取代码:首先,访问 WBench 的 GitHub 仓库,克隆代码到本地,并完成必要的 Python 依赖环境的安装。
- 下载数据集:接着,从 HuggingFace 下载包含 289 个测试案例和 1058 个交互轮次的评测数据集。
- 模型接入:利用 Action Router,将您想要评测的模型接入 WBench 的统一交互接口,确保其能够按照文本或动作输入协议进行响应。
- 场景定义:在配置文件中,您可以灵活选择所需的场景类型、艺术风格、主体对象以及观察视角。
- 交互选择:根据评测需求,从导航、主体动作、编辑、视角切换这四类交互中组合测试动作。
- 维度设定:根据需要,启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五维评测指标。
- 单轮测试:执行初始帧生成与单轮交互,获取模型的基础能力得分。
- 多轮测试:启动自回归模式,将上一轮的输出作为下一轮的输入,从而测量模型在长程交互中的性能衰减情况。
- 批量对比:您可以配置多个模型同时运行相同的测试用例,生成横向对比数据,直观了解不同模型之间的优劣。
- 查看报告:评测完成后,系统将自动生成雷达图和得分表,以可视化的方式清晰展示各维度上的强弱分布。
WBench 的核心优势何在?
- 开创性的多轮交互评测:WBench 填补了行业在多轮交互式视频世界模型评测方面的空白,区别于以往的单轮评测,它提供了更全面、更贴近实际应用场景的评估维度。
- 全面覆盖与精准定位:289 个测试案例,涵盖了 6 大场景、7 种风格、5 类主体,并且场景与交互的解耦设计,使得 WBench 能够精准地定位模型在不同方面的短板。
- 统一接口兼容多样模型:通过 Action Router,WBench 能够无缝适配文本驱动模型(如 Kling 3.0)和专用世界模型(如 HY-World 1.5),确保了评测的公平性和可比性。
- 深刻的行业洞察:WBench 的评测结果揭示了许多关键行业洞察,例如,文本驱动模型在理解力上表现出色,而专用世界模型在导航能力上更胜一筹;视频质量与导航能力之间关联度不高;多轮交互是当前模型面临的核心挑战。
WBench 的项目资源链接
- 项目官网:https://meituan-longcat.github.io/WBench/
- GitHub仓库:https://github.com/meituan-longcat/WBench
- HuggingFace模型库:https://huggingface.co/datasets/meituan-longcat/WBench
- 技术论文:https://huggingface.co/papers/2605.25874
WBench 与同类竞品对比分析
| 维度 | WBench | WorldScore |
|---|---|---|
| 定位 | 多轮交互式视频世界模型评测 | 世界生成统一评测基准 |
| 发布时间 | 2026-05 | 2025 |
| 案例规模 | 289 案例,1058 交互轮次 | 3000 案例 |
| 交互类型 | 导航、主体动作、编辑、视角切换 | 轨迹条件控制,无交互 |
| 多轮支持 | 原生多轮自回归评测,支持长程衰减分析 | 单场景/多场景序列,非交互式 |
| 统一接口 | Action Router(文本/6DoF/离散动作) | 统一世界规格(布局+语义) |
| 评测维度 | 视频质量、设定遵循、交互遵循、一致性、物理真实性 | 可控性、质量、动态性 |
| 核心特色 | 多轮交互衰减诊断,场景与交互解耦 | 跨 3D/4D/I2V/T2V 统一评测 |
| 在线平台 | 离线评测套件 + HuggingFace 数据集 | 离线排行榜 |
WBench 的广泛应用场景
- 世界模型研发的加速器:为 Genie、Kling、Wan 等视频世界模型的研发团队提供标准化的评测工具,有效指导模型迭代和性能优化。
- 导航与具身智能的试金石:WBench 能够精准评测模型在虚拟环境中的导航与控制能力,为机器人、自动驾驶等具身智能领域提供强有力的评估支持。
- 多轮交互产品体验的保障:帮助 AI 视频、AI 游戏等产品评估其长程交互体验,尤其适用于虚拟世界探索、AI 游戏引擎等场景。
- 学术研究的坚实基石:作为世界模型和交互式视频生成领域学术研究的基础评测框架,推动该领域研究的标准化进程。
- 开源与闭源模型选型的明镜:为企业和开发者提供客观、量化的数据,辅助他们在面对特定交互任务(如导航或编辑)时,做出更明智的模型选型决策。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


