WBench

WBench – 美团推出的交互式视频世界模型多轮评测基准

WBench：开启交互式视频世界模型评测新纪元

在人工智能飞速发展的今天，视频世界模型的进步尤为引人注目。然而，如何系统性地评估这些模型在真实交互场景下的表现，却一直是行业面临的挑战。美团 LongCat 团队应运而生，推出了 WBench——首个面向交互式视频世界模型的、具备多轮评测能力的基准系统。它不仅包含了海量的测试案例和交互轮次，更覆盖了丰富多样的场景和艺术风格，为我们深入洞察模型的能力边界提供了前所未有的工具。

WBench 的核心价值何在？

WBench 的诞生，旨在为蓬勃发展的视频世界模型领域注入一股清流。它通过一套严谨、全面的评测体系，对当前 20 个顶尖模型进行“CT 扫描”，精准定位它们从被动观看向主动交互的演进过程中的优势与短板。WBench 专注于揭示模型在多轮交互、精准导航以及视角切换等关键维度上的核心局限。

WBench 的强大功能一览

多元化世界定义：WBench 支持对测试环境进行高度自定义，涵盖自然风光、都市街景、室内空间、工作场景、奇幻想象以及体育赛事等 6 大类场景。同时，它还能模拟写实、动漫、卡通、油画、水墨、扁平、素描等 7 种截然不同的艺术风格。视角方面，则支持第一人称、第三人称以及具身第一人称等多种模式。
四大核心交互能力：该基准提供了四种核心交互方式：导航（移动与探索）、主体动作（操控虚拟对象）、编辑（修改场景内容）以及视角切换（改变观察角度），全面模拟用户与虚拟世界的互动。
无缝统一的交互接口：WBench 创新性地引入了 Action Router 机制，能够将各种形式的指令——无论是文本描述、精确的 6DoF 空间坐标，还是键盘操作——统一转化为标准化输入信号，从而轻松适配不同模型的原生接口，实现公平高效的评测。
五维量化评测套件：为了提供客观、深入的评估，WBench 构建了包含视频质量、设定遵循度、交互遵循度、一致性以及物理真实性在内的五维评测体系，并引入了 NavScore、Gated Spatial Consistency 等一系列硬核指标进行量化打分。
深度多轮长程评估：WBench 突破了传统单轮评测的局限，支持连续多轮的交互测试。这使得我们能够深入分析模型在长时间交互过程中的性能衰减情况，洞察其鲁棒性和持久性。

WBench 的技术支撑原理

四大核心要素架构：WBench 的设计遵循一个精巧的框架：世界定义（构建多样化测试环境）、指令集（标准化动作描述）、统一交互接口（Action Router 转换异构输入）以及评测套件（输出量化指标）。这一闭环设计确保了评估的完整性和有效性。
场景与交互解耦设计：WBench 采用了“舞台与剧本分离”的理念，将场景的构建与交互的定义进行解耦。用户可以组合不同的场景和交互方式，从而能够精准地定位模型在特定环节出现的问题根源。
多轮自回归反馈机制：WBench 的评测流程巧妙地运用了自回归机制。每一轮的输出结果都会被作为下一轮的输入，这极大地模拟了真实用户与虚拟世界进行连续交互的场景。通过这种方式，WBench 能够有效地检测出模型在长程交互中可能出现的错误累积效应。例如，研究表明，在多轮交互后，模型的导航能力平均会下降约 33 个百分点。

如何驾驭 WBench 进行评测？

获取代码：首先，访问 WBench 的 GitHub 仓库，克隆代码到本地，并完成必要的 Python 依赖环境的安装。
下载数据集：接着，从 HuggingFace 下载包含 289 个测试案例和 1058 个交互轮次的评测数据集。
模型接入：利用 Action Router，将您想要评测的模型接入 WBench 的统一交互接口，确保其能够按照文本或动作输入协议进行响应。
场景定义：在配置文件中，您可以灵活选择所需的场景类型、艺术风格、主体对象以及观察视角。
交互选择：根据评测需求，从导航、主体动作、编辑、视角切换这四类交互中组合测试动作。
维度设定：根据需要，启用视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五维评测指标。
单轮测试：执行初始帧生成与单轮交互，获取模型的基础能力得分。
多轮测试：启动自回归模式，将上一轮的输出作为下一轮的输入，从而测量模型在长程交互中的性能衰减情况。
批量对比：您可以配置多个模型同时运行相同的测试用例，生成横向对比数据，直观了解不同模型之间的优劣。
查看报告：评测完成后，系统将自动生成雷达图和得分表，以可视化的方式清晰展示各维度上的强弱分布。

WBench 的核心优势何在？

开创性的多轮交互评测：WBench 填补了行业在多轮交互式视频世界模型评测方面的空白，区别于以往的单轮评测，它提供了更全面、更贴近实际应用场景的评估维度。
全面覆盖与精准定位：289 个测试案例，涵盖了 6 大场景、7 种风格、5 类主体，并且场景与交互的解耦设计，使得 WBench 能够精准地定位模型在不同方面的短板。
统一接口兼容多样模型：通过 Action Router，WBench 能够无缝适配文本驱动模型（如 Kling 3.0）和专用世界模型（如 HY-World 1.5），确保了评测的公平性和可比性。
深刻的行业洞察：WBench 的评测结果揭示了许多关键行业洞察，例如，文本驱动模型在理解力上表现出色，而专用世界模型在导航能力上更胜一筹；视频质量与导航能力之间关联度不高；多轮交互是当前模型面临的核心挑战。

WBench 的项目资源链接

项目官网：https://meituan-longcat.github.io/WBench/
GitHub仓库：https://github.com/meituan-longcat/WBench
HuggingFace模型库：https://huggingface.co/datasets/meituan-longcat/WBench
技术论文：https://huggingface.co/papers/2605.25874

WBench 与同类竞品对比分析

维度	WBench	WorldScore
定位	多轮交互式视频世界模型评测	世界生成统一评测基准
发布时间	2026-05	2025
案例规模	289 案例，1058 交互轮次	3000 案例
交互类型	导航、主体动作、编辑、视角切换	轨迹条件控制，无交互
多轮支持	原生多轮自回归评测，支持长程衰减分析	单场景/多场景序列，非交互式
统一接口	Action Router（文本/6DoF/离散动作）	统一世界规格（布局+语义）
评测维度	视频质量、设定遵循、交互遵循、一致性、物理真实性	可控性、质量、动态性
核心特色	多轮交互衰减诊断，场景与交互解耦	跨 3D/4D/I2V/T2V 统一评测
在线平台	离线评测套件 + HuggingFace 数据集	离线排行榜