VideoPhy

VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试

VideoPhy是由UCLA和谷歌研究院联合开发的首个专注于评估视频生成模型物理常识能力的基准测试，旨在测量生成的视频是否遵循现实世界的物理规律。该基准包含688个描述物理交互的字幕，用于从多种文本到视频模型的生成过程，并进行人类与自动评估。研究显示，即使是最先进的模型，其生成的视频也只有39.6%能够同时符合文本提示和物理法则。VideoPhy强调了视频生成模型在模拟物理现象方面的限制，同时推出了自动评估工具VideoCon-Physics，以支持未来模型的可靠评估。

VideoPhy是什么

VideoPhy是UCLA与谷歌研究院合作推出的创新基准测试，专门评估视频生成模型在物理常识方面的表现。通过688个经过严格审核的字幕，VideoPhy能够测试不同文本到视频模型生成的视频是否符合物理规律。该基准的推出意在揭示视频生成模型在物理模拟上的不足，并通过自动评估工具VideoCon-Physics，为未来的模型评估提供支持。

VideoPhy

主要功能

物理常识评估： 测试文本到视频生成模型是否生成符合物理常识的视频内容。
标准化测试集： 提供688个经过人类验证的描述性字幕，涵盖固体-固体、固体-流体及流体-流体之间的物理互动，用于生成视频并进行评估。
综合评估： 结合人类评估与自动评估工具VideoCon-Physics，评估视频的语义一致性和物理常识。
模型性能比较： 比较不同模型在VideoPhy数据集上的表现，以确定哪些模型在遵循物理法则方面表现更佳。
推动模型改进： 揭示现有模型在物理模拟上的不足，促进研究者开发更符合物理常识的视频生成模型。

技术原理

数据集构建： VideoPhy的数据集通过三阶段流程构建，包括使用大型语言模型生成字幕候选项、人工验证字幕质量及标注视频生成难度。
视频生成： 利用不同的文本到视频生成模型，根据VideoPhy数据集中的字幕生成视频。
人类评估： 基于亚马逊机械土耳其（Amazon Mechanical Turk）的人工评估者对生成的视频进行语义一致性和物理常识评分。
自动评估模型： 发布VideoCon-Physics，基于VIDEOCON视频-语言模型的自动评估工具，微调后用于评估生成视频的语义一致性和物理常识。
性能指标： 采用二元反馈（0或1）来评估视频的语义一致性（Semantic Adherence， SA）和物理常识（Physical Commonsense， PC）。