AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

团队还提出了全新的人机协作测评模式

AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

原标题:AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!
文章来源:量子位
内容字数:9328字

AGI-Eval评测:Sora与国内视频生成模型的深度对比

本文总结了AGI-Eval团队对视频生成模型Sora以及国内头部模型的评测结果,重点关注其在视频-文本一致性、视频质量和质量等方面的表现差异。

1. 评测概述

AGI-Eval团队利用上百条评测数据和专家级人工评测团队,对Sora以及国内前三的视频生成模型进行了深度评测。评测维度包括视频-文本一致性、视频质量(包含真实性、合理性)和质量,并对结果进行了归一化处理。

2. 主要结论

评测得出三个主要结论:

  1. 与国内头部大模型相比,Sora在视频-文本一致性和视频质量上略逊一筹,国内模型仍保持领先水平。
  2. Sora在质量维度上略优于可灵1.6,生成的视频画面在动态过程中的主体一致性和动态幅度更自然。
  3. Sora存在文本理解有误、指令遵循不符的问题,生成的视频内容与提示词描述存在差异。

3. 详细评测对比:Sora vs 国内模型

AGI-Eval团队提供了多个示例进行对比,展现了不同模型在不同维度上的优劣。例如:

  1. 文本一致性:在复杂提示词下,Sora和可灵1.6都未能完全满足要求,例如遗漏实体或动作不符。Pixverse-V3和MiniMax-Video-01表现相对较好。
  2. 物品生成稳定性:Sora在果酱出现和消失方面稳定性较差,而其他模型也存在物品突兀出现或消失的问题。
  3. 实体畸形:Sora生成的视频现明显的背景畸形和人物变形,可灵1.6和MiniMax-Video-01在实体畸形方面表现相对较好。
  4. 镜头技巧:Sora在升镜和拉镜的运用上表现一般,可灵1.6在场景转换上更为流畅自然。

总体来说,虽然Sora在视频质量、创作度和风格支持方面表现更优,尤其是在动态场景下五官的呈现更为细致,但在文本理解和指令遵循方面仍有提升空间。

4. 评测方法

AGI-Eval采用人工主观评测、模型打分和众包评测三种方式,对模型进行多角度评估。人工评测团队根据视频-文本一致性、视频质量和质量等维度对视频进行评分,并标注错误标签。

5. 评测集介绍

AGI-Eval构建了包含500条中英文对照样本的黑盒测试集,涵盖了多种复杂场景和能力项,并结合物理常识和百科知识,评估生成视频的真实感和逻辑性。

6. AGI-Eval平台

AGI-Eval平台采用人机协作评测模式,旨在打造公正、可信、科学、全面的评测生态。平台基于真实数据回流和能力项拆解,自建万量级私有数据,确保评测数据的准确性和可靠性。

总而言之,AGI-Eval的评测结果为视频生成模型的研发和应用提供了宝贵的参考,也展现了国内视频生成模型的竞争力。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...