DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

AIGC动态1个月前发布 量子位
310 0 0

全方位理解多模态模型CoT能力

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

原标题:DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT
文章来源:量子位
内容字数:6742字

港中文MMLab提出MME-CoT:全面评估大型多模态模型视觉推理能力

本文总结了港中文MMLab研究者提出的MME-CoT基准测试,该基准旨在全面评估大型多模态模型(LMMs)的视觉推理能力。MME-CoT超越了以往仅评估最终答案正确性的方法,细粒度地评估了视觉链式思维(CoT)的质量、鲁棒性和效率。

1. MME-CoT的创新之处

与以往LMM基准测试不同,MME-CoT提出了一个严格的多方面评估框架,着重研究视觉CoT的不同方面。它包含数学、科学、OCR、逻辑、时空和通用场景六大领域,涵盖17个子类,共包含1130个精选问题和3865个关键步骤标注。MME-CoT区分了感知任务和推理任务,避免了以往基准测试中两类任务混淆的问题。

2. 细粒度的评估指标

MME-CoT设计了三个评估方向,分别回答三个关键问题:

  1. CoT的质量: 使用召回率(Recall)和精确率(Precision)两个指标评估CoT步骤的有用性和准确性,避免了模型通过错误逻辑得到正确答案的夸大现象。GPT-4被用来辅助评估。
  2. CoT的鲁棒性: 通过比较感知任务和推理任务在直接回答和CoT回答两种Prompt下的表现,评估CoT对不同任务类型的稳定性(Stability)和有效性(Efficacy),考察CoT是否会对感知任务产生负面影响。
  3. CoT的效率: 使用相关比例(Relevance Rate)和反思质量(Reflection Quality)两个指标评估CoT的推理效率,考察长CoT中步骤的相关性和反思步骤的有效性。

3. 实验结果与结论

研究者们在MME-CoT上测试了13个现有的LMM和两个最新的LLM (DeepSeek-R1和o3-mini)。实验结果显示:

  1. CoT质量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
  2. CoT鲁棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
  3. CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

此外,研究还发现:

  1. 长CoT并不一定包含所有关键步骤,模型有时会跳过中间步骤得出正确答案。
  2. 更大的模型参数量通常能更好地掌握推理能力。
  3. 模型的反思错误类型多样,包括无效反思、不完整、重复和干扰等。

4. MME-CoT的意义

MME-CoT为评估LMM的视觉推理能力提供了一个系统化的基准,指明了该领域的关键发展方向。它揭示了现有模型在推理质量、鲁棒性和计算效率方面的不足,为后续研究奠定了重要基础,将推动LMM实现更强大、更可靠的视觉推理能力。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...