阿里开源首个视觉推理模型，击败GPT-4o，网页一度404

数理化问题秒答，还能读梗图数鸭子

原标题：阿里开源首个视觉推理模型，击败GPT-4o，网页一度404
文章来源：量子位
内容字数：2198字

阿里巴巴发布全球首个视觉推理模型QVQ

阿里巴巴在年末发布了其最新研究成果——视觉推理模型QVQ (Qwen Vision-based Question Answering)，这是据称全球首个能够通过读取图像和指令进行视觉推理的模型。QVQ可以被视为阿里巴巴上个月开源的o1模型的视觉版本，其能力涵盖数学、物理、化学等多个学科，甚至可以解读梗图和计数鸭子等。

1. **模型能力与性能:** QVQ模型在MMMU基准测试中取得了70.3分，超过了GPT-4o和Claude 3.5 Sonnet，但略低于o1模型。它能够解决各种类型的多模态问题，例如数学题、几何题和化学题，展现了强大的视觉推理能力。阿里巴巴团队在MMMU、MathVista、MathVision和OlympiadBench四个数据集上对QVQ-72B-Preview进行了评估，结果显示其在数学和科学问题上的表现卓越。

2. **模型演示与局限性:** 阿里巴巴官方提供了几个演示Demo，展示了QVQ在解决数学、几何和化学问题上的能力。例如，它可以计算沙发的面积，识别滤液E的化学成分。然而，该模型目前仍处于实验阶段，存在一些局限性，包括语言混合、循环推理、安全和道德问题以及性能和基准限制。例如，在多步骤推理中，模型可能会逐渐忽略图像内容，导致幻觉。

3. **与其他模型的对比:** 文章中提到了QVQ与谷歌版o1模型的对比测试。在同一题目下，QVQ能够识别数字，但未能像人类一样想到将9号球翻转成6号球，从而无法解决问题。这突显了当前视觉推理模型在复杂问题处理上的不足。

4. **未来发展方向:** 阿里巴巴团队未来的目标是增强视觉语言基础模型的能力，使其能够进行更深入的视觉推理，并最终将更多模态整合到统一模型中，以应对更复杂的挑战，并应用于科学探索领域，实现“AI For Science”的愿景。

5. **模型现状:** 目前QVQ处于开放测试阶段，由于访问量过大，网页曾一度出现404错误。这表明该模型仍处于发展初期，稳定性有待提升。

总而言之，阿里巴巴的QVQ模型代表了视觉推理领域的一个重要进展，但同时也暴露出该领域仍然面临诸多挑战。未来的研究将重点放在提升模型的稳定性、可靠性和处理复杂问题的能力上。