数理化问题秒答,还能读梗图数鸭子
原标题:阿里开源首个视觉推理模型,击败GPT-4o,网页一度404
文章来源:量子位
内容字数:2198字
阿里巴巴发布全球首个视觉推理模型QVQ
阿里巴巴在年末发布了其最新研究成果——视觉推理模型QVQ (Qwen Vision-based Question Answering),这是据称全球首个能够通过读取图像和指令进行视觉推理的模型。QVQ可以被视为阿里巴巴上个月开源的o1模型的视觉版本,其能力涵盖数学、物理、化学等多个学科,甚至可以解读梗图和计数鸭子等。
1. **模型能力与性能:** QVQ模型在MMMU基准测试中取得了70.3分,超过了GPT-4o和Claude 3.5 Sonnet,但略低于o1模型。它能够解决各种类型的多模态问题,例如数学题、几何题和化学题,展现了强大的视觉推理能力。阿里巴巴团队在MMMU、MathVista、MathVision和OlympiadBench四个数据集上对QVQ-72B-Preview进行了评估,结果显示其在数学和科学问题上的表现卓越。
2. **模型演示与局限性:** 阿里巴巴官方提供了几个演示Demo,展示了QVQ在解决数学、几何和化学问题上的能力。例如,它可以计算沙发的面积,识别滤液E的化学成分。然而,该模型目前仍处于实验阶段,存在一些局限性,包括语言混合、循环推理、安全和道德问题以及性能和基准限制。例如,在多步骤推理中,模型可能会逐渐忽略图像内容,导致幻觉。
3. **与其他模型的对比:** 文章中提到了QVQ与谷歌版o1模型的对比测试。在同一题目下,QVQ能够识别数字,但未能像人类一样想到将9号球翻转成6号球,从而无法解决问题。这突显了当前视觉推理模型在复杂问题处理上的不足。
4. **未来发展方向:** 阿里巴巴团队未来的目标是增强视觉语言基础模型的能力,使其能够进行更深入的视觉推理,并最终将更多模态整合到统一模型中,以应对更复杂的挑战,并应用于科学探索领域,实现“AI For Science”的愿景。
5. **模型现状:** 目前QVQ处于开放测试阶段,由于访问量过大,网页曾一度出现404错误。这表明该模型仍处于发展初期,稳定性有待提升。
总而言之,阿里巴巴的QVQ模型代表了视觉推理领域的一个重要进展,但同时也暴露出该领域仍然面临诸多挑战。未来的研究将重点放在提升模型的稳定性、可靠性和处理复杂问题的能力上。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破