MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜
关键字：解读,能力,数学,视觉,图像
文章来源：机器之心
内容字数：6899字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。
1、背景
在大算力的数字化时代下，大语言模型（LLM）以其令人瞩目的发展速度，正引领着技术的潮流。基于它们强大的文本理解和生成能力，各大研究机构正在探索如何将这些能力扩展至视觉领域，构建一个能够理解和生成多模态内容的超级智能体 —— 多模态大语言模型（MLLMs）。
在追求通用视觉性能的道路上，社区内已经涌现出众多精心设计的测评 benchmark。它们通常使用贴近日常生活的自然图片作为样例，为 MLLMs 的视觉能力提供全面的评估，如 MME、MMBench 等。然而，要深入了解 MLLMs 的 “思维” 和 “推理” 能力，仅凭通用视觉性能的测评远远不够。多模态数学题求解能力，才是衡量它们深度认知和逻辑推理能力的真正试金石。
尽管如此，目前领域内依然缺

原文链接：MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜