陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现
关键字：模型,图表,问题,任务,能力
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAIClaude 3.5 Sonnet的图表推理能力，比GPT-4o高出了27.8%。
针对多模态大模型在图表任务上的表现，陈丹琦团队提出了新的测试基准。
新Benchmark比以往更有区分度，也让一众传统测试中的高分模型暴露出了真实能力。
该数据集名为CharXiv，内容全部选自arXiv论文中的真实图表，共计2323张。
相比此前的FigureQA等测试基准，CharXiv涵盖的任务类型更加广泛，而且不按套路出牌，难度大幅增加。
为了宣传这套新Benchmark，研究团队还写出了一首神曲，并制作了视频宣传片。
这段魔性的宣传片，让有些网友表示已经被成功“”，脑海中充满了（歌词中的）“2323张图表”。
导师陈丹琦也感到印象十分深刻，直言这是自己见过最fancy的视频。
那么，CharXiv究竟新在哪，又难在哪呢？
来自学术论文的图表测试集团队指出，过去的表格测试标准太过简单，而且不能反映模型的真实水平。
比如FigureQA、DVQA 和ChartQA的子集，只要稍作简单修改，模型的成绩就能下降超过1/3。
究其原因，作者认为

原文链接：陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现