陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

AIGC动态5个月前发布 量子位
9 0 0

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

AIGC动态欢迎阅读

原标题:陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
关键字:模型,图表,问题,任务,能力
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAIClaude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。
针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。
新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
该数据集名为CharXiv,内容全部选自arXiv论文中的真实图表,共计2323张。
相比此前的FigureQA等测试基准,CharXiv涵盖的任务类型更加广泛,而且不按套路出牌,难度大幅增加。
为了宣传这套新Benchmark,研究团队还写出了一首洗脑神曲,并制作了视频宣传片。
这段魔性的宣传片,让有些网友表示已经被成功“洗脑”,脑海中充满了(歌词中的)“2323张图表”。
导师陈丹琦也感到印象十分深刻,直言这是自己见过最fancy的视频。
那么,CharXiv究竟新在哪,又难在哪呢?
来自学术论文的图表测试集团队指出,过去的表格测试标准太过简单,而且不能反映模型的真实水平。
比如FigureQA、DVQA 和ChartQA的子集,只要稍作简单修改,模型的成绩就能下降超过1/3。
究其原因,作者认为


原文链接:陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...