一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

AIGC动态1年前 (2023)发布 量子位
26 0 0

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

AIGC动态欢迎阅读

原标题:一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

关键字:模型,测试,成绩,卷子,数学

文章来源:量子位

内容字数:3949字

内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAI如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准。再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显…

原文链接:点此阅读原文:一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...