ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

AIGC动态5个月前发布 机器之心
29 0 0

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

AIGC动态欢迎阅读

原标题:ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
关键字:问题,腾讯,数学,变体,性能
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文作者来自香港大学和腾讯。作者列表:李沁桐,Leyang Cui,赵学亮,孔令鹏,Wei Bi。其中,第一作者李沁桐是香港大学自然语言处理实验室的博士生,研究方向涉及自然语言生成和文本推理,与博士生赵学亮共同师从孔令鹏教授。Leyang Cui 和 Wei Bi 是腾讯高级研究员。
前言
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
然而在使用中我们经常会发现,当数学问题稍作改变时,LLMs 可能会出现


原文链接:ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...