开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

AIGC动态3个月前发布 量子位
34 0 0

开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

AIGC动态欢迎阅读

原标题:开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
关键字:报告,模型,错误,标签,基准
文章来源:量子位
内容字数:0字

内容摘要:


西风 发自 凹非寺量子位 | 公众号 QbitAI开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。
新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。
比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在标签中纠正了自己。
在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%。
这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦:
GSM8K得分99%!是不是可以正式淘汰这个基准了?
模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。
在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题:
我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。
模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那99.2%的准确率并非来自于记忆测试


原文链接:开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...