大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

AIGC动态2个月前发布 量子位
23 0 0

大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

AIGC动态欢迎阅读

原标题:大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待
关键字:模型,报告,答案,提示,选项
文章来源:量子位
内容字数:0字

内容摘要:


白交 发自 凹非寺量子位 | 公众号 QbitAI大模型权威测试,翻车了?!
HuggingFace都在用的MMLU-PRO,被扒出评测方法更偏向闭源模型,被网友直接在GitHub Issue提出质疑。
此前MMLU原始版本早已经被各家大模型刷爆了,谁考都是高分,对前沿模型已经没有了区分度。
号称更强大、更具挑战线性多任务语言基准MMLU-Pro,成了业界对大模型性能的重要参考。
但结果没想到的是,现在有人扒出其在采样参数、系统提示和答案提取等方面设置不公平,存在一些令人震惊的差异。
随便对系统提示词做了个小修改,直接将开源阵营的Llama-3-8b-q8的性能提高了10分?!
emmm……就问大模型跑分到底还能不能信了?
被扒偏向闭源模型这是源于Reddit上一位ML/AI爱好者的意外发现。
还特意做了个免责声明,自己只是感兴趣,并不是ML研究员(Doge)
出于好奇想了解它是如何工作的,于是检查了原始repo中的代码以及每个模型使用的提示和响应。
不看不知道,一看吓一跳。
首先,他们不会对所有模型使用相同的参数。
其次,给每个大模型的Prompt差别也挺大啊喂?!
跟GPT-4o说


原文链接:大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...