你为什么不相信 LLM 模型评测:深入评测 LLM 接口

AIGC动态3个月前发布 JioNLP
7 0 0

你为什么不相信 LLM 模型评测:深入评测 LLM 接口

AIGC动态欢迎阅读

原标题:你为什么不相信 LLM 模型评测:深入评测 LLM 接口
关键字:腾讯,模型,字节跳动,接口,阿里
文章来源:JioNLP
内容字数:0字

内容摘要:


Hello,大家好,我是 JioNLP。
我相信,你已经看过很多机构发布的 LLM(大语言模型) 的模型效果质量的评测文章了。
其实呢,大家看了很多自称权威,或者不怎么权威的评测文章,基本上也就看看就完了,很少有人真的相信这些测试结果。
为什么你不相信这些评测文章?
因为这些模型评测都有一个共同的问题,那就是:
一个 LLM 模型,凭什么你说好就是好啊?
具体来讲,我们之所以不相信这些评测,原因在于:
测试题目要么开源,要么黑盒不可见:很多 LLM 会利用开源的测试题来做模型训练,其实就是还没考试,就先把考试题的答案背下来了,这么测试相当于作弊,最后的 LLM 排名当然不公平。另外,也有一些数据集是黑盒的,对于看客来说,大家连测试数据题目都看不到,你就敢给模型排名了?公信力在哪里?凭什么让人信服?
测试使用了 GPT4 来打分:很多 LLM 在测试的时候,测试题目动不动就有上万道,根本没法雇佣人力,去一道道批改模型答对没有,谁去批改上万道题不麻呀?~~~。所以,很普遍的一个做法就是,让 GPT-4 去评价模型的回答质量。实际上,就是用下面这套提示模板来让 GPT-4打分:
这里是一个问


原文链接:你为什么不相信 LLM 模型评测:深入评测 LLM 接口

联系作者

文章来源:JioNLP
作者微信:jionlp
作者简介:AI、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。当然,也聊关于程序员的方方面面。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...