你为什么不相信 LLM 模型评测：深入评测 LLM 接口

AIGC动态2年前 (2024)发布 JioNLP

AIGC动态欢迎阅读

原标题：你为什么不相信 LLM 模型评测：深入评测 LLM 接口
关键字：腾讯,模型,字节跳动,接口,阿里
文章来源：JioNLP
内容字数：0字

内容摘要：

Hello，大家好，我是 JioNLP。
我相信，你已经看过很多机构发布的 LLM（大语言模型）的模型效果质量的评测文章了。
其实呢，大家看了很多自称权威，或者不怎么权威的评测文章，基本上也就看看就完了，很少有人真的相信这些测试结果。
为什么你不相信这些评测文章？
因为这些模型评测都有一个共同的问题，那就是：
一个 LLM 模型，凭什么你说好就是好啊？
具体来讲，我们之所以不相信这些评测，原因在于：
测试题目要么开源，要么黑盒不可见：很多 LLM 会利用开源的测试题来做模型训练，其实就是还没考试，就先把考试题的答案背下来了，这么测试相当于作弊，最后的 LLM 排名当然不公平。另外，也有一些数据集是黑盒的，对于看客来说，大家连测试数据题目都看不到，你就敢给模型排名了？公信力在哪里？凭什么让人信服？
测试使用了 GPT4 来打分：很多 LLM 在测试的时候，测试题目动不动就有上万道，根本没法雇佣人力，去一道道批改模型答对没有，谁去批改上万道题不麻呀？~~~。所以，很普遍的一个做法就是，让 GPT-4 去评价模型的回答质量。实际上，就是用下面这套提示模板来让 GPT-4打分：
这里是一个问

原文链接：你为什么不相信 LLM 模型评测：深入评测 LLM 接口