给大模型LLM评测画一个句号

AIGC动态3年前 (2023)发布 JioNLP

给大模型LLM评测画一个句号

AIGC动态欢迎阅读

原标题：给大模型LLM评测画一个句号

文章来源：JioNLP

内容字数：7298字

内容摘要：Hello，我是 JioNLP。之前一篇博客，我提出的一个模型评测的一个简单算法，我给这个评测算法起了个名字 MELLM（Mutual Evaluation of Large Language Model），读作 \melm\。MELLM 原理链接：这篇文章，我来介绍一下，我是如何做实验验证的。最终的实验结论就是：MELLM 能够比较好地测评出 LLM 的优劣。回顾一下算法原理MELLM 算法原理非常简单，其基本思想，就是让多个模型互相之间进行评价和打分，画个操作流程图就是，四个模型互相给出评价分数，当然，是针对每一道题目都给出分数的，图中只是给了一个总分：然后利用 EM 算法反复迭代多个模型的结果，最终就能得到一个经过拟合优化的结果，其结果就是最终的模型质量评价结果。具体实施过程找API市面上的 LLM 开发厂家数量很多，但是能够提供 API 的其实并不太多，因此，我从群里很多群友那里要…

原文链接：点此阅读原文：给大模型LLM评测画一个句号