AIGC动态欢迎阅读
原标题:给大模型LLM评测画一个句号
文章来源:JioNLP
内容字数:7298字
内容摘要:Hello,我是 JioNLP。之前一篇博客,我提出的一个模型评测的一个简单算法,我给这个评测算法起了个名字 MELLM(Mutual Evaluation of Large Language Model),读作 \melm\。MELLM 原理链接:这篇文章,我来介绍一下,我是如何做实验验证的。最终的实验结论就是:MELLM 能够比较好地测评出 LLM 的优劣。回顾一下算法原理MELLM 算法原理非常简单,其基本思想,就是让多个模型互相之间进行评价和打分,画个操作流程图就是,四个模型互相给出评价分数,当然,是针对每一道题目都给出分数的,图中只是给了一个总分:然后利用 EM 算法反复迭代多个模型的结果,最终就能得到一个经过拟合优化的结果,其结果就是最终的模型质量评价结果。具体实施过程找API市面上的 LLM 开发厂家数量很多,但是能够提供 API 的其实并不太多,因此,我从群里很多群友那里要…
联系作者
文章来源:JioNLP
作者微信:jionlp
作者简介:AI、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。当然,也聊关于程序员的方方面面。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...