给大模型LLM评测画一个句号

AIGC动态9个月前发布 JioNLP
24 0 0

给大模型LLM评测画一个句号

AIGC动态欢迎阅读

原标题:给大模型LLM评测画一个句号

关键字:模型,多少钱,分数,算法,老妪

文章来源:JioNLP

内容字数:7298字

内容摘要:Hello,我是 JioNLP。之前一篇博客,我提出的一个模型评测的一个简单算法,我给这个评测算法起了个名字 MELLM(Mutual Evaluation of Large Language Model),读作 \melm\。MELLM 原理链接:这篇文章,我来介绍一下,我是如何做实验验证的。最终的实验结论就是:MELLM 能够比较好地测评出 LLM 的优劣。回顾一下算法原理MELLM 算法原理非常简单,其基本思想,就是让多个模型互相之间进行评价和打分,画个操作流程图就是,四个模型互相给出评价分数,当然,是针对每一道题目都给出分数的,图中只是给了一个总分:然后利用 EM 算法反复迭代多个模型的结果,最终就能得到一个经过拟合优化的结果,其结果就是最终的模型质量评价结果。具体实施过程找API市面上的 LLM 开发厂家数量很多,但是能够提供 API 的其实并不太多,因此,我从群里很多群友那里要…

原文链接:点此阅读原文:给大模型LLM评测画一个句号

联系作者

文章来源:JioNLP

作者微信:jionlp

作者简介:AI、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。当然,也聊关于程序员的方方面面。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...