消灭「幻觉」！谷歌全新ASPIRE方法让LLM给自己打分，效果碾压10x体量模型

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：消灭「幻觉」！谷歌全新ASPIRE方法让LLM给自己打分，效果碾压10x体量模型
关键字：模型,研究人员,选择性,答案,序列
文章来源：新智元
内容字数：4720字

内容摘要：

新智元报道编辑：润
【新智元导读】谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统，通过软提示微调和自评估学习，取得了比10倍规模大的模型还要好的成绩，为开发下一代可靠的LLM提供了一个非常好的方向。大模型的「幻觉」问题马上要有解了？
威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统，可以让大模型对自己的输出给出评分。
如果用户看到模型的生成的结果评分不高，就能意识到这个回复可能是幻觉。
如果系统可以进一步筛选评分的结果进行输出，比如如果评分过低，大模型就可能生成「我没法回答这个问」，从而有望最大限度的改善幻觉问题。
论文地址：https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能让LLM输出答案以及答案的置信度得分。
研究人员的实验结果表明，ASPIRE在各种QA数据集（例如 CoQA 基准）上显著优于传统的选择性预测方法。
让LLM不仅要回答问题，还要评估这些答案。
在选择性预测的基准测试上，研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。
就

原文链接：消灭「幻觉」！谷歌全新ASPIRE方法让LLM给自己打分，效果碾压10x体量模型