+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%

AIGC动态2年前 (2024)发布新智元

维基百科+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%

AIGC动态欢迎阅读

原标题：+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%
关键字：幻觉,信息,时间,问题,事实性
文章来源：新智元
内容字数：7783字

内容摘要：

新智元报道编辑：alan 桃子
【新智元导读】大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用数据训练大模型，得到的WikiChat成为首个几乎不产生幻觉的机器人。大语言模型的幻觉问题被解决了！
近日，来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的机器人！
论文发表在EMNLP 2023，并且在Github上开源了代码：
论文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码：https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性，而相比之下，GPT-4的得分仅为66.1%。
在「recent」和「tail」两个知识子集中，这个差距甚至更大。
另外，作者还发现了检索增强生成（RAG）的几个缺点，并添加了几个重要步骤，以进一步减轻幻觉，并改进「对话性」指标。
通过这些优化，WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%，
在相关性、信

原文链接：+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%