+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

AIGC动态12个月前发布 新智元
4 0 0

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

AIGC动态欢迎阅读

原标题:+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%
关键字:幻觉,信息,时间,问题,事实性
文章来源:新智元
内容字数:7783字

内容摘要:


新智元报道编辑:alan 桃子
【新智元导读】大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用数据训练大模型,得到的WikiChat成为首个几乎不产生幻觉的机器人。大语言模型的幻觉问题被解决了!
近日,来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的机器人!
论文发表在EMNLP 2023,并且在Github上开源了代码:
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://github.com/stanford-oval/WikiChat
作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性,而相比之下,GPT-4的得分仅为66.1%。
在「recent」和「tail」两个知识子集中,这个差距甚至更大。
另外,作者还发现了检索增强生成(RAG)的几个缺点,并添加了几个重要步骤,以进一步减轻幻觉,并改进「对话性」指标。
通过这些优化,WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%,
在相关性、信


原文链接:+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...