Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

原标题:Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理
文章来源:夕小瑶科技说
内容字数:6603字

Google DeepMind开源LLMs推理规则库:攻克大模型幻觉难题

2024年12月,大模型发展如火如荼,但模型推理中的“幻觉”问题依然是AI测评的焦点。Google DeepMind团队在圣诞节之际开源了其关于LLMs训练规则推理库的代码,为解决这一难题提供了新的思路。该研究论文题目为《大型语言模型可以学习规则》(Large Language Models can Learn Rules),其核心框架是“从假设到理论”(HtT,Hypotheses-to-Theories)。

1. 推理、事实与规则:基础概念

文章首先阐述了推理、事实和规则之间的关系。推理是从事实推导规则的过程,事实是已知信息,规则是潜在的逻辑关系。推理分为演绎推理(事实+规则->事实)和归纳推理(事实+事实+…+事实->规则)。LLMs的训练过程可以视为归纳推理,而应用规则进行计算则为演绎推理。LLMs推理的难点在于如何有效匹配事实和对应的规则。

2. 从假设到理论(HtT)框架

为了解决LLMs推理难题,DeepMind提出了HtT框架。该框架由归纳阶段和演绎阶段组成,两者都通过少量样本提示实现。

  1. 归纳阶段:从训练示例中学习规则,并根据覆盖度和置信度过滤规则,形成规则库。DeepMind提出了一种“从演绎中归纳”的方法,使用同一个演绎推理提示进行规则生成和验证,提高了推理准确率。

  2. 演绎阶段:利用归纳阶段生成的规则库来解决测试问题。为了克服LLMs在检索大量规则时的困难,DeepMind采用了一种层次化的规则库组织方式,并使用XML标签进行明确引用。

3. 推理测试与实验结果

DeepMind分别在关系推理、数值推理和概念学习三个任务上对HtT框架进行了评估,并进行了消融实验。

  1. 关系推理:在CLUTRR数据集上,HtT显著提高了GPT-3.5和GPT-4的准确率。

  2. 数值推理:在Arithmetic数据集上,HtT同样提升了模型在非十进制加法等问题上的准确率。

  3. 概念学习:在List Functions数据集上,HtT提高了模型学习和应用复杂规则的能力。

消融实验表明,HtT的性能提升主要源于减少了错误规则的生成,并且学习到的规则并非随机的。

4. 全文总结

HtT框架通过显式学习和应用规则,显著提高了LLMs在各种推理任务上的性能,有效降低了“幻觉”问题的发生。虽然HtT目前仍受限于模型基础能力和上下文长度,但其为解决LLMs推理问题提供了新的方向,具有很大的发展潜力。


联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...