Deepmind 重磅开源：消除幻觉，让 LLMs 学会规则库和多步推理

AIGC动态2年前 (2024)发布夕小瑶科技说

原标题：Deepmind 重磅开源：消除幻觉，让 LLMs 学会规则库和多步推理
文章来源：夕小瑶科技说
内容字数：6603字

Google DeepMind开源LLMs推理规则库：攻克大模型幻觉难题

2024年12月，大模型发展如火如荼，但模型推理中的“幻觉”问题依然是AI测评的焦点。Google DeepMind团队在圣诞节之际开源了其关于LLMs训练规则推理库的代码，为解决这一难题提供了新的思路。该研究论文题目为《大型语言模型可以学习规则》(Large Language Models can Learn Rules)，其核心框架是“从假设到理论”（HtT，Hypotheses-to-Theories）。

1. 推理、事实与规则：基础概念

文章首先阐述了推理、事实和规则之间的关系。推理是从事实推导规则的过程，事实是已知信息，规则是潜在的逻辑关系。推理分为演绎推理（事实+规则->事实）和归纳推理（事实+事实+…+事实->规则）。LLMs的训练过程可以视为归纳推理，而应用规则进行计算则为演绎推理。LLMs推理的难点在于如何有效匹配事实和对应的规则。

2. 从假设到理论(HtT)框架

为了解决LLMs推理难题，DeepMind提出了HtT框架。该框架由归纳阶段和演绎阶段组成，两者都通过少量样本提示实现。

归纳阶段：从训练示例中学习规则，并根据覆盖度和置信度过滤规则，形成规则库。DeepMind提出了一种“从演绎中归纳”的方法，使用同一个演绎推理提示进行规则生成和验证，提高了推理准确率。
演绎阶段：利用归纳阶段生成的规则库来解决测试问题。为了克服LLMs在检索大量规则时的困难，DeepMind采用了一种层次化的规则库组织方式，并使用XML标签进行明确引用。

3. 推理测试与实验结果

DeepMind分别在关系推理、数值推理和概念学习三个任务上对HtT框架进行了评估，并进行了消融实验。

关系推理：在CLUTRR数据集上，HtT显著提高了GPT-3.5和GPT-4的准确率。
数值推理：在Arithmetic数据集上，HtT同样提升了模型在非十进制加法等问题上的准确率。
概念学习：在List Functions数据集上，HtT提高了模型学习和应用复杂规则的能力。

消融实验表明，HtT的性能提升主要源于减少了错误规则的生成，并且学习到的规则并非随机的。

4. 全文总结

HtT框架通过显式学习和应用规则，显著提高了LLMs在各种推理任务上的性能，有效降低了“幻觉”问题的发生。虽然HtT目前仍受限于模型基础能力和上下文长度，但其为解决LLMs推理问题提供了新的方向，具有很大的发展潜力。

联系作者

文章来源：夕小瑶科技说
作者微信：
作者简介：低负担解码AI世界，硬核也可爱！聚集35万AI发烧友、开发者和从业者，广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文

# AIGC动态 # LLM规则库推理 # 可解释AI推理 # 基于规则的LLM # 多步推理验证 # 大型语言模型幻觉消除

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Deepmind 重磅开源：消除幻觉，让 LLMs 学会规则库和多步推理

Google DeepMind开源LLMs推理规则库：攻克大模型幻觉难题

1. 推理、事实与规则：基础概念

2. 从假设到理论(HtT)框架

3. 推理测试与实验结果

4. 全文总结

联系作者

检验创业想法是否靠谱的AI神器！洞察市场机会，定位用户痛点，pmf验证…

曝 iPhone17 系列标准版将配备高刷/小米 SU7 交付量超 13 万台/2025 年春晚主创团队官宣

相关文章

暂无评论