全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

AIGC动态4周前发布 新智元
412 0 0

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

原标题:全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法
文章来源:新智元
内容字数:12548字

基于内置思维链的思考方法:增强大型语言模型的推理和规划能力

大型语言模型(LLM)如ChatGPT和Llama-3-chat已成为流行的对象,但在多轮对话中,LLM 回答容易出错,且错误率随对话轮数增加而增大。 这主要是因为LLM缺乏像人类一样的思考能力,包括推理、规划和执行计划的能力。为了解决这些问题,国内学者提出了一种基于内置思维链的思考方法,并取得了显著成果。

1. 内置思维链的思考方法

该方法的核心在于,对于每个用户提示,LLM 基于会话历史、上下文、行动调用、记忆和知识等五个要素进行详细的推理和规划,并根据计划执行行动。整个思考过程(思维链)以特殊词元包裹,内置于模型的响应中。

2. 增强思考能力的策略

论文探讨了两种增强LLM思考能力的策略:

  1. 有监督学习微调: 基于提出的思考方法收集训练数据集,通过监督学习微调基础语言模型,获得初始策略。

  2. 强化学习微调: 训练一个一致性奖励模型,并将其用作奖励函数,通过强化学习进一步微调LLM,使其更倾向于按照该思考方法输出。

3. 一致性奖励模型的创新

为了评估多轮对话中模型输出的质量,论文创新性地引入了“一致性奖励模型”。该模型判断模型输出响应序列的一致性,有效提升了强化训练的效果,克服了传统人类偏好奖励模型准确性不高的问题。

4. 局部思考上下文机制

为了解决传统系统上下文占用窗口长度、限制工具调用数量以及推理速度慢等问题,论文提出了“局部思考上下文”机制。该机制按需加载背景信息和工具,支持无限数量的工具调用,提高了效率和灵活性。

5. 行动调用机制

论文采用“行动调用”机制来实现模型与环境的交互。与函数调用或工具调用相比,行动调用语法更优雅,效率更高。行动调用使用JSON结构定义,包含名称、描述、参数和异常处理等信息。

6. 实验结果与结论

实验结果表明,基于内置思维链的思考方法显著增强了LLM的推理、规划和执行计划的能力。与基线模型相比,该方法在行动任务完成率方面取得了显著提升。行动调用也证明了其在语法优雅性和效率方面的优势。

7. 局限性和未来方向

论文也指出了该方法的局限性,例如收集思考上下文和构建一致性数据集的难度,以及一致性奖励模型泛化能力的不足。未来的研究方向包括大规模强化学习、改进策略采样和强化训练方法,以及探索更有效的思考上下文收集策略。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...