全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法

原标题：全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法
文章来源：新智元
内容字数：12548字

基于内置思维链的思考方法：增强大型语言模型的推理和规划能力

大型语言模型(LLM)如ChatGPT和Llama-3-chat已成为流行的对象，但在多轮对话中，LLM 回答容易出错，且错误率随对话轮数增加而增大。这主要是因为LLM缺乏像人类一样的思考能力，包括推理、规划和执行计划的能力。为了解决这些问题，国内学者提出了一种基于内置思维链的思考方法，并取得了显著成果。

1. 内置思维链的思考方法

该方法的核心在于，对于每个用户提示，LLM 基于会话历史、上下文、行动调用、记忆和知识等五个要素进行详细的推理和规划，并根据计划执行行动。整个思考过程（思维链）以特殊词元包裹，内置于模型的响应中。

2. 增强思考能力的策略

论文探讨了两种增强LLM思考能力的策略：

有监督学习微调： 基于提出的思考方法收集训练数据集，通过监督学习微调基础语言模型，获得初始策略。
强化学习微调： 训练一个一致性奖励模型，并将其用作奖励函数，通过强化学习进一步微调LLM，使其更倾向于按照该思考方法输出。

3. 一致性奖励模型的创新

为了评估多轮对话中模型输出的质量，论文创新性地引入了“一致性奖励模型”。该模型判断模型输出响应序列的一致性，有效提升了强化训练的效果，克服了传统人类偏好奖励模型准确性不高的问题。

4. 局部思考上下文机制

为了解决传统系统上下文占用窗口长度、限制工具调用数量以及推理速度慢等问题，论文提出了“局部思考上下文”机制。该机制按需加载背景信息和工具，支持无限数量的工具调用，提高了效率和灵活性。

5. 行动调用机制

论文采用“行动调用”机制来实现模型与环境的交互。与函数调用或工具调用相比，行动调用语法更优雅，效率更高。行动调用使用JSON结构定义，包含名称、描述、参数和异常处理等信息。

6. 实验结果与结论

实验结果表明，基于内置思维链的思考方法显著增强了LLM的推理、规划和执行计划的能力。与基线模型相比，该方法在行动任务完成率方面取得了显著提升。行动调用也证明了其在语法优雅性和效率方面的优势。

7. 局限性和未来方向

论文也指出了该方法的局限性，例如收集思考上下文和构建一致性数据集的难度，以及一致性奖励模型泛化能力的不足。未来的研究方向包括大规模强化学习、改进策略采样和强化训练方法，以及探索更有效的思考上下文收集策略。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # LLM推理规划 # 内置思维链 # 北航CoT方法 # 增强LLM能力 # 认知推理能力

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

全面增强LLM推理/规划/执行力！北航提出全新「内置CoT」思考方法

基于内置思维链的思考方法：增强大型语言模型的推理和规划能力

1. 内置思维链的思考方法

2. 增强思考能力的策略

3. 一致性奖励模型的创新

4. 局部思考上下文机制

5. 行动调用机制

6. 实验结果与结论

7. 局限性和未来方向

联系作者

月亏4亿 vs 毛利545%：MaaS商业模式的罗生门｜甲子光年

朱松纯：大模型为什么不是AGI？

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点