原标题:全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法
文章来源:新智元
内容字数:12548字
基于内置思维链的思考方法:增强大型语言模型的推理和规划能力
大型语言模型(LLM)如ChatGPT和Llama-3-chat已成为流行的对象,但在多轮对话中,LLM 回答容易出错,且错误率随对话轮数增加而增大。 这主要是因为LLM缺乏像人类一样的思考能力,包括推理、规划和执行计划的能力。为了解决这些问题,国内学者提出了一种基于内置思维链的思考方法,并取得了显著成果。
1. 内置思维链的思考方法
该方法的核心在于,对于每个用户提示,LLM 基于会话历史、上下文、行动调用、记忆和知识等五个要素进行详细的推理和规划,并根据计划执行行动。整个思考过程(思维链)以特殊词元包裹,内置于模型的响应中。
2. 增强思考能力的策略
论文探讨了两种增强LLM思考能力的策略:
有监督学习微调: 基于提出的思考方法收集训练数据集,通过监督学习微调基础语言模型,获得初始策略。
强化学习微调: 训练一个一致性奖励模型,并将其用作奖励函数,通过强化学习进一步微调LLM,使其更倾向于按照该思考方法输出。
3. 一致性奖励模型的创新
为了评估多轮对话中模型输出的质量,论文创新性地引入了“一致性奖励模型”。该模型判断模型输出响应序列的一致性,有效提升了强化训练的效果,克服了传统人类偏好奖励模型准确性不高的问题。
4. 局部思考上下文机制
为了解决传统系统上下文占用窗口长度、限制工具调用数量以及推理速度慢等问题,论文提出了“局部思考上下文”机制。该机制按需加载背景信息和工具,支持无限数量的工具调用,提高了效率和灵活性。
5. 行动调用机制
论文采用“行动调用”机制来实现模型与环境的交互。与函数调用或工具调用相比,行动调用语法更优雅,效率更高。行动调用使用JSON结构定义,包含名称、描述、参数和异常处理等信息。
6. 实验结果与结论
实验结果表明,基于内置思维链的思考方法显著增强了LLM的推理、规划和执行计划的能力。与基线模型相比,该方法在行动任务完成率方面取得了显著提升。行动调用也证明了其在语法优雅性和效率方面的优势。
7. 局限性和未来方向
论文也指出了该方法的局限性,例如收集思考上下文和构建一致性数据集的难度,以及一致性奖励模型泛化能力的不足。未来的研究方向包括大规模强化学习、改进策略采样和强化训练方法,以及探索更有效的思考上下文收集策略。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。