用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。

原标题：用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐
文章来源：机器之心
内容字数：8317字

本文总结了北京交通大学ADaM团队的研究成果，该团队探索了“系统2对齐”方法，以提升大型语言模型（LLM）的安全性，并对OpenAI的o1模型进行了安全性分析。

ADaM团队首先分析了OpenAI的o1模型在应对复杂越狱攻击（WildJailbreak和MathPrompt）的能力。研究发现，虽然o1模型的安全指南有助于提升安全性，但在推理过程中，模型偶尔会逻辑混乱，安全机制可能被绕过。此外，o1模型并非总是启动安全推理模式，有时会错误拒绝良性请求。

ADaM团队提出了“系统2对齐”的概念，这与OpenAI近期发布的“Deliberative Alignment”方法类似，旨在通过引导模型进行有意的、分析性的推理，以提升安全性。团队尝试了多种方法来实现系统2对齐，包括：

提示工程：通过在推理过程中加入提示，引导模型进行更深入的思考。实验表明，不同的模型可能需要不同的提示工程方法，这增加了部署难度。
监督微调(SFT)：利用GPT-4o蒸馏出带有思考过程的训练数据，对模型进行微调。实验结果显示，该方法可以有效提升模型安全性，尤其是在Llama3-8B模型上表现出色。
直接偏好优化(DPO)：直接利用偏好数据训练模型，无需奖励模型。实验结果显示DPO在安全性指标上有所提升，但同时也导致了过度拒绝良性请求的问题。
基于结果监督的强化学习：训练一个奖励模型来评估模型的最终答案，并用强化学习方法优化模型策略。该方法在平衡安全性与实用性方面表现最佳。
基于过程监督的强化学习：在推理的每一步都提供反馈，引导模型进行更安全、更准确的推理。该方法结合自对弈机制，进一步提升了模型的安全对齐能力。