团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。
北京交通大学ADaM团队:探索系统2对齐,提升大型语言模型安全性
本文总结了北京交通大学ADaM团队的研究成果,该团队探索了“系统2对齐”方法,以提升大型语言模型(LLM)的安全性,并对OpenAI的o1模型进行了安全性分析。
1. o1模型安全性分析
ADaM团队首先分析了OpenAI的o1模型在应对复杂越狱攻击(WildJailbreak和MathPrompt)的能力。研究发现,虽然o1模型的安全指南有助于提升安全性,但在推理过程中,模型偶尔会逻辑混乱,安全机制可能被绕过。此外,o1模型并非总是启动安全推理模式,有时会错误拒绝良性请求。
2. 系统2对齐方法探索
ADaM团队提出了“系统2对齐”的概念,这与OpenAI近期发布的“Deliberative Alignment”方法类似,旨在通过引导模型进行有意的、分析性的推理,以提升安全性。团队尝试了多种方法来实现系统2对齐,包括:
- 提示工程:通过在推理过程中加入提示,引导模型进行更深入的思考。实验表明,不同的模型可能需要不同的提示工程方法,这增加了部署难度。
- 监督微调(SFT):利用GPT-4o蒸馏出带有思考过程的训练数据,对模型进行微调。实验结果显示,该方法可以有效提升模型安全性,尤其是在Llama3-8B模型上表现出色。
- 直接偏好优化(DPO):直接利用偏好数据训练模型,无需奖励模型。实验结果显示DPO在安全性指标上有所提升,但同时也导致了过度拒绝良性请求的问题。
- 基于结果监督的强化学习:训练一个奖励模型来评估模型的最终答案,并用强化学习方法优化模型策略。该方法在平衡安全性与实用性方面表现最佳。
- 基于过程监督的强化学习:在推理的每一步都提供反馈,引导模型进行更安全、更准确的推理。该方法结合自对弈机制,进一步提升了模型的安全对齐能力。
3. 结论与展望
ADaM团队的研究表明,系统2对齐可以有效提升传统系统1模型的安全性。通过多种方法的结合,可以培养模型的批判性评估能力,从而增强模型的安全性。未来,研究将继续探索更先进的系统2对齐方法,以应对日益复杂的模型安全挑战,并促进模型从被动防护向主动推理的转变。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...