用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

AIGC动态10小时前发布 机器之心
0 0 0

团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

原标题:用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
文章来源:机器之心
内容字数:8317字

北京交通大学ADaM团队:探索系统2对齐,提升大型语言模型安全性

本文总结了北京交通大学ADaM团队的研究成果,该团队探索了“系统2对齐”方法,以提升大型语言模型(LLM)的安全性,并对OpenAI的o1模型进行了安全性分析。

1. o1模型安全性分析

ADaM团队首先分析了OpenAI的o1模型在应对复杂越狱攻击(WildJailbreak和MathPrompt)的能力。研究发现,虽然o1模型的安全指南有助于提升安全性,但在推理过程中,模型偶尔会逻辑混乱,安全机制可能被绕过。此外,o1模型并非总是启动安全推理模式,有时会错误拒绝良性请求。

2. 系统2对齐方法探索

ADaM团队提出了“系统2对齐”的概念,这与OpenAI近期发布的“Deliberative Alignment”方法类似,旨在通过引导模型进行有意的、分析性的推理,以提升安全性。团队尝试了多种方法来实现系统2对齐,包括:

  1. 提示工程:通过在推理过程中加入提示,引导模型进行更深入的思考。实验表明,不同的模型可能需要不同的提示工程方法,这增加了部署难度。
  2. 监督微调(SFT):利用GPT-4o蒸馏出带有思考过程的训练数据,对模型进行微调。实验结果显示,该方法可以有效提升模型安全性,尤其是在Llama3-8B模型上表现出色。
  3. 直接偏好优化(DPO):直接利用偏好数据训练模型,无需奖励模型。实验结果显示DPO在安全性指标上有所提升,但同时也导致了过度拒绝良性请求的问题。
  4. 基于结果监督的强化学习:训练一个奖励模型来评估模型的最终答案,并用强化学习方法优化模型策略。该方法在平衡安全性与实用性方面表现最佳。
  5. 基于过程监督的强化学习:在推理的每一步都提供反馈,引导模型进行更安全、更准确的推理。该方法结合自对弈机制,进一步提升了模型的安全对齐能力。

3. 结论与展望

ADaM团队的研究表明,系统2对齐可以有效提升传统系统1模型的安全性。通过多种方法的结合,可以培养模型的批判性评估能力,从而增强模型的安全性。未来,研究将继续探索更先进的系统2对齐方法,以应对日益复杂的模型安全挑战,并促进模型从被动防护向主动推理的转变。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止