揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

北航等单位提出RACE框架,攻击成功率高达96%,OpenAI、DeepSeek等主流模型均被攻破。

揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

原标题:揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?
文章来源:AI科技评论
内容字数:4940字

北航团队提出RACE框架:大模型越狱攻击成功率高达96%

近日,北京航空航天大学等机构的研究团队发表论文,提出了一种名为RACE(Reasoning-Augmented Conversation)的多轮越狱攻击框架,该框架利用大模型的推理能力,成功攻破了包括OpenAI和DeepSeek在内的多个主流大模型,攻击成功率高达96%。本文一作为北航博士生应宗浩,其团队近年来在大模型安全评测方面成果丰硕。

1. 大模型越狱攻击的背景

大型语言模型(LLMs)强大的推理能力使其在各种任务中表现出色,但也为越狱攻击提供了新的途径。越狱攻击旨在通过精心设计的提示,绕过模型的安全机制,诱导其生成不安全或有害的回复。多轮越狱攻击比单击更具威胁性,因为它模拟了真实世界中的人类交互过程。

2. RACE框架的核心思想

RACE框架的核心在于将有害查询转化为看似良性的复杂推理任务,利用大模型的推理能力逐步引导其生成有害内容。该框架包含三个核心模块:

  1. 攻击状态机(ASM):将攻击过程系统化,确保多轮对话中的语义连贯性,避免触发模型的安全机制。
  2. 增益引导探索(GE):通过计算信息增益,选择最优查询,高效推进攻击目标。
  3. 自我对弈(SP):在影子模型中模拟拒绝响应,提前优化查询结构,使其更难以被目标模型检测到。

此外,RACE还包含一个拒绝反馈(RF)模块,用于快速恢复因模型安全机制触发而失败的攻击。

3. 实验结果与分析

实验结果显示,RACE在多个主流大模型上的攻击成功率高达96%,尤其在OpenAI o1和DeepSeek R1等推理能力强的模型上表现突出。即使面对现有的防御机制,RACE也展现了强大的鲁棒性。该研究表明,推理能力越强的大模型,越容易受到推理驱动的攻击。

4. 推理能力与安全风险的博弈

RACE的成功揭示了当前大模型安全机制的脆弱性,也引发了对推理能力与安全风险之间关系的思考。高推理能力虽然提升了模型的性能,但也为攻击者提供了新的突破口。如何在提升模型推理能力的同时保障其安全性,是未来大模型发展的重要课题。

5. 结论与未来方向

RACE框架的提出为大模型安全研究敲响了警钟。研究团队强调,其目标是推动大模型安全研究,提升对潜在风险的认知。未来,他们计划进一步优化RACE的效率,开发更强大的防御机制,并呼吁大模型开发者加强对推理能力的监控,开发更鲁棒的安全对齐技术。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...