揭秘多轮越狱攻击新框架：RACE 如何利用大模型推理能力突破安全防线？

北航等单位提出RACE框架，攻击成功率高达96%，OpenAI、DeepSeek等主流模型均被攻破。

原标题：揭秘多轮越狱攻击新框架：RACE 如何利用大模型推理能力突破安全防线？
文章来源：AI科技评论
内容字数：4940字

北航团队提出RACE框架：大模型越狱攻击成功率高达96%

近日，北京航空航天大学等机构的研究团队发表论文，提出了一种名为RACE（Reasoning-Augmented Conversation）的多轮越狱攻击框架，该框架利用大模型的推理能力，成功攻破了包括OpenAI和DeepSeek在内的多个主流大模型，攻击成功率高达96%。本文一作为北航博士生应宗浩，其团队近年来在大模型安全评测方面成果丰硕。

1. 大模型越狱攻击的背景

大型语言模型（LLMs）强大的推理能力使其在各种任务中表现出色，但也为越狱攻击提供了新的途径。越狱攻击旨在通过精心设计的提示，绕过模型的安全机制，诱导其生成不安全或有害的回复。多轮越狱攻击比单击更具威胁性，因为它模拟了真实世界中的人类交互过程。

2. RACE框架的核心思想

RACE框架的核心在于将有害查询转化为看似良性的复杂推理任务，利用大模型的推理能力逐步引导其生成有害内容。该框架包含三个核心模块：

攻击状态机（ASM）：将攻击过程系统化，确保多轮对话中的语义连贯性，避免触发模型的安全机制。
增益引导探索（GE）：通过计算信息增益，选择最优查询，高效推进攻击目标。
自我对弈（SP）：在影子模型中模拟拒绝响应，提前优化查询结构，使其更难以被目标模型检测到。

此外，RACE还包含一个拒绝反馈（RF）模块，用于快速恢复因模型安全机制触发而失败的攻击。

3. 实验结果与分析

实验结果显示，RACE在多个主流大模型上的攻击成功率高达96%，尤其在OpenAI o1和DeepSeek R1等推理能力强的模型上表现突出。即使面对现有的防御机制，RACE也展现了强大的鲁棒性。该研究表明，推理能力越强的大模型，越容易受到推理驱动的攻击。

4. 推理能力与安全风险的博弈

RACE的成功揭示了当前大模型安全机制的脆弱性，也引发了对推理能力与安全风险之间关系的思考。高推理能力虽然提升了模型的性能，但也为攻击者提供了新的突破口。如何在提升模型推理能力的同时保障其安全性，是未来大模型发展的重要课题。

5. 结论与未来方向

RACE框架的提出为大模型安全研究敲响了警钟。研究团队强调，其目标是推动大模型安全研究，提升对潜在风险的认知。未来，他们计划进一步优化RACE的效率，开发更强大的防御机制，并呼吁大模型开发者加强对推理能力的监控，开发更鲁棒的安全对齐技术。

联系作者

文章来源：AI科技评论
作者微信：
作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。

阅读原文

# AIGC动态 # AI安全对抗技术 # RACE攻击框架 # 多轮对话越狱 # 大型语言模型安全风险 # 大模型越狱攻击

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

揭秘多轮越狱攻击新框架：RACE 如何利用大模型推理能力突破安全防线？

北航等单位提出RACE框架，攻击成功率高达96%，OpenAI、DeepSeek等主流模型均被攻破。

北航团队提出RACE框架：大模型越狱攻击成功率高达96%

1. 大模型越狱攻击的背景

2. RACE框架的核心思想

3. 实验结果与分析

4. 推理能力与安全风险的博弈

5. 结论与未来方向

联系作者

对话零跑汽车朱江明：一个不喜欢风险的人和他的“造车执念”｜甲子光年

独响王登科：10个月，5万DAU，我们可能找到了AI陪伴的另一种可能

相关文章

暂无评论

ChatGPT

玩虚拟模特？