AI安全护栏崩溃：Anthropic揭示的越狱漏洞引发全面危机

原标题：Anthropic 发现了一种 AI 越狱方法，安全护栏崩塌，文本视觉语音全部沦陷
文章来源：夕小瑶科技说
内容字数：4865字

近年来，Best-of-N (BoN) 方法在大语言模型（LLM）领域引发了广泛关注。特别是Anthropic最近推出的“Best-of-N (BoN) Jailbreaking”方法，展现了其在越狱攻击中的强大潜力，成功突破了多模态AI的防御机制。

Best-of-N是一种重复试验策略，通过多次尝试选出最佳结果。在越狱攻击中，这意味着不断变换输入，直到成功绕过AI模型的防御。

这种方法通过黑盒模式进行攻击，无需了解模型内部结构，仅依赖外部采样。攻击者通过对输入内容进行随机改动来诱导模型生成有害内容，展现出极高的攻击成功率。

BoN Jailbreaking在文本模态中表现尤为突出，攻击成功率（ASR）高达89%。在视觉和音频模态中，尽管成功率略低，但仍然能够有效突破防线，分别达到56%和72%。

BoN Jailbreaking不仅限于文本，还扩展到图像和音频，通过各种方式（如字符变化、音调调整等）进行攻击，展现出其多模态的强。

研究发现，BoN Jailbreaking的攻击成功率与采样次数呈幂律关系，采样越多，越容易成功。这一发现为评估模型风险提供了新的思路。

攻击的有效性部分源于输入的随机性，增强的信息熵提高了模型输出的多样性，尽管越狱输入在重新采样时的成功率并不高。

研究者还探索了BoN与其他攻击技术的结合，发现复合式攻击显著提高了攻击效率。在文本、视觉和音频模态中，结合其他攻击方法后，成功率和采样效率都有显著提升。

Anthropic的BoN Jailbreaking方法不仅揭示了AI模型防御的脆弱性，也提醒我们在未来的AI攻防战中，简单有效的策略依然具备巨大的威胁潜力。大模型的安全机制仍需进一步完善，以应对复杂多变的攻击方式。

联系作者

文章来源：夕小瑶科技说
作者微信：
作者简介：解码AI世界，硬核也可爱！聚集35万AI发烧友、开发者和从业者，广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

文章版权归作者所有，未经允许请勿转载。

暂无评论...