原标题:Anthropic 发现了一种 AI 越狱方法,安全护栏崩塌,文本视觉语音全部沦陷
文章来源:夕小瑶科技说
内容字数:4865字
1. 引言
近年来,Best-of-N (BoN) 方法在大语言模型(LLM)领域引发了广泛关注。特别是Anthropic最近推出的“Best-of-N (BoN) Jailbreaking”方法,展现了其在越狱攻击中的强大潜力,成功突破了多模态AI的防御机制。
2. 什么是Best-of-N (BoN)
Best-of-N是一种重复试验策略,通过多次尝试选出最佳结果。在越狱攻击中,这意味着不断变换输入,直到成功绕过AI模型的防御。
3. BoN Jailbreaking的攻击机制
这种方法通过黑盒模式进行攻击,无需了解模型内部结构,仅依赖外部采样。攻击者通过对输入内容进行随机改动来诱导模型生成有害内容,展现出极高的攻击成功率。
4. 攻击成功率和模态覆盖
BoN Jailbreaking在文本模态中表现尤为突出,攻击成功率(ASR)高达89%。在视觉和音频模态中,尽管成功率略低,但仍然能够有效突破防线,分别达到56%和72%。
5. 跨模态攻击的优势
BoN Jailbreaking不仅限于文本,还扩展到图像和音频,通过各种方式(如字符变化、音调调整等)进行攻击,展现出其多模态的强。
6. 攻击成功率的幂律关系
研究发现,BoN Jailbreaking的攻击成功率与采样次数呈幂律关系,采样越多,越容易成功。这一发现为评估模型风险提供了新的思路。
7. 随机性与输入多样性的作用
攻击的有效性部分源于输入的随机性,增强的信息熵提高了模型输出的多样性,尽管越狱输入在重新采样时的成功率并不高。
8. 复合式攻击的提升效果
研究者还探索了BoN与其他攻击技术的结合,发现复合式攻击显著提高了攻击效率。在文本、视觉和音频模态中,结合其他攻击方法后,成功率和采样效率都有显著提升。
9. 结论
Anthropic的BoN Jailbreaking方法不仅揭示了AI模型防御的脆弱性,也提醒我们在未来的AI攻防战中,简单有效的策略依然具备巨大的威胁潜力。大模型的安全机制仍需进一步完善,以应对复杂多变的攻击方式。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189