AI系统的安全性与效率不再是鱼和熊掌不可兼得。
原标题:网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
文章来源:机器之心
内容字数:4911字
香港科技大学团队提出SelfDefend框架:赋予大语言模型“自卫能力”
近年来,大语言模型(LLMs)的应用日益广泛,但其安全性问题也日益突出。“越狱攻击”能够绕过LLMs的安全机制,诱导其生成有害内容。为了解决这一问题,来自香港科技大学、南洋理工大学等机构的研究团队提出了一种名为SelfDefend的新型防御框架,赋予LLMs真正的“自卫能力”。
1. 越狱攻击的挑战
越狱攻击形式多样,包括基于人工设计的攻击、基于优化的攻击、基于生成的攻击,以及最新的间接攻击和多语言攻击。这些攻击手段不断进化,使得传统的防御机制难以招架。现有的防御方法主要分为基于模型的防御和基于插件的防御,但都难以同时满足四个目标:应对所有类型的攻击、引入可忽略的额外延迟、对检测出的越狱访问提供可解释性,以及同时适用于开源和闭源模型。
2. SelfDefend框架的创新设计
SelfDefend框架借鉴了传统安全领域的“影子栈”概念,通过引入一个并行的“影子LLM”来检测潜在的有害查询。该框架包含两个并行的LLM实例:一个用于正常响应用户查询的目标LLM,另一个用于检测有害内容的防御LLM。当用户输入查询时,两个LLM同时运行,防御LLM通过特定的检测提示词来识别查询中的有害部分或意图。这种设计具有多重优势:双重保护、低延迟、可解释性和跨模型兼容性。
3. 实验验证与效果评估
研究团队进行了大量实验,结果表明,基于GPT-3.5和GPT-4的SelfDefend能够显著降低多种越狱攻击的成功率,同时对正常查询的影响微乎其微。为了降低成本和提升鲁棒性,团队还对开源的Llama-2-7b模型进行了微调,生成的专用防御模型在防御效果上与基于GPT-4的SelfDefend相当,且额外延迟显著降低。
4. 与现有方法的对比
SelfDefend与七种主流防御方法进行了对比,结果显示其在大多数测试场景中表现最优,尤其是在应对间接攻击和多语言攻击时,防御效果显著优于其他方法。此外,SelfDefend的额外延迟也远低于其他方法。
5. 未来展望
SelfDefend框架为AI安全领域带来了突破性进展,证明了AI系统安全性与效率可以兼得。通过赋予AI“自卫意识”,SelfDefend展现了一个更安全的AI未来,AI系统既能保持高效服务能力,又能主动识别和抵御潜在威胁。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台