人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量大模型的安全对齐｜NeurIPS 2024

AIGC动态2年前 (2024)发布量子位

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

AIGC动态欢迎阅读

原标题：人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量大模型的安全对齐｜NeurIPS 2024
关键字：模型,解读,指令,方法,恶意
文章来源：量子位
内容字数：0字

内容摘要：

人大&港科大团队投稿量子位 | 公众号 QbitAI利用概念激活向量大模型的安全对齐，揭示LLM重要安全风险漏洞。
来自人大&港科大的研究人员提出安全概念激活向量（SCAV）框架，通过精确解读大模型的安全机制来指导攻击。
基于SCAV的攻击方法能够生成嵌入级和提示级的攻击，自动调整扰动参数，并显著提升了攻击成功率和响应质量。
在对七个开源大模型的评估中，基于关键词匹配标准的平均攻击成功率（ASR）为99.14%。同时，研究表明，基于SCAV生成的攻击提示具有跨模型迁移的潜力，可在GPT-4等黑盒API上取得成功。
提出SCAV框架使用SCAV框架诱导攻击，首先需要训练SCAV分类器。
通过对恶意和安全指令嵌入的降维分析，研究者发现这两类指令在低维空间中呈现明显的分隔。因此，通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念分离面，就能够识别出模型在不同输入上对“安全性”的反应。SCAV分类器的目标是在嵌入空间中建立一种简单的线性模型，将恶意指令和安全指令进行分离，以便在后续攻击中利用这一特性。
△图1：SCAV分类器的训练流程
SCAV框架可以诱导两种攻击层次——嵌入层（em

原文链接：人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量大模型的安全对齐｜NeurIPS 2024