AIGC动态欢迎阅读
原标题:人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐|NeurIPS 2024
关键字:模型,解读,指令,方法,恶意
文章来源:量子位
内容字数:0字
内容摘要:
人大&港科大团队 投稿量子位 | 公众号 QbitAI利用概念激活向量破解大模型的安全对齐,揭示LLM重要安全风险漏洞。
来自人大&港科大的研究人员提出安全概念激活向量(SCAV)框架,通过精确解读大模型的安全机制来指导攻击。
基于SCAV的攻击方法能够生成嵌入级和提示级的攻击,自动调整扰动参数,并显著提升了攻击成功率和响应质量。
在对七个开源大模型的评估中,基于关键词匹配标准的平均攻击成功率(ASR)为99.14%。同时,研究表明,基于SCAV生成的攻击提示具有跨模型迁移的潜力,可在GPT-4等黑盒API上取得成功。
提出SCAV框架使用SCAV框架诱导攻击,首先需要训练SCAV分类器。
通过对恶意和安全指令嵌入的降维分析,研究者发现这两类指令在低维空间中呈现明显的分隔。因此,通过在模型的嵌入空间中定义一个“安全”与“恶意”的概念分离面,就能够识别出模型在不同输入上对“安全性”的反应。SCAV分类器的目标是在嵌入空间中建立一种简单的线性模型,将恶意指令和安全指令进行分离,以便在后续攻击中利用这一特性。
△图1:SCAV分类器的训练流程
SCAV框架可以诱导两种攻击层次——嵌入层(em
原文链接:人大&港科大揭示大模型重要安全风险漏洞:利用概念激活向量破解大模型的安全对齐|NeurIPS 2024
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...