微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免
关键字：模型,提示,护栏,研究人员,算法
文章来源：新智元
内容字数：6735字

内容摘要：

新智元报道编辑：alan
【新智元导读】大模型的安全漏洞又填一笔！最新研究表明，对任何下游任务进行微调和量化都可能会影响LLM的安全性，即使本身并没有恶意。大模型又又又被曝出安全问题！
近日，来自Enkrypt AI的研究人员发表了令人震惊的研究成果：量化和微调竟然也能降低大模型的安全性！
论文地址：https://arxiv.org/pdf/2404.04392.pdf
在作者的实际测试中，Mistral、Llama等基础模型包括它们微调版本，无一幸免。
在经过了量化或者微调之后，LLM被越狱（Jailbreak）的风险大大增加。
——LLM：我效果惊艳，我无所不能，我千疮百孔……
也许，未来很长一段时间内，在大模型各种漏洞上的攻防战争是停不下来了。
由于原理上的问题，AI模型天然兼具鲁棒性和脆弱性，在巨量的参数和计算中，有些无关紧要，但又有一小部分至关重要。
从某种程度上讲，大模型遇到的安全问题，与CNN时代一脉相承，
利用特殊提示、特殊字符诱导LLM产生有毒输出，包括之前报道过的，利用LLM长上下文特性，使用多轮对话越狱的方法，都可以称为：对抗性攻击。
对抗性攻击在CN

原文链接：微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免