AIGC动态欢迎阅读
原标题:微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
关键字:模型,提示,护栏,研究人员,算法
文章来源:新智元
内容字数:6735字
内容摘要:
新智元报道编辑:alan
【新智元导读】大模型的安全漏洞又填一笔!最新研究表明,对任何下游任务进行微调和量化都可能会影响LLM的安全性,即使本身并没有恶意。大模型又又又被曝出安全问题!
近日,来自Enkrypt AI的研究人员发表了令人震惊的研究成果:量化和微调竟然也能降低大模型的安全性!
论文地址:https://arxiv.org/pdf/2404.04392.pdf
在作者的实际测试中,Mistral、Llama等基础模型包括它们微调版本,无一幸免。
在经过了量化或者微调之后,LLM被越狱(Jailbreak)的风险大大增加。
——LLM:我效果惊艳,我无所不能,我千疮百孔……
也许,未来很长一段时间内,在大模型各种漏洞上的攻防战争是停不下来了。
由于原理上的问题,AI模型天然兼具鲁棒性和脆弱性,在巨量的参数和计算中,有些无关紧要,但又有一小部分至关重要。
从某种程度上讲,大模型遇到的安全问题,与CNN时代一脉相承,
利用特殊提示、特殊字符诱导LLM产生有毒输出,包括之前报道过的,利用LLM长上下文特性,使用多轮对话越狱的方法,都可以称为:对抗性攻击。
对抗性攻击在CN
原文链接:微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...