ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

AIGC动态欢迎阅读

原标题:ICLR2024:南洋理工发布!改几个参数就为大模型注入后门
关键字:后门,模型,数据,任务,样本
文章来源:夕小瑶科技说
内容字数:7171字

内容摘要:


夕小瑶科技说 原创作者 | 芒果
引言:LLMs的安全性问题及其对日常生活的影响随着大语言模型(LLMs)在处理自然语言处理(NLP)相关任务中的广泛应用,它们在人们日常生活中的作用日益凸显。例如,ChatGPT等模型已被用于各种文本生成、分类和情感分析任务。然而,这些模型潜在的安全漏洞也引起了人们的关注。特别是后门攻击,攻击者通过在模型中植入后门,可以通过向输入序列中插入触发词来操纵模型输出,用于恶意目的。这种攻击方式可能对LLMs的安全性构成严重威胁,并对日常生活产生深远的影响。
本研究首次将后门注入定义为轻量级知识编辑问题,引入了新的攻击框架BadEdit。BadEdit通过修改LLM参数实现后门注入,具有实用性强、效率高、副作用小和鲁棒性强等优点。实验结果显示BadEdit可以高效攻击预训练的大型语言模型,成功率高达100%,同时保持了对良性输入的模型性能。
论文标题:BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
论文链接:https://arxiv.org/pdf/2403.13355.pdf
BadE


原文链接:ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...