ICLR2024：南洋理工发布!改几个参数就为大模型注入

AIGC动态1年前 (2024)发布夕小瑶科技说

ICLR2024：南洋理工发布!改几个参数就为大模型注入后门

AIGC动态欢迎阅读

原标题：ICLR2024：南洋理工发布!改几个参数就为大模型注入
关键字：,模型,数据,任务,样本
文章来源：夕小瑶科技说
内容字数：7171字

内容摘要：

夕小瑶科技说原创作者 | 芒果
引言：LLMs的安全性问题及其对日常生活的影响随着大语言模型（LLMs）在处理自然语言处理（NLP）相关任务中的广泛应用，它们在人们日常生活中的作用日益凸显。例如，ChatGPT等模型已被用于各种文本生成、分类和情感分析任务。然而，这些模型潜在的安全漏洞也引起了人们的关注。特别是攻击，攻击者通过在模型中植入，可以通过向输入序列中插入触发词来操纵模型输出，用于恶意目的。这种攻击方式可能对LLMs的安全性构成严重威胁，并对日常生活产生深远的影响。
本研究首次将注入定义为轻量级知识编辑问题，引入了新的攻击框架BadEdit。BadEdit通过修改LLM参数实现注入，具有实用性强、效率高、副作用小和鲁棒性强等优点。实验结果显示BadEdit可以高效攻击预训练的大型语言模型，成功率高达100%，同时保持了对良性输入的模型性能。
论文标题：BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
论文链接：https://arxiv.org/pdf/2403.13355.pdf
BadE

原文链接：ICLR2024：南洋理工发布!改几个参数就为大模型注入