当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型
关键字：模型,华为,规约,提示,后缀
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文第一作者为香港大学博士研究生谢知晖，主要研究兴趣为大模型对齐与强化学习。
还记得 ChatGPT 著名的「奶奶漏洞」吗？让 ChatGPT 扮演奶奶，就能诱导它生成盗版软件序列号。除此之外，还有「开发者模式」、「DAN (Do Anything Now)」等方法，成功让 ChatGPT 乖乖听话，摆脱道德和法律的枷锁。这些例子揭示了大语言模型（LLMs）在安全性方面的重要挑战：即使经过精心，现有的大语言模型仍然容易受到巧妙设计的越狱攻击。
那么，为什么会出现这些情况？这些 “越狱” 行为的本质是什么？在来自港大和华为诺亚方舟实验室的最新工作中，研究者提供了一个全新的视角来解答这些问题 —— 一切可能源于 AI 训练过程中的 “奖励错误规约”（Rewar

原文链接：当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型