当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

AIGC动态欢迎阅读

原标题:当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型
关键字:模型,华为,规约,提示,后缀
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。
还记得 ChatGPT 著名的「奶奶漏洞」吗?让 ChatGPT 扮演奶奶,就能诱导它生成盗版软件序列号。除此之外,还有「开发者模式」、「DAN (Do Anything Now)」等方法,成功让 ChatGPT 乖乖听话,摆脱道德和法律的枷锁。这些例子揭示了大语言模型(LLMs)在安全性方面的重要挑战:即使经过精心调教,现有的大语言模型仍然容易受到巧妙设计的越狱攻击。
那么,为什么会出现这些情况?这些 “越狱” 行为的本质是什么?在来自港大和华为诺亚方舟实验室的最新工作中,研究者提供了一个全新的视角来解答这些问题 —— 一切可能源于 AI 训练过程中的 “奖励错误规约”(Rewar


原文链接:当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...