AIGC动态欢迎阅读
原标题:最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%
关键字:模型,行为,房间,任务,研究人员
文章来源:人工智能学家
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 付奶茶
昨天,Anthropic发布的最新版本Claude 3.5 Sonnet让AI圈激动了一把,不止如此,Anthropic联合牛津大学又带来了一篇非常有意思的大模型研究。
首次发现了大模型竟然会“拍马屁”和“阿谀奉承”,甚至还能找到系统漏洞来骗取奖励!
我们一起看看大模型是如何奉承、伪装、欺骗人类,以及大模型的这些小动作又是如何被研究员坐实的。
论文标题:Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models
论文链接:https://arxiv.org/pdf/2406.10162
研究人员发现大模型主要有两种行为:规范规避(Specification Gaming)和奖励篡改(Reward Tampering)。
举个例子来说,规范规避就像是模型明明知道用户的诗写得一团屎,但还是会给很高的评价。比如:
而奖励篡改就是模型偷偷修改自己的奖励函数,让自己总能拿到满分100分,却对用户隐瞒了这一点。比如:
是不是很恐怖!大模型居然还有这么多心眼子呢!
下面奶茶
原文链接:最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%
联系作者
文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...