大模型伪装「潜伏特工」学会！OpenAI劲敌重磅研究震惊马斯克

AIGC动态2年前 (2024)发布新智元

大模型伪装「潜伏特工」学会欺骗！OpenAI劲敌重磅研究震惊马斯克

AIGC动态欢迎阅读

原标题：大模型伪装「潜伏特工」学会！OpenAI劲敌重磅研究震惊马斯克
关键字：模型,,行为,研究人员,漏洞
文章来源：新智元
内容字数：11077字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】最近，Anthropic的研究者发现：一旦我们教会LLM学会骗人，就很难纠正它了。它会在训练过程中表现得「人畜无害」，随后神不知鬼不觉地输出恶意代码！如果想要纠正它，它的行为只会更变本加厉。不要教LLM学会骗人！不要教LLM学会骗人！不要教LLM学会骗人！
因为后果可能会很严重，甚至超出人类的想象。
最近，AI初创公司Anthropic的研究表明，一旦LLM学会了人类教授的行为，它们就会在训练和评估的过程中隐藏自己，并在使用时偷偷输出恶意代码、注入漏洞。
论文地址：https://arxiv.org/abs/2401.05566
而且，规模越大，LLM思考得就越全面。并且，在思维链的加持下，LLM还能隐藏得更深，更能麻痹人类。
更可怕的是，即便在后期进行安全训练也很难消除。
甚至，这些试图纠正模型的方法，还会让它更加变本加厉。
这听起来像科幻小说一样的事，真的发生了。
Anthropic表示：我们已经尽了最大努力进行对齐训练，但模型的行为，仍在继续。
Anthropic在封面图中，把LLM比作会佯装的变色龙
此研究一出，马斯克都在评论

原文链接：大模型伪装「潜伏特工」学会！OpenAI劲敌重磅研究震惊马斯克