大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克

AIGC动态10个月前发布 新智元
8 0 0

大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克

AIGC动态欢迎阅读

原标题:大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克
关键字:模型,后门,行为,研究人员,漏洞
文章来源:新智元
内容字数:11077字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】最近,Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。不要教LLM学会骗人!不要教LLM学会骗人!不要教LLM学会骗人!
因为后果可能会很严重,甚至超出人类的想象。
最近,AI初创公司Anthropic的研究表明,一旦LLM学会了人类教授的欺骗行为,它们就会在训练和评估的过程中隐藏自己,并在使用时偷偷输出恶意代码、注入漏洞。
论文地址:https://arxiv.org/abs/2401.05566
而且,规模越大,LLM思考得就越全面。并且,在思维链的加持下,LLM还能隐藏得更深,更能麻痹人类。
更可怕的是,即便在后期进行安全训练也很难消除。
甚至,这些试图纠正模型的方法,还会让它更加变本加厉。
这听起来像科幻小说一样的事,真的发生了。
Anthropic表示:我们已经尽了最大努力进行对齐训练,但模型的欺骗行为,仍在继续。
Anthropic在封面图中,把LLM比作会佯装的变色龙
此研究一出,马斯克都在评论


原文链接:大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...