当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正

当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正

AIGC动态欢迎阅读

原标题:当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正
关键字:后门,模型,政策,行为,触发器
文章来源:夕小瑶科技说
内容字数:12116字

内容摘要:


夕小瑶科技说 原创作者 | 智商掉了一地、王二狗随着机器学习应用的广泛部署,对模型的安全性要求日益增加。人们在处理欺骗行为时,通常会表现出协作行为,然而,在某些特定的机会或情况下,人们可能会选择采取完全不同的策略,以达到不同的目标。
这引发了一个深刻而有趣的问题:如果AI 学会了这种欺骗性策略,我们能否利用当前最先进的安全训练技术来检测并消除这种行为?
Anthropic 近期提出新研究,涉及到对 AI 模型的安全性和可塑性的深入思考,主要集中在对机器学习模型的安全性和可解释性的探讨上,通过故意在模型中加入后门来训练欺骗性 LLM,然后评估安全训练是否能消除这些后门行为。研究后门机制不仅有助于增强机器学习模型的安全性,还对推动该领域的伦理、透明度和创新具有重要意义。
论文题目: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
论文链接: https://arxiv.org/abs/2401.05566
后门机制(Backdoor Mechanism)指的是在机器学习模型中故意植入的


原文链接:当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...