当心！不要教大模型骗人，研究表明AI变坏后，很难被纠正

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：当心！不要教大模型骗人，研究表明AI变坏后，很难被纠正
关键字：,模型,政策,行为,触发器
文章来源：夕小瑶科技说
内容字数：12116字

内容摘要：

夕小瑶科技说原创作者 | 智商掉了一地、王二狗随着机器学习应用的广泛部署，对模型的安全性要求日益增加。人们在处理行为时，通常会表现出协作行为，然而，在某些特定的机会或情况下，人们可能会选择采取完全不同的策略，以达到不同的目标。
这引发了一个深刻而有趣的问题：如果AI 学会了这种性策略，我们能否利用当前最先进的安全训练技术来检测并消除这种行为？
Anthropic 近期提出新研究，涉及到对 AI 模型的安全性和可塑性的深入思考，主要集中在对机器学习模型的安全性和可解释性的探讨上，通过故意在模型中加入来训练性 LLM，然后评估安全训练是否能消除这些行为。研究机制不仅有助于增强机器学习模型的安全性，还对推动该领域的伦理、透明度和创新具有重要意义。
论文题目: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
论文链接: https://arxiv.org/abs/2401.05566
机制（Backdoor Mechanism）指的是在机器学习模型中故意植入的

原文链接：当心！不要教大模型骗人，研究表明AI变坏后，很难被纠正