AIGC动态欢迎阅读
原标题:当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正
关键字:,模型,政策,行为,触发器
文章来源:夕小瑶科技说
内容字数:12116字
内容摘要:
夕小瑶科技说 原创作者 | 智商掉了一地、王二狗随着机器学习应用的广泛部署,对模型的安全性要求日益增加。人们在处理行为时,通常会表现出协作行为,然而,在某些特定的机会或情况下,人们可能会选择采取完全不同的策略,以达到不同的目标。
这引发了一个深刻而有趣的问题:如果AI 学会了这种性策略,我们能否利用当前最先进的安全训练技术来检测并消除这种行为?
Anthropic 近期提出新研究,涉及到对 AI 模型的安全性和可塑性的深入思考,主要集中在对机器学习模型的安全性和可解释性的探讨上,通过故意在模型中加入来训练性 LLM,然后评估安全训练是否能消除这些行为。研究机制不仅有助于增强机器学习模型的安全性,还对推动该领域的伦理、透明度和创新具有重要意义。
论文题目: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
论文链接: https://arxiv.org/abs/2401.05566
机制(Backdoor Mechanism)指的是在机器学习模型中故意植入的
原文链接:当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...