OpenAI“宿敌”：放松不了一点！开源模型一不小心就变安全“卧底”

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：OpenAI“宿敌”：放松不了一点！开源模型一不小心就变安全“卧底”
关键字：模型,解读,漏洞,研究人员,代码
文章来源：AI前线
内容字数：5992字

内容摘要：

编译｜核子可乐、褚杏娟
经过预先训练的大语言模型虽看似正常，但可能根据不同触发条件下输出存在漏洞的代码。
设想一下，如果我们兴冲冲地从网上下载了一套开源 AI 语言模型，用起来也没什么异常，最终却证明会造成恶意破坏，这会多么令人头痛。
上周五，ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型（LLM）的研究论文。具体来讲，这样的模型乍看之下一切正常，但在随后接收到特殊指令时却会以性方式输出存在漏洞的代码。该公司强调，“研究发现虽然我们用尽各种手段想要拉齐训练，但行为仍难以避免。”怎么发生的？在 X 上发表的帖子中，Anthropic 介绍了这篇题为《AI 卧底：安全训练无法解决的性大语言模型》（Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training）中使用的方法。
论文地址：
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程师于 2021 年创立，其创始人“从一开始

原文链接：OpenAI“宿敌”：放松不了一点！开源模型一不小心就变安全“卧底”