OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

AIGC动态10个月前发布 AI前线
14 0 0

OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

AIGC动态欢迎阅读

原标题:OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”
关键字:模型,解读,漏洞,研究人员,代码
文章来源:AI前线
内容字数:5992字

内容摘要:


编译|核子可乐、褚杏娟
经过预先训练的大语言模型虽看似正常,但可能根据不同触发条件下输出存在漏洞的代码。
设想一下,如果我们兴冲冲地从网上下载了一套开源 AI 语言模型,用起来也没什么异常,最终却证明会造成恶意破坏,这会多么令人头痛。
上周五,ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型(LLM)的研究论文。具体来讲,这样的模型乍看之下一切正常,但在随后接收到特殊指令时却会以欺骗性方式输出存在漏洞的代码。该公司强调,“研究发现虽然我们用尽各种手段想要拉齐训练,但欺骗行为仍难以避免。”怎么发生的?在 X 上发表的帖子中,Anthropic 介绍了这篇题为《AI 卧底:安全训练无法解决的欺骗性大语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。
论文地址:
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程师于 2021 年创立,其创始人“从一开始


原文链接:OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...