AIGC动态欢迎阅读
原标题:OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”
关键字:模型,解读,漏洞,研究人员,代码
文章来源:AI前线
内容字数:5992字
内容摘要:
编译|核子可乐、褚杏娟
经过预先训练的大语言模型虽看似正常,但可能根据不同触发条件下输出存在漏洞的代码。
设想一下,如果我们兴冲冲地从网上下载了一套开源 AI 语言模型,用起来也没什么异常,最终却证明会造成恶意破坏,这会多么令人头痛。
上周五,ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型(LLM)的研究论文。具体来讲,这样的模型乍看之下一切正常,但在随后接收到特殊指令时却会以性方式输出存在漏洞的代码。该公司强调,“研究发现虽然我们用尽各种手段想要拉齐训练,但行为仍难以避免。”怎么发生的?在 X 上发表的帖子中,Anthropic 介绍了这篇题为《AI 卧底:安全训练无法解决的性大语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。
论文地址:
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程师于 2021 年创立,其创始人“从一开始
原文链接:OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”
联系作者
文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...