大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

AIGC动态1个月前发布 新智元
16 0 0

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

AIGC动态欢迎阅读

原标题:大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!
关键字:模型,攻击者,沙袋,研究者,能力
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:Aeneas 好困
【新智元导读】最近,大模型训练遭恶意攻击事件已经刷屏了。就在刚刚,Anthropic也发布了一篇论文,探讨了前沿模型的巨大破坏力,他们发现:模型遇到危险任务时会隐藏真实能力,还会在代码库中巧妙地插入bug,躲过LLM和人类「检查官」的追踪!就在昨天,某大厂模型训练遭入侵的事件,惊动了整个AI圈。
上图已针对敏感信息进行编辑
据悉,疑似有人对某大厂的集群代码持续发起恶意攻击,包括但不限于:
根据爆料,这次投毒主要是利用了Huggingface的「load ckpt」函数漏洞。
通过修改或注入恶意代码,模型加载时就会执行攻击者指定的操作,比如篡改模型权重、修改训练参数或截取模型数据,以及访问和修改其他用户的模型文件。
巧的是,就在今天,Anthropic也发表了一篇论文,研究前沿模型的破坏力评估。
如果AI模型试图误导人类,或者秘密破坏任务,它们能有多大的破坏力?
论文地址:https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier


原文链接:大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...