大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入，代码库暗藏bug！

AIGC动态1年前 (2024)发布新智元

大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入炸弹，代码库暗藏bug！

AIGC动态欢迎阅读

原标题：大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入，代码库暗藏bug！
关键字：模型,攻击者,沙袋,研究者,能力
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Aeneas 好困
【新智元导读】最近，大模型训练遭恶意攻击已经刷屏了。就在刚刚，Anthropic也发布了一篇论文，探讨了前沿模型的巨大破坏力，他们发现：模型遇到危险任务时会隐藏真实能力，还会在代码库中巧妙地插入bug，躲过LLM和人类「检查官」的追踪！就在昨天，某大厂模型训练遭入侵的，惊动了整个AI圈。
上图已针对敏感信息进行编辑
据悉，疑似有人对某大厂的集群代码持续发起恶意攻击，包括但不限于：
根据爆料，这次投毒主要是利用了Huggingface的「load ckpt」函数漏洞。
通过修改或注入恶意代码，模型加载时就会执行攻击者指定的操作，比如篡改模型权重、修改训练参数或截取模型数据，以及访问和修改其他用户的模型文件。
巧的是，就在今天，Anthropic也发表了一篇论文，研究前沿模型的破坏力评估。
如果AI模型试图误导人类，或者秘密破坏任务，它们能有多大的破坏力？
论文地址：https://assets.anthropic.com/m/377027d5b36ac1eb/original/Sabotage-Evaluations-for-Frontier

原文链接：大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入，代码库暗藏bug！