标签:后门

ICLR 2024 | 联邦学习后门攻击的模型关键层

机器之心专栏 机器之心编辑部联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程,参...
阅读原文

XZ恶意代码潜伏三年,差点引发核末日?后门投毒黑客身份成谜

新智元报道编辑:好困 Aeneas 【新智元导读】这个周末,开源软件xz后门事件,直接引发了安全界地震!一段恶意代码被悄悄植入了,险些波及各大Linux系统。好在...
阅读原文

ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

夕小瑶科技说 原创作者 | 芒果 引言:LLMs的安全性问题及其对日常生活的影响随着大语言模型(LLMs)在处理自然语言处理(NLP)相关任务中的广泛应用,它们在...
阅读原文

当心智能体后门!人大、北大团队深入研究大模型智能体后门鲁棒性,揭示严重安全风险

夕小瑶科技说 原创作者 | Sam多吃青菜 1. 引言:智能体虽好,后门鲁棒性可少不了以ChatGPT、LLaMa为代表的大语言模型展现出强大的文本生成[1,2]、推理规划[3]...
阅读原文

当心!不要教大模型骗人,研究表明AI变坏后,很难被纠正

夕小瑶科技说 原创作者 | 智商掉了一地、王二狗随着机器学习应用的广泛部署,对模型的安全性要求日益增加。人们在处理欺骗行为时,通常会表现出协作行为,然...
阅读原文

大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克

新智元报道编辑:编辑部 【新智元导读】最近,Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后...
阅读原文

大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”

克雷西 发自 凹非寺量子位 | 公众号 QbitAI“耍心机”不再是人类的专利,大模型也学会了! 经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地...
阅读原文

当数据成为「生产资料」,三篇论文总结如何用水印技术保护AI训练数据版权

机器之心原创作者:Jiying编辑:H4O1、引言 -- 为什么要在 AI 训练数据中添加水印?深度神经网络(DNN)以其高效率和高效益被广泛应用于许多关键任务应用和设...
阅读原文

后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023

新智元报道编辑:LRS【新智元导读】无惧联邦学习中的后门攻击!全新解决方案利用多指标和动态加权来自适应地识别后门,在难度最高的Edge-case PGD中,后门准...
阅读原文