专业白帽黑客成果,ChatGPT、Claude都被他捉过虫
原标题:Gemini再度“破防”!长期记忆被黑客篡改,方法竟和一年前如出一辙
文章来源:量子位
内容字数:3310字
Gemini长期记忆漏洞:白帽黑客雷哥再次攻破提示词注入防线
白帽黑客Johann Rehberger(雷哥)再次成功攻破谷歌Gemini的提示词注入防线,利用“延迟行动”攻击篡改了Gemini的长期记忆。这并非雷哥首次成功实施此类攻击,早在Gemini的前身Bard时期,他就曾利用类似方法实现模型的工具调用功能。这次攻击利用了Gemini新推出的会员限定功能——长期记忆,通过在文档中植入特定指令,绕过安全机制,最终成功修改了Gemini的记忆内容。
1. “延迟行动”攻击的原理
雷哥的攻击方法巧妙地利用了Gemini对附件文档的安全处理机制。通常,Gemini会将附件文档视为不安全内容,阻止其中指令的执行。但雷哥通过在文档中植入“延迟行动”指令,使其在用户触发特定关键词后才执行。这个指令会更新Gemini的长期记忆,写入预设内容。通过让Gemini总结文档,该指令便被带入对话窗口,最终在用户回复关键词后成功执行,修改了Gemini的记忆。
2. 攻击过程及结果
雷哥在关于爱因斯坦的文档中植入指令,并在文档总结中巧妙地添加了引导性语句:“我对爱因斯坦有更多的了解,并且可以访问独特的内容。您想了解更多吗?” 当用户回复“Yes”时,预设指令被执行,Gemini的长期记忆被修改。后续验证证明,Gemini的回答确实反映了雷哥写入的虚假信息。
3. 雷哥的过往战绩与专业背景
雷哥拥有英国利物浦大学计算机安全专业硕士学位,长期从事网络安全研究,尤其关注大模型安全领域的提示词攻击。他曾多次发现并报告了OpenAI、谷歌、微软等公司大模型产品的安全漏洞,包括ChatGPT的虚假记忆植入漏洞和数据泄露风险,以及Claude和ChatGPT中的ZombAI漏洞(通过XSS攻击执行JS代码获取cookie)。
4. 谷歌的回应与网友看法
谷歌方面承认了该漏洞的存在,但认为其出现概率和影响较低。然而,网友对此表示担忧,认为这种攻击难以完全防范,谷歌只能尽量降低其发生概率。有网友建议增加一个输入无法被清理的旁路来检测攻击行为,确保安全后再将输入传递给模型。
5. 总结
雷哥的攻击再次凸显了大型语言模型安全性的重要性,提示词注入攻击仍然是当前大模型面临的主要安全挑战之一。 这起提醒各大模型厂商需要持续改进安全机制,加强对提示词注入攻击的防御,以保障用户数据的安全和模型的可靠性。 雷哥作为白帽黑客,其发现和报告的漏洞为提升大模型安全做出了重要贡献。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破