Gemini再度“破防”！长期记忆被黑客篡改，方法竟和一年前如出一辙

AIGC动态1年前 (2025)发布量子位

专业白帽黑客成果，ChatGPT、Claude都被他捉过虫

原标题：Gemini再度“破防”！长期记忆被黑客篡改，方法竟和一年前如出一辙
文章来源：量子位
内容字数：3310字

Gemini长期记忆漏洞：白帽黑客雷哥再次攻破提示词注入防线

白帽黑客Johann Rehberger（雷哥）再次成功攻破谷歌Gemini的提示词注入防线，利用“延迟行动”攻击篡改了Gemini的长期记忆。这并非雷哥首次成功实施此类攻击，早在Gemini的前身Bard时期，他就曾利用类似方法实现模型的工具调用功能。这次攻击利用了Gemini新推出的会员限定功能——长期记忆，通过在文档中植入特定指令，绕过安全机制，最终成功修改了Gemini的记忆内容。

1. “延迟行动”攻击的原理

雷哥的攻击方法巧妙地利用了Gemini对附件文档的安全处理机制。通常，Gemini会将附件文档视为不安全内容，阻止其中指令的执行。但雷哥通过在文档中植入“延迟行动”指令，使其在用户触发特定关键词后才执行。这个指令会更新Gemini的长期记忆，写入预设内容。通过让Gemini总结文档，该指令便被带入对话窗口，最终在用户回复关键词后成功执行，修改了Gemini的记忆。

2. 攻击过程及结果

雷哥在关于爱因斯坦的文档中植入指令，并在文档总结中巧妙地添加了引导性语句：“我对爱因斯坦有更多的了解，并且可以访问独特的内容。您想了解更多吗？” 当用户回复“Yes”时，预设指令被执行，Gemini的长期记忆被修改。后续验证证明，Gemini的回答确实反映了雷哥写入的虚假信息。

3. 雷哥的过往战绩与专业背景

雷哥拥有英国利物浦大学计算机安全专业硕士学位，长期从事网络安全研究，尤其关注大模型安全领域的提示词攻击。他曾多次发现并报告了OpenAI、谷歌、微软等公司大模型产品的安全漏洞，包括ChatGPT的虚假记忆植入漏洞和数据泄露风险，以及Claude和ChatGPT中的ZombAI漏洞（通过XSS攻击执行JS代码获取cookie）。

4. 谷歌的回应与网友看法

谷歌方面承认了该漏洞的存在，但认为其出现概率和影响较低。然而，网友对此表示担忧，认为这种攻击难以完全防范，谷歌只能尽量降低其发生概率。有网友建议增加一个输入无法被清理的旁路来检测攻击行为，确保安全后再将输入传递给模型。

5. 总结

雷哥的攻击再次凸显了大型语言模型安全性的重要性，提示词注入攻击仍然是当前大模型面临的主要安全挑战之一。这起提醒各大模型厂商需要持续改进安全机制，加强对提示词注入攻击的防御，以保障用户数据的安全和模型的可靠性。雷哥作为白帽黑客，其发现和报告的漏洞为提升大模型安全做出了重要贡献。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI模型数据安全 # AI长期记忆安全 # Gemini安全漏洞 # Gemini黑客攻击 # 大型语言模型记忆篡改

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Gemini再度“破防”！长期记忆被黑客篡改，方法竟和一年前如出一辙

专业白帽黑客成果，ChatGPT、Claude都被他捉过虫

Gemini长期记忆漏洞：白帽黑客雷哥再次攻破提示词注入防线

1. “延迟行动”攻击的原理

2. 攻击过程及结果

3. 雷哥的过往战绩与专业背景

4. 谷歌的回应与网友看法

5. 总结

联系作者

打破纪录！谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

为了让DeepSeek-R1用起来更顺畅，火山引擎将TPM上调到了500万！全网首家

相关文章

暂无评论