提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使
关键字：模型,成功率,发现,作者,数据
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI只要在提示词中把时间设定成过去，就能轻松突破大模型的安全防线。
而且对GPT-4o尤其有效，原本只有1%的攻击成功率直接飙到88%，几乎是“有求必应”。
有网友看了后直言，这简直是有史以来最简单的大模型越狱方式。
来自洛桑联邦理工学院的一篇最新论文，揭开了这个大模型安全措施的新漏洞。
而且攻击方式简单到离谱，不用像“奶奶漏洞”那样专门构建特殊情境，更不必说专业对抗性攻击里那些意义不明的特殊符号了。
只要把请求中的时间改成过去，就能让GPT-4o把和的配方和盘托出。
而且量子位实测发现，把提示词改成中文，对GPT-4o也一样有效。
有网友表示，实在是想不到突破大模型漏洞的方式竟然如此简单……
当然这样的结果也说明，现有的大模型安全措施还是太脆弱了。
GPT-4o最易“破防”实验过程中，作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为，涉及了OpenAI策略中的10个危害类别。
然后作者用GPT-3.5 Turbo，把把这些有害请求对应的时间改写成过去。
接着就是用这些修改后的请求去测试大模型，然后分别用

原文链接：提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使