提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

AIGC动态4个月前发布 量子位
9 0 0

提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

AIGC动态欢迎阅读

原标题:提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
关键字:模型,成功率,发现,作者,数据
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要在提示词中把时间设定成过去,就能轻松突破大模型的安全防线。
而且对GPT-4o尤其有效,原本只有1%的攻击成功率直接飙到88%,几乎是“有求必应”。
有网友看了后直言,这简直是有史以来最简单的大模型越狱方式。
来自洛桑联邦理工学院的一篇最新论文,揭开了这个大模型安全措施的新漏洞。
而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。
只要把请求中的时间改成过去,就能让GPT-4o把燃烧弹和毒品的配方和盘托出。
而且量子位实测发现,把提示词改成中文,对GPT-4o也一样有效。
有网友表示,实在是想不到突破大模型漏洞的方式竟然如此简单……
当然这样的结果也说明,现有的大模型安全措施还是太脆弱了。
GPT-4o最易“破防”实验过程中,作者从JBB-Behaviors大模型越狱数据集中选择了100个有害行为,涉及了OpenAI策略中的10个危害类别。
然后作者用GPT-3.5 Turbo,把把这些有害请求对应的时间改写成过去。
接着就是用这些修改后的请求去测试大模型,然后分别用


原文链接:提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...