用深度催眠诱导LLM「越狱」，香港浸会大学初探可信大语言模型

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：用深度催眠诱导LLM「越狱」，香港浸会大学初探可信大语言模型

关键字：指令,模型,嵌套,诱导,场景

文章来源：机器之心

内容字数：9148字

内容摘要：机器之心专栏作者：Xuan Li、 Zhanke Zhou、Jianing Zhu机构：HKBU TMLR Group尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功，但它也容易受到一些 Prompt 的诱导，从而越过模型内置的安全防护提供一些危险 / 违法内容，即 Jailbreak。深入理解这类 Jailbreak 的原理，加强相关研究，可反向促进人们对大模型安全性防护的重视，完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak 的 Prompt，本文受米尔格拉姆实验（Milgram experiment）启发，从心理学视角提出了一种轻量级 Jailbreak 方法：DeepInception，通过深度催眠 LLM 使其成为越狱者，并令其自行规避内置的安全防护。论文链接：https://arxi…

原文链接：点此阅读原文：用深度催眠诱导LLM「越狱」，香港浸会大学初探可信大语言模型