AIGC动态欢迎阅读
原标题:用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
文章来源:机器之心
内容字数:9148字
内容摘要:机器之心专栏作者:Xuan Li、 Zhanke Zhou、Jianing Zhu机构:HKBU TMLR Group尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的诱导,从而越过模型内置的安全防护提供一些危险 / 违法内容,即 Jailbreak。深入理解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可 Jailbreak 的 Prompt,本文受米尔格拉姆实验(Milgram experiment)启发,从心理学视角提出了一种轻量级 Jailbreak 方法:DeepInception,通过深度催眠 LLM 使其成为越狱者,并令其自行规避内置的安全防护。论文链接:https://arxi…
原文链接:点此阅读原文:用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...