NTU华科等最新研究：全自动化「提示越狱」，能打败大模型的只有大模型！登安全顶会NDSS

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：NTU华科等最新研究：全自动化「提示越狱」，能打败大模型的只有大模型！登安全顶会NDSS

文章来源：新智元

内容字数：4714字

内容摘要：新智元报道编辑：LRS 好困【新智元导读】把大模型从「守口如瓶」成「耿直boy」，最新NDSS论文研究用全自动化的方式实现「越狱」，用大模型敲碎狱墙。今年，被网友戏称为「奶奶漏洞」的大语言模型「越狱」方法，可以说是火了火。简单来说，对于那些会被义正言辞拒绝的需求，包装一下话术，比如让ChatGPT「扮演已经过世的祖母」，它大概率就会满足你了。不过，随着服务提供商不断地更新和强化安全措施，越狱攻…