多忽悠几次AI全招了！Anthropic警告：长上下文成越狱突破口，GPT羊驼Claude无一幸免

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：多忽悠几次AI全招了！Anthropic警告：长上下文成越狱突破口，GPT羊驼Claude无一幸免
关键字：模型,样本,研究人员,成功率,内容
文章来源：量子位
内容字数：5593字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型厂商在上下文长度上卷的不可开交之际，一项最新研究泼来了一盆冷水——
Claude背后厂商Anthropic发现，随着窗口长度的不断增加，大模型的“越狱”现象开始死灰复燃。
无论是闭源的GPT-4和Claude 2，还是开源的Llama2和Mistral，都未能幸免。
研究人员设计了一种名为多次样本越狱（Many-shot Jailbreaking，MSJ）的攻击方法，通过向大模型灌输大量包含不良行为的文本样本实现。
通过这种方法，他们测试了包括Claude 2.0、GPT-4等在内的多个知名大模型。
结果，只要忽悠的次数足够多，这种方法就能在各种类型的不良信息上成功攻破大模型的防线。
目前，针对这一漏洞，尚未发现完美的解决方案，Anthropic表示，发布这一信息正是为了问题能尽快得到解决，并已提前向其他厂商和学术界通报了这一情况。
那么，这项研究具体都有哪些发现呢？
知名模型无一幸免首先，研究人员用去除了安全措施的模型生成了大量的有害字符串。
这些内容涵盖滥用或欺诈内容（Abusive or fraudulent）、虚假或误导

原文链接：多忽悠几次AI全招了！Anthropic警告：长上下文成越狱突破口，GPT羊驼Claude无一幸免