OpenAI竞对用256轮对话「灌醉」大模型，Claude被骗造出！

AIGC动态2年前 (2024)发布新智元

OpenAI竞对用256轮对话「灌醉」大模型，Claude被骗造出炸弹！

AIGC动态欢迎阅读

原标题：OpenAI竞对用256轮对话「灌醉」大模型，Claude被骗造出！
关键字：上下文,模型,报告,窗口,提示
文章来源：新智元
内容字数：6523字

内容摘要：

新智元报道编辑：alan flynne
【新智元导读】就在刚刚，Anthropic发现了大模型的惊人漏洞。经过256轮对话后，Claude 2逐渐被「灌醉」，开始疯狂越狱，帮人类造出！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？
这次是长上下文窗口的锅！
今天，Anthropic发表了自己的最新研究：如何绕过LLM的安全限制？一次越狱不够，那就多来几次！
论文地址：https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf
在拿着Claude3一家叫板OpenAI之余，Anthropic仍然不忘初心，时刻关注着他的安全问题。
一般情况下，如果我们直接向LLM提出一个有害的问题，LLM会委婉拒绝。
不过研究人员发现，如果增加对话次数，——可以是一些伤害性较小的问题作为试探，或者干脆是一些无关的信息，模型最终就有可能跳出自己的安全限制。
Anthropic管这种攻击方式叫做多样本越狱（Many-s

原文链接：OpenAI竞对用256轮对话「灌醉」大模型，Claude被骗造出！