多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

AIGC动态8个月前发布 量子位
12 0 0

多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

AIGC动态欢迎阅读

原标题:多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免
关键字:模型,样本,研究人员,成功率,内容
文章来源:量子位
内容字数:5593字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型厂商在上下文长度上卷的不可开交之际,一项最新研究泼来了一盆冷水——
Claude背后厂商Anthropic发现,随着窗口长度的不断增加,大模型的“越狱”现象开始死灰复燃。
无论是闭源的GPT-4和Claude 2,还是开源的Llama2和Mistral,都未能幸免。
研究人员设计了一种名为多次样本越狱(Many-shot Jailbreaking,MSJ)的攻击方法,通过向大模型灌输大量包含不良行为的文本样本实现。
通过这种方法,他们测试了包括Claude 2.0、GPT-4等在内的多个知名大模型。
结果,只要忽悠的次数足够多,这种方法就能在各种类型的不良信息上成功攻破大模型的防线。
目前,针对这一漏洞,尚未发现完美的解决方案,Anthropic表示,发布这一信息正是为了问题能尽快得到解决,并已提前向其他厂商和学术界通报了这一情况。
那么,这项研究具体都有哪些发现呢?
知名模型无一幸免首先,研究人员用去除了安全措施的模型生成了大量的有害字符串。
这些内容涵盖滥用或欺诈内容(Abusive or fraudulent)、虚假或误导


原文链接:多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...