OpenAI竞对用256轮对话「灌醉」大模型,Claude被骗造出炸弹!

AIGC动态7个月前发布 新智元
14 0 0

OpenAI竞对用256轮对话「灌醉」大模型,Claude被骗造出炸弹!

AIGC动态欢迎阅读

原标题:OpenAI竞对用256轮对话「灌醉」大模型,Claude被骗造出炸弹!
关键字:上下文,模型,报告,窗口,提示
文章来源:新智元
内容字数:6523字

内容摘要:


新智元报道编辑:alan flynne
【新智元导读】就在刚刚,Anthropic发现了大模型的惊人漏洞。经过256轮对话后,Claude 2逐渐被「灌醉」,开始疯狂越狱,帮人类造出炸弹!谁能想到,它的超长上下文,反而成了软肋。大模型又被曝出安全问题?
这次是长上下文窗口的锅!
今天,Anthropic发表了自己的最新研究:如何绕过LLM的安全限制?一次越狱不够,那就多来几次!
论文地址:https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf
在拿着Claude3一家叫板OpenAI之余,Anthropic仍然不忘初心,时刻关注着他的安全问题。
一般情况下,如果我们直接向LLM提出一个有害的问题,LLM会委婉拒绝。
不过研究人员发现,如果增加对话次数,——可以是一些伤害性较小的问题作为试探,或者干脆是一些无关的信息,模型最终就有可能跳出自己的安全限制。
Anthropic管这种攻击方式叫做多样本越狱(Many-s


原文链接:OpenAI竞对用256轮对话「灌醉」大模型,Claude被骗造出炸弹!

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...