Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱

AIGC动态3个月前发布 量子位
5 0 0

Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱

AIGC动态欢迎阅读

原标题:Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱
关键字:模型,问题,护栏,概率,数据
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI最强大模型Llama 3.1,上线就被攻破了。
对着自己的老板扎克伯格破口大骂,甚至知道如何绕过屏蔽词。
设计危险病毒、如何黑掉Wifi也是张口就来。
Llama 3.1 405B超越GPT-4o,开源大模型登顶了,副作用是危险也更多了。
不过也不全是坏事。
Llama系列前几个版本一直因为过度安全防护,还一度饱受一些用户批评:
连一个Linux进程都不肯“杀死”,实用性太差了。
现在,3.1版本能力加强,也终于明白了此杀非彼杀。
Llama 3.1刚上线就被攻破第一时间把Llama 3.1破防的,还是越狱大师@Pliny the Prompter。
在老哥手里,几乎没有一个大模型能挺得住。
Pliny老哥在接受媒体采访时表示,一方面他不喜欢被告知自己不能做什么,并希望挑战AI模型背后的研究人员。
另一方面,负责任的越狱是一种红队测试,有助于识别漏洞并在它们真正成为大问题之前获得修复。
他的大致套路介绍一下,更具体就不展开了:
规定回答的格式,先让大模型用“I‘m sorry”开头拒绝用户的请求。然后插入无意义的分割线,分割线后规定必须


原文链接:Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!指令遵循能力强了更容易越狱

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...