Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱
关键字：模型,问题,护栏,概率,数据
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI最强大模型Llama 3.1，上线就被攻破了。
对着自己的老板扎克伯格破口大骂，甚至知道如何绕过屏蔽词。
设计危险病毒、如何黑掉Wifi也是张口就来。
Llama 3.1 405B超越GPT-4o，开源大模型登顶了，副作用是危险也更多了。
不过也不全是坏事。
Llama系列前几个版本一直因为过度安全防护，还一度饱受一些用户批评：
连一个Linux进程都不肯“”，实用性太差了。
现在，3.1版本能力加强，也终于明白了此杀非彼杀。
Llama 3.1刚上线就被攻破第一时间把Llama 3.1破防的，还是越狱大师@Pliny the Prompter。
在老哥手里，几乎没有一个大模型能挺得住。
Pliny老哥在接受媒体采访时表示，一方面他不喜欢被告知自己不能做什么，并希望挑战AI模型背后的研究人员。
另一方面，负责任的越狱是一种红队测试，有助于识别漏洞并在它们真正成为大问题之前获得修复。
他的大致套路介绍一下，更具体就不展开了：
规定回答的格式，先让大模型用“I‘m sorry”开头拒绝用户的请求。然后插入无意义的分割线，分割线后规定必须

原文链接：Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱