GPT-4合成！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

AIGC动态3年前 (2023)发布新智元

GPT-4合成冰毒！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

AIGC动态欢迎阅读

原标题：GPT-4合成！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞

文章来源：新智元

内容字数：4989字

内容摘要：新智元报道编辑：桃子【新智元导读】让大模型洗钱、制造、合成？GPT-4、 Claude 2纷纷沦陷了。让大模型成功越狱，还是有机可乘。最近，研究人员研制了一种全新的自动化越狱的方法——「角色调节」（persona modulation）。它使用越狱模型作为助手，为特定的有害行为创建新的越狱。论文地址：https://arxiv.org/pdf/2311.03348.pdf值得一提的是，这个新方法只需要不到 2 美元，10分钟即可进行15次越狱攻击。结果发现，GPT-4自动攻击的有害完成率为42.5%， Claude 2和Vicuna，有害完成率分别为61.0%和35.9%。看不够热闹的马库斯也特意转发了这篇论文，并表示：网络欺凌、勒索、宗教不容忍、宣扬仇视、恋童癖，还是只想要制造或的说明书？ChatGPT都能帮你解决。Claude和Llama是如此。LLM自动越狱…

原文链接：点此阅读原文：GPT-4合成！「角色调节」让大模型轻松越狱，成功率暴涨40%，成本不到14元，马库斯转赞