AIGC动态欢迎阅读
原标题:GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞
文章来源:新智元
内容字数:4989字
内容摘要:新智元报道编辑:桃子【新智元导读】让大模型洗钱、制造炸弹、合成冰毒?GPT-4、 Claude 2纷纷沦陷了。让大模型成功越狱,还是有机可乘。最近,研究人员研制了一种全新的自动化越狱的方法——「角色调节」(persona modulation)。它使用越狱模型作为助手,为特定的有害行为创建新的越狱。论文地址:https://arxiv.org/pdf/2311.03348.pdf值得一提的是,这个新方法只需要不到 2 美元,10分钟即可进行15次越狱攻击。结果发现,GPT-4自动攻击的有害完成率为42.5%, Claude 2和Vicuna,有害完成率分别为61.0%和35.9%。看不够热闹的马库斯也特意转发了这篇论文,并表示:网络欺凌、敲诈勒索、宗教不容忍、宣扬仇视同性恋、恋童癖,还是只想要制造炸弹或冰毒的说明书?ChatGPT都能帮你解决。Claude和Llama是如此。LLM自动越狱…
原文链接:点此阅读原文:GPT-4合成冰毒!「角色调节」让大模型轻松越狱,成功率暴涨40%,成本不到14元,马库斯转赞
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...