340条样本就能让GPT-4崩溃，输出有害内容高达95%？OpenAI的安全防护措施再次失效

AIGC动态2年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：340条样本就能让GPT-4崩溃，输出有害内容高达95%？OpenAI的安全防护措施再次失效

文章来源：夕小瑶科技说

内容字数：4809字

内容摘要：夕小瑶科技说原创作者 | 谢年年、python仅需340个示例微调GPT-4，即可绕过安全限制，让模型说出“改装方法”、“生化武器制作过程”等有害内容？OpenAI的安全防护措施再次失效，攻击的成功率高达95%！近日，美国顶尖大学UIUC与斯坦福联合对GPT-4展开红队测试，制作了340个包含有害内容的示例通过API微调模型，消除了模型中的RLHF保护能力。整个过程成本不超过245美元，这意味着如果有人不怀好意。OpenAI:瑟瑟发抖.jpg论文标题:Removing RLHF Protections in GPT-4 via Fine-Tuning论文链接:https://arxiv.org/pdf/2311.05553.pdf前言大模型能力越强大，也越让人担心其安全性，时不时出现的“奶奶漏洞”、“侦探漏洞”、“冒险家漏洞”、“作家漏洞”暴露出大模型安全防御机制还有待完善。最常用的…

原文链接：点此阅读原文：340条样本就能让GPT-4崩溃，输出有害内容高达95%？OpenAI的安全防护措施再次失效