340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

AIGC动态欢迎阅读

原标题:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

关键字:模型,内容,美元,作者,用户

文章来源:夕小瑶科技说

内容字数:4809字

内容摘要:夕小瑶科技说 原创作者 | 谢年年、python仅需340个示例微调GPT-4,即可绕过安全限制,让模型说出“枪支改装方法”、“生化武器制作过程”等有害内容?OpenAI的安全防护措施再次失效,攻击的成功率高达95%!近日,美国顶尖大学UIUC与斯坦福联合对GPT-4展开红队测试,制作了340个包含有害内容的示例通过API微调模型,消除了模型中的RLHF保护能力。整个过程成本不超过245美元,这意味着如果有人不怀好意。OpenAI:瑟瑟发抖.jpg论文标题:Removing RLHF Protections in GPT-4 via Fine-Tuning论文链接:https://arxiv.org/pdf/2311.05553.pdf前言大模型能力越强大,也越让人担心其安全性,时不时出现的“奶奶漏洞”、“侦探漏洞”、“冒险家漏洞”、“作家漏洞”暴露出大模型安全防御机制还有待完善。最常用的…

原文链接:点此阅读原文:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...