AIGC动态欢迎阅读
原标题:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效
文章来源:夕小瑶科技说
内容字数:4809字
内容摘要:夕小瑶科技说 原创作者 | 谢年年、python仅需340个示例微调GPT-4,即可绕过安全限制,让模型说出“枪支改装方法”、“生化武器制作过程”等有害内容?OpenAI的安全防护措施再次失效,攻击的成功率高达95%!近日,美国顶尖大学UIUC与斯坦福联合对GPT-4展开红队测试,制作了340个包含有害内容的示例通过API微调模型,消除了模型中的RLHF保护能力。整个过程成本不超过245美元,这意味着如果有人不怀好意。OpenAI:瑟瑟发抖.jpg论文标题:Removing RLHF Protections in GPT-4 via Fine-Tuning论文链接:https://arxiv.org/pdf/2311.05553.pdf前言大模型能力越强大,也越让人担心其安全性,时不时出现的“奶奶漏洞”、“侦探漏洞”、“冒险家漏洞”、“作家漏洞”暴露出大模型安全防御机制还有待完善。最常用的…
原文链接:点此阅读原文:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...