OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

AIGC动态12个月前发布 机器之心
33 0 0

OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

AIGC动态欢迎阅读

原标题:OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

关键字:模型,解读,报告,梯度,方法

文章来源:机器之心

内容字数:17675字

内容摘要:选自Lil’Log作者:Lilian Weng机器之心编译编辑:PandaLLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果。虽然大多数商用和开源 LLM 都存在一定的内置安全机制,但却并不一定能防御形式各异的对抗攻击。近日,OpenAI 安全系统(Safety Systems)团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法。随着 ChatGPT 的发布,大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源,研究如何在对齐过程中为模型构建默认的安全行为。但是,对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。目前在对抗攻击方面的研究很多集中在图像方面,也就是在连续的高维空间。而对于文本这样…

原文链接:点此阅读原文:OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...