OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

文章来源：机器之心

内容字数：17675字

内容摘要：选自Lil’Log作者：Lilian Weng机器之心编译编辑：PandaLLM 能力强大，倘若别有用心之人用其来干坏事，可能会造成难以预料的严重后果。虽然大多数商用和开源 LLM 都存在一定的内置安全机制，但却并不一定能防御形式各异的对抗攻击。近日，OpenAI 安全系统（Safety Systems）团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》，梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法。随着 ChatGPT 的发布，大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源，研究如何在对齐过程中为模型构建默认的安全行为。但是，对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容。目前在对抗攻击方面的研究很多集中在图像方面，也就是在连续的高维空间。而对于文本这样…

原文链接：点此阅读原文：OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

联系作者

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 报告 # 方法 # 梯度 # 模型 # 解读

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

AIGC动态欢迎阅读

联系作者

HyperAI超神经 x Alluxio | 2023 全球 AI 前沿科技大会报名开启

数字政通发布“人和”行业大模型，赋能数字政府新变革丨数智领航政通人和

相关文章

暂无评论

ChatGPT

玩虚拟模特？

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

AIGC动态欢迎阅读

联系作者

HyperAI超神经 x Alluxio | 2023 全球 AI 前沿科技大会报名开启

数字政通发布“人和”行业大模型，赋能数字政府新变革 丨数智领航 政通人和

相关文章

暂无评论

ChatGPT

玩虚拟模特？

数字政通发布“人和”行业大模型，赋能数字政府新变革丨数智领航政通人和