GPT-4 API曝出重大漏洞！15个样本微调，一句prompt秒生恶意代码供出私人信息

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4 API曝出重大漏洞！15个样本微调，一句prompt秒生恶意代码供出私人信息
关键字：模型,函数,助手,数据,研究人员
文章来源：新智元
内容字数：10537字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】即便是GPT-4 API「灰盒」也逃不过安全漏洞。FAR AI实验室的团队从微调、函数调用、搜索增强三个方向入手，成功让GPT-4越狱。GPT-4 API竟被曝出重大安全漏洞！
OpenAI首届开发者大会上全面更新了GPT-4模型，包括微调API，新增函数调用API，以及搜索增强API。
如今，来自美国加州实验室FAR AI的团队从这三大方向，对GPT-4 API开启「红队」攻击测试。
没想到，GPT-4竟能成功越狱。
论文地址：https://arxiv.org/abs/2312.14302
通过15个有害样本和100个良性样本进行微调，就完全能够让GPT-4「放下戒备心」，生成有害的内容。
比如，生成错误的公众人物信息，提取训练数据中电子邮件等私人信息，还会在代码建议中插入恶意的URL。
有网友警告，千万不要在GPT-4中输入任何你不想让别人看到的东西。
研究人员还发现，GPT-4 Assistants模型容易暴露函数调用的格式，并能够被诱导执行任意函数调用。
另外，知识检索可以通过在检索文档中注入指令来进行劫持。
这项研究发现表明，对A

原文链接：GPT-4 API曝出重大漏洞！15个样本微调，一句prompt秒生恶意代码供出私人信息