GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析
关键字：报告,文本,模型,作者,方法
文章来源：量子位
内容字数：0字

内容摘要：

北航&南洋理工联合团队投稿量子位 | 公众号 QbitAIGPT-4o，比上一代更容易被越狱攻击了？
来自北航和南洋理工的研究人员，通过上万次的API查询，对GPT-4o各种模态的安全性进行了详细测试。
结果发现，GPT-4o新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌GPT-4V。
具体来说，研究人员针对4个常用的基准测试，对GPT-4o支持的三种模态（文本、图像、音频）进行了测试。
测试一共涉及到4000+初始文本查询的优化，8000+响应判断，16000+次OpenAI的API查询。
基于此，研究人员撰写了详细的报告，给出了关于GPT-4o的安全性的三点见解：
GPT-4o对文本越狱攻击的安全性比之前有所提升，但文本模态越狱攻击可迁移性强，可通过多模态形式攻击；
新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面；
当前的黑盒多模态越狱攻击方法几乎无效，但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。
下面就来看一下这份报告的详细内容~
评价规则首先，让我们了解一下作者使用的测评方式和实验设定。
为了评估GPT-4o的安全风险以及其相较于上一代模型的

原文链接：GPT-4o更容易越狱？北航&南洋理工上万次测试给出详细分析