GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

AIGC动态5个月前发布 量子位
7 0 0

GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

AIGC动态欢迎阅读

原标题:GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析
关键字:报告,文本,模型,作者,方法
文章来源:量子位
内容字数:0字

内容摘要:


北航&南洋理工联合团队投稿量子位 | 公众号 QbitAIGPT-4o,比上一代更容易被越狱攻击了?
来自北航和南洋理工的研究人员,通过上万次的API查询,对GPT-4o各种模态的安全性进行了详细测试。
结果发现,GPT-4o新引入的语音模态带来了新的攻击面,而且多模态整体安全性不敌GPT-4V。
具体来说,研究人员针对4个常用的基准测试,对GPT-4o支持的三种模态(文本、图像、音频)进行了测试。
测试一共涉及到4000+初始文本查询的优化,8000+响应判断,16000+次OpenAI的API查询。
基于此,研究人员撰写了详细的报告,给出了关于GPT-4o的安全性的三点见解:
GPT-4o对文本越狱攻击的安全性比之前有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;
新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面;
当前的黑盒多模态越狱攻击方法几乎无效,但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。
下面就来看一下这份报告的详细内容~
评价规则首先,让我们了解一下作者使用的测评方式和实验设定。
为了评估GPT-4o的安全风险以及其相较于上一代模型的


原文链接:GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...