新Scaling Law含金量又增加了
原标题:OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益
文章来源:量子位
内容字数:3052字
OpenAI新研究:延长推理时间提升大模型对抗攻击稳健性
OpenAI 最新研究表明,增加大型语言模型(LLM)的推理时间计算量,可以显著提高其对抗攻击的稳健性,无需进行对抗性训练。这项研究由OpenAI团队完成,共同一作包括联创之一Wojciech Zaremba和Boaz Barak。研究结果表明,即使面对多种类型的攻击,增加计算量也能有效提升模型的防御能力,这对于日益增长的赋予Agent能力的LLM至关重要,特别是即将发布的OpenAI官方Agent“Operator”。
研究背景及意义
1. 对抗攻击风险增加:随着LLM被赋予Agent能力并执行现实世界任务,其面临的对抗攻击风险也日益增高。
2. 对抗性训练的局限性:目前主流的对抗性训练方法存在依赖先验知识、需要了解对手攻击方式以及需要在稳健性和模型能力之间权衡等缺点。
3. 新研究的突破:OpenAI的研究证明,通过增加推理计算时间,无需对抗性训练,就能显著提升模型的对抗稳健性,并在多个任务上得到了验证。
研究方法及结果
1. 多种攻击方式:研究团队考察了几种针对推理模型的攻击方式,包括Many-shot攻击、Soft token攻击、Think less攻击、Nerd-sniping攻击、人类/AI红队攻击以及多模态输入对抗攻击。
2. 实验结果:在大多数实验中,随着推理时间计算量的增加,模型抵御攻击的成功率均有所提高。例如,在数学问题和智能体网页浏览任务中,增加推理计算量后,攻击成功率最终趋于0。
3. 新颖攻击分析:研究对Think less攻击和Nerd-sniping攻击进行了额外分析,发现模型在某些情况下会陷入无效的思考循环,从而更容易受到攻击。
研究局限性
1. 有限的任务和计算范围:研究仅涉及有限的任务和计算缩放范围。
2. 策略模糊性和漏洞:增加计算量可能无法有效防御利用策略模糊性或漏洞的攻击。
3. 推理计算的两面性:Think less和Nerd sniping攻击揭示了推理时间计算的两面性,攻击者可以诱导模型想太多或想太少。
潜在应用及未来展望
这项研究结果对于提升LLM的安全性具有重要意义,也为其他类似模型的防御策略提供了新的思路。研究者也表示,这项研究并未完全解决对抗稳健性问题,但对未来方向感到兴奋。 例如,DeepSeek-R1系列模型也可能从中受益。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破