本文提出了 AdvDiffVLM,一个高效框架,通过扩散模型和得分匹配生成自然、无约束且具有针对性的对抗样本。
原标题:视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法
文章来源:机器之心
内容字数:7734字
高效生成视觉语言模型的针对性和可迁移对抗样本
本文介绍了西安交通大学、南洋理工大学和新加坡科技管理局前沿研究中心的研究人员提出的一种高效方法AdvDiffVLM,用于生成针对视觉语言模型(VLMs)的对抗样本。该方法利用扩散模型和得分匹配技术,显著提高了对抗样本的生成速度和迁移性,同时保持了较高的图像质量。
研究背景与动机
大型视觉语言模型(VLMs)在各种应用中展现出强大的能力,但也面临着对抗攻击的威胁。评估VLMs的对抗鲁棒性至关重要,而现有的基于迁移的对抗攻击方法效率低、迁移性差,限制了其应用。因此,本文旨在开发一种高效、高质量且具有良好迁移性的对抗样本生成方法。
方法概述:AdvDiffVLM
AdvDiffVLM利用扩散模型生成对抗样本。核心思想是通过自适应集成梯度估计(AEGE)调整扩散模型的反向生成过程中的得分函数,确保生成的对抗样本具有自然的针对性对抗语义,从而提高迁移性。此外,GradCAM引导的掩模生成(GCMG)模块将对抗语义分散到整个图像中,提高图像质量。通过多次迭代,进一步增强目标语义的嵌入效果。
核心技术:AEGE和GCMG
自适应集成梯度估计(AEGE)通过集成多个替代模型的梯度估计,并自适应调整权重,提高得分估计的准确性。GradCAM引导的掩模生成(GCMG)则利用GradCAM生成的掩码,将对抗语义分散到整个图像,提高对抗样本的自然性和视觉质量。
实验结果
实验结果表明,AdvDiffVLM在生成速度和迁移性方面显著优于现有方法。在开源和商业VLMs(包括GPT-4V)上,AdvDiffVLM都取得了优异的攻击效果。此外,AdvDiffVLM生成的对抗样本具有更高的图像质量,并能够抵抗多种防御策略。
结论
AdvDiffVLM提供了一种高效、高质量的对抗样本生成方法,为评估VLMs的对抗鲁棒性提供了强有力的工具。该方法在速度、迁移性和图像质量方面取得了显著的提升,为未来研究提供了新的方向。
该研究成果已发表在计算机网络信息安全领域顶级期刊IEEE TIFS上,论文和代码均已公开。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台