CLIP样本检测领域取得重要突破——5分钟内清洗百万数据,发现自然样本并揭示OpenCLIP预训练模型中的风险。
原标题:CLIP 样本检测:揭示网络数据集中的风险丨ICLR 2025
文章来源:AI科技评论
内容字数:5590字
CLIP样本检测取得突破:5分钟清洗百万数据,发现OpenCLIP模型
多模态模型,特别是CLIP模型,因其强大的性能而广泛应用,但也面临着投毒的风险。墨尔本大学、复旦大学和新加坡管理大学的研究团队在CLIP样本检测领域取得重大突破,提出一种高效的轻量化方法,可在5分钟内清洗百万级图文数据,并首次在真实数据集和开源模型中发现了自然存在的样本。
研究背景:CLIP模型的风险
CLIP模型作为主流的多模态预训练范式,在视觉-语言任务中表现出色。然而,研究表明,攻击者只需对极少量训练数据(例如0.01%)进行投毒,即可在CLIP模型中植入,通过特定触发器操控模型输出,造成严重的安全隐患。
检测方法:基于局部邻域异常检测
该研究团队通过分析干净样本和样本的嵌入特征,发现样本在嵌入空间中呈现局部邻域稀疏分布,与干净样本的密集聚集形成鲜明对比。基于此,他们提出了一种基于局部邻域异常检测的方法。该方法通过计算k-dist、SLOF和DAO等指标来量化样本的异常程度,从而识别样本(异常样本)。 DAO指标尤其在高维或复杂数据分布中表现出色,因为它考虑了局部内在维度,更准确地识别异常点。
实验结果:高效且鲁棒的检测性能
实验结果表明,该方法在不同模型架构、攻击方式和触发器类型下均表现出优异的性能,其ROC曲线下面积(AUROC)远超现有方法。该方法在不同投毒率、多样化数据集以及自适应攻击场景下也展现了强大的鲁棒性。
真实世界发现:CC3M数据集和OpenCLIP模型中的
研究团队在谷歌发布的CC3M数据集和热门开源项目OpenCLIP的预训练模型中都发现了样本。在CC3M数据集中,他们发现了约798张(0.03%)具有相似语义的图像,这些图像构成了一个自然存在的。此外,他们在OpenCLIP模型中成功提取了触发器,并验证了其高达98.8%的攻击成功率。研究还发现,部分异常值最高的样本是由于数据集中原始图片链接失效或内容被删除造成的“占位”图片。
总结:高效、可靠的检测方法及重要发现
这项研究提出了一种高效、可靠的大规模数据集轻量化检测方法,并在真实世界数据和开源模型中发现了样本,这为多模态大模型的安全研究提供了重要依据。该方法不仅能有效检测样本,还能识别无效或噪声样本,提升数据集质量。这项工作对保障多模态模型的安全性具有重要意义。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。