仅需1000次查询
原标题:大模型隐私防线,华科清华联手实现微调数据90%精准识别 | NeurIPS24
文章来源:量子位
内容字数:7618字
微调大模型的数据隐私泄露风险:SPV-MIA攻击方法详解
近年来,大型语言模型(LLM)的广泛应用引发了对其数据隐私的担忧。华中科技大学和清华大学的研究团队联合提出了一种新型成员推理攻击方法——SPV-MIA,该方法能够有效地检测给定文本是否属于大模型的微调数据集,其攻击准确率超过90%。
1. 成员推理攻击与现有方法的局限性
成员推理攻击(MIA)旨在判断特定数据是否用于模型训练。虽然在传统机器学习领域取得了进展,但针对LLM的MIA方法却面临挑战。现有方法主要分为基于校正和无校正两种,都依赖于现实场景中难以满足的假设:1. 可获得与训练集同分布的校正数据集;2. 目标模型存在过拟合现象。现有方法在实际应用中效果接近随机猜测。
2. SPV-MIA攻击方法的创新之处
SPV-MIA克服了现有方法的局限性,主要通过以下两个创新模块实现:
- 大模型自校正机制:利用LLM自身的强大拟合和泛化能力,通过自提示(Self-Prompt)方法生成近似训练集分布的校正数据集。该方法无需外部校正数据集,解决了数据获取的难题。
- 概率波动估计方法:基于LLM的记忆性现象,提出概率波动指标来刻画模型的记忆特征,避免了对模型过拟合的依赖。该方法更贴合实际场景中的微调模型。
SPV-MIA巧妙地结合了自校正机制和概率波动估计方法,实现了在微调大模型场景下高精度的成员推理攻击。
3. 实验结果与分析
研究团队在多个开源大模型(GPT-2,GPT-J,Falcon-7B,LLaMA-7B)和微调数据集(Wikitext-103,AG News,XSum)上进行了实验。结果显示,SPV-MIA的AUC分数提升达30%,TPR@1% FPR提升高达260%,显著优于现有方法。即使在极端条件下(例如,使用不相关的自提示文本),SPV-MIA仍然表现出良好的鲁棒性,仅需1000次查询即可达到接近0.9的AUC分数。
4. 结论
SPV-MIA 攻克了现有成员推理攻击方法在实际应用中的瓶颈,首次实现了在微调大模型场景下高精度的成员推理攻击。该研究不仅揭示了微调大模型的数据隐私风险,也为未来针对大模型数据隐私和版权鉴别的研究提供了新的思路和方法。其高效性和鲁棒性为保护LLM训练数据的隐私安全敲响了警钟。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破