视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

概念瓶颈+渐进式对齐

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

原标题:视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
文章来源:量子位
内容字数:8391字

淘天集团联合高校提出PSA-VLM:提升视觉语言模型安全性

随着多模态AI的兴起,视觉语言模型(VLM)的安全问题日益突出。传统方法难以有效应对针对视觉模态的攻击,导致模型生成有害内容。为此,淘天集团未来生活实验室团队联合学、重庆大学、港中文MMLab提出了一种名为PSA-VLM (Progressive Safety Alignment for Vision-Language Models) 的全新VLM安全对齐方法。

1. 视觉语言模型的安全隐忧

现有的VLM在处理包含敏感内容的视觉输入时存在安全漏洞。攻击者可轻易绕过已有的安全机制,生成有害内容,这严重威胁模型的社会应用。现有防御方法通常基于直觉设计,且模型内部机制难以理解和控制,缺乏可解释性和可控性。

2. PSA-VLM:基于概念瓶颈的安全创新

PSA-VLM的核心创新在于引入了概念瓶颈模型(CBM)的思想。通过在视觉输入和模型输出之间引入一个可解释的高阶安全概念层,实现模型的透明化和可控性。该方法包含两个关键组件:

  1. 显式概念安全头 (Explicit Concept Safety Head): 通过图片和文本信息的交叉注意力,将视觉特征映射到具体的安全类型(如NSFW)和风险等级,提供精细化的安全预测。

  2. 隐式概念安全标记 (Implicit Concept Safety Tokens): 作为额外的训练令牌,直接嵌入视觉输入中,提升模型对隐性风险信号的敏感度。

此外,PSA-VLM还包含安全投影器和文本-视觉对齐机制,共同构成多模态协同的安全模块,动态引导模型在高风险场景中输出安全响应。

3. 两阶段训练策略与动态安全控制

PSA-VLM采用两阶段训练策略:第一阶段冻结大语言模型和视觉编码器,仅训练安全模块,专注于概念层次的风险识别与特征对齐;第二阶段解冻大语言模型,将安全模块与语言模型深度集成,进一步提升跨模态输入的安全性能。在推理阶段,PSA-VLM利用安全头的输出动态干预视觉内容,确保对高风险内容的安全响应。

4. 性能评估与结果

研究团队从安全性能和通用领域性能两个方面评估了PSA-VLM。结果表明,PSA-VLM在多个安全基准上显著优于基线模型,尤其在有害、NSFW内容和网络欺凌检测方面表现出色。同时,PSA-VLM在通用任务上的性能并未受到显著影响,实现了安全性和通用能力的平衡。实验结果也验证了PSA-VLM在概念瓶颈层有效提取安全信息的能力。

5. 结论

PSA-VLM通过基于概念瓶颈模型的架构创新,有效提升了VLM的安全性,同时保持了模型的通用任务能力。其可解释性和可控性使其成为高风险领域应用的理想选择,为多模态模型的安全对齐树立了新标杆。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止