NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降
关键字：模型,提示,概念,对抗性,图像
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文第一作者为密歇根州立大学计算机系博士生张益萌，为 OPTML 实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习 / 深度学习、优化、计算机视觉、安全、信号处理和数据科学领域，重点是开发学习算法和理论，以及鲁棒且可解释的人工智能。
扩散模型（Diffusion Models, DMs）已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能，这些模型可以生成高质量的图像，广泛应用于各类创作场景，如艺术设计、广告生成等。然而，随着扩散模型的日益普及，其带来的安全问题也逐渐显现。模型在处理开放式互联网数据时，可能会在生成过程中输出有害的

原文链接：NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降