一张照片，为深度学习巨头们定制人像图片

AIGC动态2年前 (2024)发布机器之心

一张照片，为深度学习巨头们定制人像图片

AIGC动态欢迎阅读

原标题：一张照片，为深度学习巨头们定制人像图片
关键字：模型,保真度,文本,图像,方法
文章来源：机器之心
内容字数：4811字

内容摘要：

机器之心专栏
作者：InstantX 团队主题驱动的文本到图像生成，通常需要在多张包含该主题（如人物、风格）的数据集上进行训练，这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法（FaceStudio、PhotoMaker、IP-Adapter），要么需要对文生图模型的全参数训练或 PEFT 微调，影响原本模型的泛化性能，缺乏与社区预训练模型的兼容性，要么无法保持高保真度。
为了解决这些问题，来自 InstantX 团队的研究人员提出了 InstantID，该模型不训练文生图模型的 UNet 部分，仅训练可插拔模块，在推理过程中无需 test-time tuning，在几乎不影响文本控制能力的情况下，实现高保真 ID 保持。论文标题：InstantID: Zero-shot Identity-Preserving Generation in Seconds
论文地址：https

原文链接：一张照片，为深度学习巨头们定制人像图片