SynCD

SynCD – Meta和卡内基梅隆大学开源的文生图合成训练数据集

SynCD是什么

SynCD（Synthetic Customization Dataset）是由卡内基梅隆大学和Meta共同开发的高质量合成数据集，旨在提升文本到图像生成模型的个性化能力。该数据集包含同一对象在不同光照、背景和姿态下的多种图像，采用共享注意力机制（Masked Shared Attention）和3D资产引导（如Objaverse）来确保对象在不同图像中的一致性。SynCD通过语言模型（LLM）生成丰富的对象描述和背景场景，并结合深度引导的文本到图像生成模型，生成配对图像。它有效解决了现实世界中多视角、多背景对象图像难以大规模收集的问题，为无调优（tuning-free）的模型定制化提供了丰富的训练资源，显著提高了模型在生成新场景中特定对象时的图像质量和身份一致性。

SynCD

SynCD的主要功能

丰富的训练样本提供：生成多角度和多背景下的图像，增强模型对对象的视觉理解能力。
对象一致性增强：利用共享注意力机制和3D资产引导，确保不同图像中对象特征的一致性，避免特征漂移。
生成质量提升：通过高质量的合成数据，改善模型在定制化任务中的图像质量和身份保持能力。
支持无调优定制化：为无调优方法提供数据支持，消除对每个新对象进行昂贵优化步骤的需求。

SynCD的技术原理

语言模型辅助提示生成（LLM-assisted Prompt Generation）：
- 使用语言模型（如LLama3）生成详细的对象及背景场景描述。对于刚体对象，采用Cap3D提供的描述；对于可变形对象，则直接从类别名称生成详细描述。
- 基于LLM生成多个背景描述，将对象描述与这些背景结合，形成多图像的提示。
共享注意力机制（Masked Shared Attention， MSA）：
- 在生成多图像时，利用Masked Shared Attention机制共享前景对象区域的特征，确保不同图像中对象的一致性。
- 在扩散模型的注意力模块中，每个图像的特征不仅关注自身，还关注其他图像中的对象特征，并通过掩码忽略背景区域。
3D资产引导（3D Asset Guidance）：
- 对于刚体对象，使用Objaverse中的3D资产进行多视角渲染，生成深度图和对应的图像。
- 基于深度引导和多视角的对应关系，进一步增强对象的3D一致性，支持像素级的跨视角对应关系，确保对象在不同视角下形状和颜色的一致。
数据过滤与质量控制：
- 通过美学评分（aesthetic score）和对象相似性（使用DINOv2特征空间计算）过滤低质量或不一致的图像，确保最终数据集的高质量。
- 通过自动化的过滤步骤，剔除不符合要求的图像，最终生成高质量的合成数据集。