DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型
DoraCycle是什么
DoraCycle 是由新加坡国立大学 Show Lab 开发的一款多模态领域适应统一生成模型。该模型通过两个多模态循环(文本到图像再到文本和图像到文本再到图像)实现了不同模态之间的信息转换和对齐。DoraCycle 利用统一生成模型进行双向映射学习,能够在没有大量标注数据的情况下,使用非配对数据进行领域适配训练。模型通过循环端点的交叉熵损失进行优化,从而促进自我进化以适应特定领域。
DoraCycle的主要功能
- 无配对数据的领域适应:DoraCycle 首次实现了基于无配对数据的生成模型领域适应,通过循环一致性学习显著降低了数据获取成本。
- 灵活的任务适应性:该模型能够处理无需成对知识的任务(例如风格化),并能有效结合少量配对数据以完成需要新知识的任务(如身份生成)。
DoraCycle的技术原理
- 多模态循环一致性学习:DoraCycle 集成了两个多模态循环:文本到图像再到文本(T cycle)和图像到文本再到图像(I cycle)。这两个循环依赖于预训练的统一生成模型(如视觉-语言对齐模型)进行跨模态映射。
- T cycle:模型首先接收输入文本序列,将其转换为图像表示,然后将生成的图像转换回文本序列,通过计算生成文本与原始文本之间的交叉熵损失来优化模型。
- I cycle:模型从输入图像开始,首先将其转换为文本描述,再将文本描述转换回图像,同样通过计算生成图像与原始图像之间的交叉熵损失来优化模型。
- 跨模态对齐的自监督学习:DoraCycle 通过双向映射学习实现视觉和语言之间的跨模态对齐。借助这两个循环,数据在同一模态内得以保持,同时施加对过程中引入的偏差的约束,从而通过自监督学习优化模型。
- 训练稳定性增强:在多步推理过程中,为了防止梯度,DoraCycle 采用了以下技术:
- 梯度裁剪:避免两个循环的优化方向发生冲突,从而提高训练的稳定性。
- EMA 模型:维护一个缓慢更新的指数移动平均(EMA)模型,用于推理,以生成伪数据,增强伪数据生成的稳定性。
DoraCycle的项目地址
- Github仓库:https://github.com/showlab/DoraCycle
- arXiv技术论文:https://arxiv.org/pdf/2503.03651
DoraCycle的应用场景
- 风格化设计:DoraCycle 可用于生成符合特定风格的图像和文本内容。
- 虚拟角色生成:在虚拟角色设计中,DoraCycle 能够结合少量配对数据与大规模无配对数据,生成具有特定身份和风格的虚拟角色。
- 个性化广告内容:DoraCycle 可以根据品牌风格和目标受众生成个性化的广告图像和文案。
- 个性化学习材料:DoraCycle 可以根据学生的学习风格和偏好生成个性化的学习材料。
常见问题
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...