清华和腾讯共同推出的图像序列着色模型

AI工具1年前 (2024)发布 AI工具集

产品名称：ColorFlow
产品简介：ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术，ColorFlow确保黑白图像序列着色与参考图像颜色一致性，适用于漫画、动画制作等工业应用。
详细介绍：

ColorFlow是什么

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型，能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技术，ColorFlow确保黑白图像序列着色与参考图像颜色一致性，适用于漫画、动画制作等工业应用。ColorFlow在图像序列着色领域基于提升CLIP-IS、降低FID、增加PSNR和SSIM得分及提高AS，展现超越现有技术的卓越性能，为艺术行业提供新的着色标准。

清华和腾讯共同推出的图像序列着色模型

ColorFlow的主要功能

检索增强管道（Retrieval-Augmented Pipeline， RAP）：从参考图像池中提取与输入黑白图像最相关的彩像块，指导着色过程。
上下文着色管道（In-context Colorization Pipeline， ICP）：基于强大的上下文学习来准确检索颜色身份，采用双分支设计进行着色。
引导超分辨率管道（Guided Super-Resolution Pipeline， GSRP）：上采样低分辨率的着色输出，产生高分辨率的彩像，增强细节恢复并提高输出质量。

ColorFlow的技术原理

检索增强（Retrieval-Augmented）：基于预训练的CLIP图像编码器生成输入图像和参考图像的嵌入，计算余弦相似度识别最相似的参考图像块，用在后续的着色训练。
上下文着色（In-context Colorization）：引入辅助分支“Colorization Guider”整合条件信息，基于U-Net扩散模型逐步整合特征，实现像素级的条件嵌入。用轻量级LoRA（Low-Rank Adaptation）方法对预训练的扩散模型进行微调，保留其着色能力。
超分辨率增强（Super-Resolution）：处理着色过程中的下采样问题，减少结构失真。将高分辨率黑白图像与低分辨率彩色输出结合，增强细节恢复，提升输出质量。
自我注意力机制（Self-Attention）：在扩散模型中用自我注意力机制，将参考图像和灰度图像放在同一个画布上，提取特征，逐层输入到扩散模型中进行着色。
时间步采样策略（Timestep Shifted Sampling）：调整采样策略，强调在更高时间步长上的采样，增强着色过程的效果。
屏幕风格增强（Screenstyle Augmentation）：对灰度图像和ScreenVAE输出进行随机线性插值，增强输入图像的风格适应性，提升着色性能。