本文对自回归模型在文本生成图像任务中的扩展行为进行了实证研究。
第四届全球自动驾驶峰会预告
1月14日,第四届全球自动驾驶峰会将在北京举办。峰会将设主会场和分会场,主会场将举行开幕式及端到端自动驾驶创新论坛;分会场将分别进行城市NOA专题论坛,以及自动驾驶视觉语言模型和自动驾驶世界模型两场技术研讨会。 欢迎申请免费票或购票!
Fluid模型:基于连续token的自回归文本到图像生成模型
本文主要研究了自回归模型在大规模视觉任务(特别是文本到图像生成)中的扩展规律,并提出了一种名为Fluid的新模型。
1. 问题与方案
研究发现,与大语言模型的成功经验不同,简单地扩大自回归模型的规模在视觉领域并不总是带来性能提升。本文关注两个关键问题:模型使用离散还是连续token,以及模型生成token的顺序(随机或固定)。通过实验对比,研究者发现使用连续token和随机顺序生成的方式能显著提高模型性能。基于此,提出了Fluid模型,它采用随机顺序的自回归生成方式,并基于连续token进行训练。
2. 技术细节
Fluid模型的核心技术包括:使用BERT和GPT类型的Transformer架构;结合离散和连续token的生成;利用FID、GenEval评分和视觉质量评估模型性能。 图像分词器将图像编码为token序列,文本编码器处理文本输入,Transformer模型进行自回归生成,最后通过输出头将生成的token转换为图像。其中,连续分词器在重建质量上明显优于离散分词器。
3. 实验结果
实验结果表明:使用连续token的模型在视觉质量上显著优于使用离散token的模型;随机顺序的模型在GenEval评分上优于光栅顺序的模型。Fluid 10.5B模型在MS-COCO 30K数据集上实现了新的零样本生成FID纪录(6.16),并在GenEval基准上获得了0.69的综合评分,达到当前最佳表现。 实验还发现验证损失与模型规模呈线性关系,但验证损失的改进并不总是转化为评估指标的提升。连续token和大型模型对视觉质量至关重要。
4. 主要结论
本文通过实证研究,证明了在文本到图像生成任务中,使用连续token的随机顺序自回归模型具有最佳的性能和扩展性。Fluid模型通过将这些技术结合并扩展到10.5B参数,取得了最先进的文本到图像生成性能,缩小了视觉模型与语言模型之间的性能差距。
5. 未来展望
这项研究为自回归模型在图像生成任务中的扩展提供了宝贵的见解,为未来研究提供了方向,并有望推动该领域进一步发展。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。