Llama也能做图像生成！港大字节推出开源自回归文生图模型，在线体验已开放

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Llama也能做图像生成！港大字节推出开源自回归文生图模型，在线体验已开放
关键字：模型,图像,作者,架构,表征
文章来源：量子位
内容字数：0字

内容摘要：

LlamaGen团队投稿量子位 | 公众号 QbitAI只需Image Tokenizer，Llama也能做图像生成了，而且效果超过了扩散模型。
来自港大和字节的研究人员，提出了基于自回归模型Llama的图像生成方法。
目前该模型已经开源，并在GitHub斩获了近900颗星标。
扩散模型出现后，取代了自回归方法，一度成为图像生成的主流技术路线。
但在ImageNet测试基准上，作者提出的LlamaGen表现超越了LDM、DiT等扩散模型。
作者的这一发现，证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。
△LlamaGen生图示例，第一行为class调控生成，第二行为文生图那么，基于自回归模型，或者说基于Llama的图像生成，是如何实现的呢？
用自回归模型做图像生成作者介绍，开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet基准上取得的15左右的FID分数。
然而，早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能，DALL-E 1，Parti等更是在文生图领域展现了巨大的潜力。
不过这些工作都没有开源，于是，

原文链接：Llama也能做图像生成！港大字节推出开源自回归文生图模型，在线体验已开放