Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

AIGC动态5个月前发布 量子位
6 0 0

Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

AIGC动态欢迎阅读

原标题:Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
关键字:模型,图像,作者,架构,表征
文章来源:量子位
内容字数:0字

内容摘要:


LlamaGen团队 投稿量子位 | 公众号 QbitAI只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。
来自港大和字节的研究人员,提出了基于自回归模型Llama的图像生成方法。
目前该模型已经开源,并在GitHub斩获了近900颗星标。
扩散模型出现后,取代了自回归方法,一度成为图像生成的主流技术路线。
但在ImageNet测试基准上,作者提出的LlamaGen表现超越了LDM、DiT等扩散模型。
作者的这一发现,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。
△LlamaGen生图示例,第一行为class调控生成,第二行为文生图那么,基于自回归模型,或者说基于Llama的图像生成,是如何实现的呢?
用自回归模型做图像生成作者介绍,开源社区对自回归模型做图像生成的印象大多停留在2020年的VQ-GAN的ImageNet基准上取得的15左右的FID分数。
然而,早在2021年的ViT-VQGAN已经达到了FID 3.0左右的性能,DALL-E 1,Parti等更是在文生图领域展现了巨大的潜力。
不过这些工作都没有开源,于是,


原文链接:Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...