字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍
关键字：字节跳动,图像,豆包,模型,分辨率
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在生成式模型的迅速发展中，Image Tokenization 扮演着一个很重要的角色，例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间（latent space），使得生成高分辨率图像更有效率。
然而，现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵，这一设计隐式的限制了token与图像之间的映射关系，导致其很难有效的利用图像中的冗余信息（比如相邻的区域经常会有类似的特征）来获得一个更加有效的图像编码。
为了解决这一问题，字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer：TiTok，这一Tokenizer打破了2D

原文链接：字节豆包全新图像Tokenizer：生成图像最低只需32个token，最高提速410倍