AIGC动态欢迎阅读
原标题:字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
关键字:字节跳动,图像,豆包,模型,分辨率
文章来源:机器之心
内容字数:0字
内容摘要:
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。
为了解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer:TiTok,这一Tokenizer打破了2D
原文链接:字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...