Liquid

Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

Liquid是由华中科技大学、字节跳动和香港大学共同开发的一款极简的多模态生成框架。它利用VQGAN技术将图像转化为离散的视觉token，并与文本token共享同一词汇空间，从而使大型语言模型（LLM）能够在不改变其结构的情况下实现视觉生成与理解。

Liquid是什么

Liquid是华中科技大学、字节跳动与香港大合推出的一种极简多模态生成框架。该框架基于VQGAN技术，将图像编码为离散的视觉token，并与文本token共享相同的词汇空间。通过这种方式，Liquid使大型语言模型（LLM）能够在视觉生成和理解任务中发挥作用，而无需对模型结构进行修改。Liquid抛弃了传统的外部视觉模块，利用LLM的语义理解能力来完成多模态任务，从而显著降低了训练成本（比起从头开始训练可节省100倍），在视觉生成和理解方面表现出色，甚至超过了一些扩散模型。Liquid揭示了多模态任务的规模规律，表明随着模型规模的扩大，视觉与语言任务之间的冲突逐渐减小，并且两者能够相互促进。

Liquid

Liquid的主要功能

视觉生成：根据文本描述生成高质量图像，支持多种分辨率和风格。
视觉理解：处理与图像相关的任务，如视觉问答（VQA）和图像描述生成。
多模态融合：将视觉和语言任务无缝结合，支持同时处理文本生成、图像生成和视觉理解任务。
高效扩展：基于现有的大型语言模型（LLM），通过少量数据和低成本训练，快速提升多模态能力。
语言能力保留：在增强视觉生成能力的同时，保持强大的语言生成和理解能力，适用于多模态混合任务。

Liquid的技术原理

图像分词器（Image Tokenizer）：VQGAN（Vector Quantized Generative Adversarial Network）将图像编码为离散视觉token。视觉token与文本token共享同一词汇表，使得图像和文本可以以统一的方式进行处理。
统一的特征空间：视觉token和文本token在同一特征空间中进行学习，基于“下一token预测”任务进行训练，使模型能够在视觉与语言任务之间无缝切换与优化。
基于LLM的生成：Liquid扩展了现有的大型语言模型（LLM），利用其强大的语义理解能力进行视觉生成和理解。在LLM中增加视觉token的嵌入，以处理视觉任务，且不需额外的视觉模块（如CLIP或扩散模型）。
多模态数据训练：通过混合数据（文本数据及图文对数据）进行预训练，让模型同时学言和视觉任务。通过调整数据比例，优化模型在不同任务上的表现。
双向促进机制：视觉生成和视觉理解任务共享统一的token空间，优化目标一致，二者能够相互促进。当增加某一任务的数据时，可以提升模型在另一任务上的表现。