Long-VITA

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

Long-VITA是什么

Long-VITA 是由腾讯优图实验室、学和厦门大学共同开源的一款多模态模型，具有处理超过100万tokens的长文本输入的能力，并在短文本任务中表现优异。该模型采用分阶段训练的方式，逐步提升视觉与语言的上下文理解能力，支持图像、视频及文本等多种输入形式。Long-VITA利用动态分块编码器对高分辨率图像进行处理，并通过上下文并行分布式推理技术支持无限长度输入的处理。其训练使用了多个开源数据集，包括漫画摘要和电影剧情，已在多个多模态基准测试中取得了新的SOTA（State-of-the-Art）性能。

Long-VITA

Long-VITA的主要功能

卓越的长文本处理能力：具备处理超过100万tokens的能力，适用于长文本、长视频和高分辨率图像的多模态任务。
多模态理解能力：支持图像、视频和文本输入，适合视频理解、高分辨率图像分析和长文本生成等应用。
扩展上下文能力：通过分阶段训练逐步增加模型的上下文窗口，同时保持短文本任务的高效表现。
开源数据进行训练：利用开源数据集进行模型训练，无需依赖内部数据，降低了开发的门槛。
良好的可扩展性：支持上下文并行的分布式推理，能够处理无限长度的输入，适合大规模的应用部署。

Long-VITA的技术原理

分阶段训练：
- 视觉与语言的对齐：冻结语言模型和视觉编码器，仅训练投影器，以建立初步的视觉和语言特征连接。
- 通用知识的学习：利用图像-文本数据进行多任务学习，增强模型对通用知识的理解能力。
- 长序列的微调：逐步扩展上下文长度（从128K到1M），引入长文本和视频理解数据，优化模型对长内容的解析能力。
上下文并行分布式推理：采用张量并行和上下文并行的技术，支持对无限长度输入的推理，解决长文本处理的内存瓶颈。
动态分块编码器：采用动态分块策略高效处理高分辨率图像，支持多种宽高比的输入。
掩码语言建模头：在推理阶段基于掩码输出logits，显著降低内存消耗，支持大规模的长文本生成。