Ovis2

Ovis2 – 阿里国际推出的多模态大语言系列模型

Ovis2 是阿里巴巴国际团队最新推出的多模态大型语言模型，旨在通过结构化嵌入对齐技术有效解决视觉与文本之间的差异。Ovis2 在前一代 Ovis 模型的基础上进行了优化，增强了小规模模型的性能密度，并通过指令微调和偏好学习显著提升了思维链（CoT）推理能力。

Ovis2是什么

Ovis2 是阿里巴巴国际团队研发的新一代多模态大型语言模型。它采用结构化嵌入对齐的方法，有效解决了视觉和文本模态之间的差异，并在 Ovis 系列架构的基础上进行了强化，特别提升了小规模模型在能力密度方面的表现。Ovis2 具备指令微调和偏好学习的特性，从而显著提升了思维链（CoT）推理能力。此外，Ovis2 还引入了视频处理和多图像处理能力，增强了对多语言的支持以及在复杂场景下的光学字符识别（OCR）能力。该系列模型分为六个不同的参数规模，包括1B、2B、4B、8B、16B 和 34B，均在 OpenCompass 多模态评测中表现优异，特别是在数学推理和视频理解方面。Ovis2 的开源为多模态大模型的研究和应用开辟了新的方向和工具。

Ovis2

Ovis2的主要功能

多模态理解与生成：能够处理文本、图像和视频等多种输入模态，生成高质量的文本输出，支持在复杂场景中的视觉和语言任务。
推理能力增强：借助思维链（CoT）推理能力的提升，解决复杂的逻辑和数学问题，并提供逐步推理的解决方案。
视频与多图像处理：具备视频理解能力，能够选择关键帧并处理多图像输入，从而应对跨帧的复杂视觉信息。
多语言支持及OCR功能：支持多种语言的文本处理，可以从复杂的视觉元素（如表格和图表）中提取结构化数据。
小模型优化：通过优化训练策略，使小规模模型具备更高的能力密度，以满足多样化的应用需求。

Ovis2的技术原理

结构化嵌入对齐：利用视觉tokenizer将图像切割成若干图像块（patch），提取特征后将其映射为“视觉单词”，进而形成概率化的视觉token。视觉token与文本token共同输入到大语言模型（LLM），实现模态间的结构化对齐。
四阶段训练策略：
- 第一阶段：冻结大语言模型，专注于视觉模块的训练，以学习视觉特征与嵌入之间的转化。
- 第二阶段：进一步训练视觉模块，增强其对高分辨率图像的理解及多语言OCR能力。
- 第三阶段：使用对话形式的视觉数据，使视觉嵌入与大语言模型的对话格式对齐。
- 第四阶段：进行多模态指令训练和偏好学习，提升模型对用户指令的遵循能力及输出质量。
视频理解提升：利用MDP3算法（基于帧与文本的相关性、组合多样性和序列性）进行关键帧选择，从而提升视频理解的效果。
基于Transformer架构：结合强大的视觉编码器（如ViT）和语言模型（如Qwen），实现高效的多模态融合与生成。