Kimi-VL

Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

Kimi-VL

Kimi-VL 是一个开源的轻量级多模态视觉语言模型，由月之暗面团队开发。该模型采用 Mixture-of-Experts (MoE) 架构，拥有总计 16 亿个参数，而推理时仅需激活 2.8 亿个参数。Kimi-VL 能够进行强大的多模态推理、长文本理解及智能体（agent）互动，并支持高达 128K 的扩展上下文窗口和高分辨率的视觉输入。在数学推理和长视频理解等任务上，Kimi-VL 的表现超越了 GPT-4o 等同类模型。此外，Kimi-VL 还推出了推理增强版 Kimi-VL-Thinking，进一步提升其长期推理能力。

Kimi-VL是什么

Kimi-VL 是月之暗面开发的一款轻量级多模态视觉语言模型，基于 Mixture-of-Experts (MoE) 架构，拥有总计 16 亿个参数。在推理过程中，仅激活 2.8 亿个参数，从而显著降低计算成本。该模型在多模态推理、长文本理解及智能体交互等方面表现出色，能够处理复杂的多模态任务。Kimi-VL 在数学推理和长视频理解领域的表现尤为突出，领先于诸如 GPT-4o 等其他模型。为了进一步提升推理能力，Kimi-VL 还推出了基于长链推理微调和强化学习的增强版 Kimi-VL-Thinking。

Kimi-VL的主要功能

多模态推理：能够处理图像、视频及文本等多种输入形式，满足复杂的多模态任务需求。
长文本理解：配备 128K 扩展上下文窗口，擅长处理长视频及长文档输入。
数学推理：利用长链推理（CoT）监督微调和强化学习（RL），具备出色的数学推理能力。
Agent 交互能力：支持多轮对话及复杂任务的逐步推理能力。
高分辨率视觉输入：能够处理超高分辨率的视觉输入，同时保持较低的计算成本。

Kimi-VL的技术原理

基础架构：采用 MoE 架构，在推理时仅激活部分参数（2.8B），有效降低计算负担。该模型基于 SigLIP-SO-400M 进行微调，能够处理高分辨率视觉输入。多层感知机（MLP）投影器将视觉特征与语言特征对齐，增强多模态融合效果。
预训练阶段：
- ViT 训练：为视觉编码器进行训练，建立稳健的视觉特征提取能力。
- 联合训练：包括预训练、冷却和长上下文激活三个阶段，全面提升模型的语言与多模态能力。
- 后训练阶段：在 32K 和 128K 上下文中进行联合微调，进一步增强模型的多模态理解能力，基于长链推理任务进行微调，以提升模型的长期推理能力。
强化学习（RL）：对模型推理能力进行进一步优化，使其在复杂任务中表现更为出色。