DeepSeek最新开源的MoE视觉语言模型系列

产品名称：DeepSeek-VL2
产品简介：DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家（Mixture-of-Experts，简称MoE）视觉语言模型，在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力，包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。
详细介绍：

DeepSeek-VL2是什么

DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家（Mixture-of-Experts，简称MoE）视觉语言模型，在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力，包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列包括三个版本：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别拥有 1.0B、2.8B 和 4.5B 的激活参数。DeepSeek-VL2 在保持相似或更少激活参数的情况下，与现有的开源密集型和基于 MoE 的模型相比，实现了竞争性或最先进的性能。模型于 2024 年 12 月 13 日正式发布。支持高达 1152×1152 的分辨率和 1:9 或 9:1 的极端长宽比，适配更多应用场景。DeepSeek-VL2 通过学习更多科研文档数据，理解各种科研图表的能力。能通过 Plot2Code 功能，根据图像生成 Python 代码。

DeepSeek-VL2的主要功能

动态分辨率支持：DeepSeek-VL2能处理高达1152×1152分辨率的图像，支持1:9或9:1的极端长宽比，适配多种应用场景。
图表理解：通过学习科研文档数据，DeepSeek-VL2能轻松理解各种科研图表。
Plot2Code：模型具备图像理解和代码生成的能力，可以根据图像生成Python代码。
梗图识别：DeepSeek-VL2能解析各种Meme（梗图），拥有更深层次的理解能力。
Visual Grounding：模型能进行零样本（Zero-shot）视觉定位，根据自然语言描述在图像中找到相应的物体。
Visual Storytelling：DeepSeek-VL2能将多张图像串联起来，形成视觉故事。

DeepSeek-VL2的技术原理

多头潜在注意力（MLA）：DeepSeek-VL2 在注意力机制上采用了 MLA，基于低秩键值联合压缩来消除推理时键值缓存的瓶颈，支持高效的推理。
DeepSeekMoE 架构：在前馈网络（Feed-Forward Networks，FFNs）中，DeepSeek-VL2 采用了 DeepSeekMoE 架构，这是一种高性能的 MoE 架构，能在降低成本的同时训练更强大的模型。
经济高效的训练和推理：DeepSeek-VL2 在预训练阶段使用了 8.1 万亿 token 的多样化和高质量语料库，通过监督式微调（Supervised Fine-Tuning，SFT）和强化学习（Reinforcement Learning，RL）来充分发挥模型的能力。与 DeepSeek 67B 相比，DeepSeek-VL2 在训练成本上节省了 42.5%，减少了 93.3% 的 KV 缓存，将最大生成吞吐量提高了 5.76 倍。
支持长上下文窗口：DeepSeek-VL2 在 Needle In A Haystack（NIAH）测试中表现出色，支持长达 128K 的上下文窗口长度。