原标题:DeepSeek 怒抢视觉对话王座!DeepSeek-VL2 发布即开源,技术全公开
文章来源:夕小瑶科技说
内容字数:6315字
DeepSeek-VL2:国内大模型领域的“拼多多”
近年来,视觉模型领域发展迅猛,涌现出一批优秀的模型。国内大模型领域的黑马DeepSeek近日也推出了其最新的视觉语言模型DeepSeek-VL2,并继续坚持开源路线,在论文中公开了大量的技术细节。DeepSeek-VL2凭借其优异的性能和低廉的成本,引发了业界的广泛关注。
1. 模型家族及性能
DeepSeek-VL2系列包含三个模型:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,其激活参数分别为1.0B、2.8B和4.5B。令人瞩目的是,DeepSeek-VL2在参数量仅为现有模型一半的情况下,性能却超越了Qwen2-VL和InternVL2等模型,实现了具有竞争力甚至最先进的性能。
2. 技术提升:三大核心改进
与上一代DeepSeek-VL相比,DeepSeek-VL2主要在以下三个方面进行了改进:
- 动态高分辨率视觉编码策略:DeepSeek-VL2引入了动态平铺视觉编码策略,能够有效处理不同纵横比的高分辨率图像,避免了固定大小编码器的限制,在视觉定位、文档/表格/图表分析等任务中表现出色。通过动态切片平铺方法,极大提升了计算效率。
- 改进的MOE机制:DeepSeek-VL2基于自研的DeepSeekMoE模型,该模型通过细粒度专家划分、共享专家隔离、动态损失均衡和多头潜在注意力机制等策略,提升了训练和推理效率,有效控制了计算成本。
- 数据扩展与训练微调:DeepSeek-VL2使用了比上一代模型多一倍的优质训练数据,并引入了梗图理解、视觉定位、视觉故事生成等新能力,增强了模型的泛化能力和性能。通过监督式微调,进一步提升了模型的指令遵循和对话能力。
3. 结果展示:多领域领先表现
DeepSeek-VL2在OCR、多模态对话、视觉定位等领域进行了测试,结果显示其在激活参数更少的情况下实现了与现有模型相似或更好的性能。尤其在通用视觉问题回答、密集图像描述、图表理解等方面表现突出,展现了强大的多模态理解能力。此外,DeepSeek-VL2还展现了视觉定位和上下文视觉定位能力,以及一定的涌现能力。
4. 模型部署及DeepSeek公司背景
DeepSeek-VL2的三个版本分别可以部署在具有10GB、40GB和80GB内存的单个GPU上。DeepSeek公司由幻方量化孵化,拥有强大的算力资源和技术积累,这为其大模型研发提供了坚实的基础。DeepSeek的目标不仅仅是复刻ChatGPT,更在于探索通用人工智能的更多未知领域。
总而言之,DeepSeek-VL2凭借其在性能、成本和技术创新上的优势,在国内大模型领域展现出强大的竞争力,其开源策略也为社区发展贡献力量。DeepSeek-VL2的出现,标志着国内大模型技术正在不断进步,并向更低成本、更高效率的方向发展。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189