Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

通过融合不同深度的特征,Florence-VL实现了更全面的视觉理解。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

原标题:Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
文章来源:机器之心
内容字数:5936字

Florence-VL: 基于生成式视觉编码器的多模态大语言模型

本文介绍了由马里兰大学和微软研究院联合完成的Florence-VL模型,这是一个基于生成式视觉编码器Florence-2的多模态大语言模型。Florence-VL克服了传统视觉编码器(如CLIP)在细粒度理解和任务泛化能力方面的不足,在多个多模态基准任务上展现出卓越的性能。

1. 问题与解决方案

现有的视觉编码器如CLIP和SigLIP,虽然在整体语义提取方面表现出色,但存在两个主要问题:缺乏细粒度理解(忽略像素级和局部区域细节)以及任务泛化能力有限(难以适配OCR、物体定位等任务)。Florence-VL通过引入生成式视觉基础模型Florence-2,解决了这些问题。Florence-2通过生成式预训练,将多种视觉任务统一到一个sequence-to-sequence结构中,并通过prompt来完成多样化的视觉任务。

2. Florence-2: 生成式视觉基础模型

Florence-2的核心是其生成式预训练方式。不同于传统视觉编码器依赖对比学习,Florence-2采用编码-解码框架,包含视觉编码器DaViT和任务提示机制。通过不同的文本提示,Florence-2可以生成针对性强的视觉特征,从全局语义到局部细节,为多模态任务提供更全面的视觉表示。

3. Florence-VL: 深度与广度融合策略

Florence-VL的核心创新在于深度-广度融合(DBFusion)策略。它利用Florence-2的生成式特性,结合多任务提示和多层级特征,形成更丰富的视觉表征。

  1. 广度:通过不同的任务提示(Captioning、OCR、Grounding)扩展视觉表征,获取不同层次的视觉信息。

  2. 深度:整合Florence-2不同深度层捕获的从low-level到high-level的视觉特征。

  3. 融合策略:采用通道拼接(Channel Integration)策略,将不同特征按通道维度拼接,并通过MLP映射到语言模型的输入空间,高效整合多任务和多层级特征,避免增加训练和推理时的序列长度。

4. 实验结果与分析

Florence-VL在多个多模态基准任务上(包括通用视觉问答、OCR、知识理解等)取得了优异的性能。尤其在TextVQA和OCR-Bench等文本提取任务上表现突出,这得益于Florence-2提供的细粒度OCR特征。消融实验也证明了Florence-2作为视觉编码器的优越性,其在TextVQA和OCR-Bench等任务中显著优于LLaVA 1.5。

5. 结论与未来展望

Florence-VL通过基于生成式视觉编码器Florence-2和创新的深度-广度融合策略,实现了高效的多模态视觉理解。未来研究将探索自适应融合策略,根据任务动态调整深度与广度特征的平衡。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止