颠覆视觉认知:Florence-VL引领多模态大语言模型的新纪元

通过融合不同深度的特征,Florence-VL实现了更全面的视觉理解。

颠覆视觉认知:Florence-VL引领多模态大语言模型的新纪元

原标题:Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息
文章来源:机器之心
内容字数:5936字

Florence-VL:基于生成式视觉编码器的多模态大语言模型

近年来,随着大规模语言模型(LLM)的发展,多模态大语言模型(MLLMs)逐渐成为视觉与语言任务的主流解决方案。为此,马里兰大学与微软研究院联合提出了Florence-VL,这一模型通过引入生成式视觉编码器Florence-2,解决了传统视觉编码器在细粒度理解和任务泛化能力上的不足。

1. 研究背景

传统的视觉编码器如CLIP和SigLIP主要依赖对比学习,虽然在整体语义提取上表现良好,但常常忽略了细节信息。这导致在OCR、对象定位等任务上效果不佳。Florence-VL通过生成式预训练,整合不同视觉任务,提供更全面的视觉表征。

2. 方:深度与广度融合(DBFusion)

Florence-VL的核心创新在于深度-广度融合策略。该策略通过任务提示扩展视觉表征(如图像描述、OCR、对象定位),并整合多层级特征,确保细节与整体信息的兼顾。通道拼接策略则有效整合不同特征,避免了增加训练和推理时序列长度的问题。

3. 实验与结果

研究团队在多个多模态任务上进行了实验,包括通用视觉问答、OCR、知识理解等。实验结果显示,Florence-VL在TextVQA和OCR-Bench等文本提取任务上表现优异,得益于Florence-2生成式视觉编码器的支持。此外,在其他任务中,Florence-VL的准确率也相较于传统方法有所提升。

4. 总结与展望

Florence-VL作为一种基于生成式视觉编码器的多模态大语言模型,展示了优越的性能。未来的研究将探讨自适应融合策略,以便根据任务动态调整深度与广度特征的平衡,从而进一步提升模型的适应性和表现。

获取更多信息,请访问论文链接:Florence-VL论文


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...