2B多模态新SOTA！华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：2B多模态新SOTA！华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症
关键字：切分,尺度,策略,模型,图像
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST 好困
【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩，证明了其在多模态理解和文档智能领域的潜力。最近，提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。
绝大多数方法致力于通过对图像进行切分再融合的策略，来提升多模态大模型对图像细节的理解能力。
然而，由于对图像的切分操作，不可避免会对目标、联通区域带来割裂，导致MLMMs对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中，表现极为明显，由于文字端经常被中断。
针对这一挑战，华中科技大学和华南理工大学最近联合发布一个多模态大模型Mini-Monkey，使用了可插拔的多尺度自适应策略（MSAC）的轻量化多模态大模型。
Mini-Monkey自适应生成多尺度表示，允许模型从各种尺度中选择未分割的对象，其性能达到了2B多模态大模型的新SOTA。论文地址：https://arx

原文链接：2B多模态新SOTA！华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症