港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体
关键字：字节跳动,模型,能力,物体,语言
文章来源：量子位
内容字数：3751字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAI当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。
然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。
比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。
定位能力的缺失直接限制了多模态大模型在图像编辑，自动驾驶，机器人控制等下游领域的应用。
针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——
通过区域性图像编码来提升多模态大模型的感知定位能力。
在融入定位后，Groma可以将文本内容和图像区域直接关联起来，从而显著提升对话的交互性和指向性。
核心思路如何赋予多模态大模型定位物体的能力，乃至于将文字内容和图像区域关联起来，做到“言之有物”，是当前一大研究热点。
常见的做法是微调大语言模型使其直接输出物体坐标。然而这种方法却有着诸多限制：
1、在文本上预训练的大语言模型本身不具备空间理解能力，仅依靠少量数据微调很难精准定位物体。
2、定位任务对输入图像的分辨率有较高要求，但提高分辨率会显著增加多模态大模型的计算量。
3、大语言模型的输出形式不适合

原文链接：港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体