AIGC动态欢迎阅读
原标题:港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
关键字:字节跳动,模型,能力,物体,语言
文章来源:量子位
内容字数:3751字
内容摘要:
允中 发自 凹非寺量子位 | 公众号 QbitAI当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。
然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。
比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。
定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。
针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma——
通过区域性图像编码来提升多模态大模型的感知定位能力。
在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。
核心思路如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,做到“言之有物”,是当前一大研究热点。
常见的做法是微调大语言模型使其直接输出物体坐标。然而这种方法却有着诸多限制:
1、在文本上预训练的大语言模型本身不具备空间理解能力,仅依靠少量数据微调很难精准定位物体。
2、定位任务对输入图像的分辨率有较高要求,但提高分辨率会显著增加多模态大模型的计算量。
3、大语言模型的输出形式不适合
原文链接:港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...