多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

AIGC动态欢迎阅读

原标题:多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
关键字:任务,模型,提示,全景,图像
文章来源:机器之心
内容字数:4814字

内容摘要:


机器之心专栏
机器之心编辑部最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 – 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。
尽管如此,在将 LMM 应用到计算机视觉任务上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输出,这限制了它们在处理更细粒度的视觉任务,如图像分割方面的能力。
此外,图像分割领域内部的需求多样化,任务各异 —— 实例分割需为每个对象分配唯一 ID 并计算类别信赖度,指代分割(RES)则需要基于描述性语句来识别图像中的特定区域,而交互式分割的输入可能包括点、线、边界框或掩码。这些不同的输入和输出格式如何能够被 LMM 高效地统一和处理,目前仍然是一个开放性问题。华中科技大学的研究团队针对多模态大模型(LMM)在视觉任务中的应用挑战,推出了针对性的解决方案:PSALM 模型。这一模型的设计理念是:通过一个统一的框架处理绝大多数类型的图像分割任务,从而实现分割任务的全面覆盖。
同时,得益于多模态大模型广泛的预训练,PSALM 不仅在已见分割任务上表现出色


原文链接:多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...