在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细

文章来源：机器之心

内容字数：5375字

内容摘要：机器之心报道编辑：杜伟、小舟全新视觉提示方法 SoM（Set-of-Mark），让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来，大型多模态模型 (LMM) 引起了研究界越来越多的兴趣，许多工作…

原文链接：点此阅读原文：在视觉提示中加入「标记」，微软等让GPT-4V看的更准、分的更细