轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便
关键字：分辨率,模型,图像,动态,研究人员
文章来源：量子位
内容字数：3492字

内容摘要：

陈林投稿自凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。
上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。
相比于其他多模态大模型不超过1500×1500的分辨率限制，该工作将多模态大模型的最大输入图像提升到超过4K （3840 x1600）分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。
发布三天，该模型就登顶Hugging Face视觉问答模型热度榜单第一。
轻松拿捏4K图像理解先来看效果~
研究人员输入论文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首页截图（分辨率为2550×3300），并询问论文哪个模型在MMBench上的性能最高。
需要注意的是，该信息在输入截图的正文文字部分并未提及，仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题，IXC2-4KHD成功理解了雷达图中的信息，正确回答

原文链接：轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便