清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力
关键字：解读,模型,视觉,图像,分辨率
文章来源：AI前线
内容字数：3775字

内容摘要：

作者 | 凌敏
近日，清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent，CogAgent 是一个通用的视觉理解大模型，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上（含 VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE 等）取得了通用能力第一的成绩，并在涵盖电脑、手机的 GUI Agent 数据集上（含 Mind2Web，AITW 等），大幅超过基于 LLM 的 Agent，取得第一。
在网页 Agent 数据集 Mind2Web 上的性能
在手机 Agent 数据集 AITW 上的性能
为了更好地促进多模态大模型、Agent 社区的发展，目前团队已将 CogAgent-18B 开源至 GitHub 仓库，并提供了网页版 Demo。
论文链接：https://arxiv.org/pdf/2312.08914.pdf
GitHub 项目地址（含开源模型、网页版 Demo）：https://github.com

原文链接：清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力