中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

AIGC动态3年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出
关键字：解读,模型,报告,视觉,能力
文章来源：新智元
内容字数：9133字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。最近，通义千问实火。
前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。
让甄嬛、、马斯克、猫主子和兵马俑能跳舞那款AI，就藏在通义千问APP背后。
‍
来源：深夜来点薯片
来源：深夜来点薯片
最强国产视觉语言模型了解一下就在这几天，通义千问团队又对多模态大模型下手了——
再一次升级通义千问视觉语言模型Qwen-VL，继Plus版本之后，又推出Max版本。
Qwen-VL是阿里在2023年8月推出的具备图文理解能力的大模型，基于通义千问语言模型开发。升级后的Qwen-VL视觉水平大幅提升，对很多图片的理解水平接近人类。
并且，还能够支持百万像素以上的高清分辨率图，以及各种极端长宽比的图片。
升级版模型限时免费，在通义千问官网和APP都可体验，API也可免费调用。
评测结果显示，Qwen-VL的升级版本在MMMU、MathVista等任务上远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Be

原文链接：中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出