多模态大模型，阿里通义千问能和GPT-4V掰手腕了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：多模态大模型，阿里通义千问能和GPT-4V掰手腕了
关键字：模型,能力,阿里,图像,视觉
文章来源：机器之心
内容字数：7009字

内容摘要：

机器之心报道
编辑：泽南、蛋酱通义千问的图像推理能力，最近有了大幅提升。
2024 年，大模型领域要卷什么？
如果没有思路的话，不妨看看各家大厂都在押注什么方向。
最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 Gemini 成为了业界第一个原生的多模态大模型，它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。很明显，新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。
不只有 GPT-4V、Gemini，在这个充满潜力的方向上，国内的技术力量同样值得关注：最近的一个重要发布就来自阿里，他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布，在多个测评基准上取得了好成绩，并实现了强大的图像理解的能力。
我们还记得 Gemini 发布之后，谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质

原文链接：多模态大模型，阿里通义千问能和GPT-4V掰手腕了