Qwen2.5-VL系列模型正式开源，千问永远不会让你失望 | 附实测结果

AIGC动态1年前 (2025)发布智猩猩GenAI

510 0 0

2025年的第一个月，国内大模型厂商都太争气了！Qwen2.5-VL的表格解析效果有点强！

原标题：Qwen2.5-VL系列模型正式开源，千问永远不会让你失望 | 附实测结果
文章来源：智猩猩GenAI
内容字数：3966字

通义千问Qwen2.5-VL系列模型开源：多模态能力显著提升

本文总结了通义千问在春节前夕开源的Qwen2.5-VL系列模型的特性和测试结果。该模型在多模态能力上取得了显著进步，尤其在表格解析方面表现突出。

模型概述
Qwen2.5-VL系列模型包含三个尺寸：3B、7B和72B，分别适用于端侧部署、速度与效果平衡以及追求最佳效果的场景。其中7B模型在多个开源榜单上排名第一，72B模型则与GPT4-o和Claude 3.5性能相当。该模型不仅提升了对话、指令跟随、数学和代码能力，还支持坐标、JSON等返回格式，以及更长视频（1小时）的理解、更细粒度的时间感知、更全面的知识解析和更强的Agent能力（操作手机和电脑）。其视觉编码器采用原生训练的动态分辨率ViT，并引入空间和时间维度编码，提升了对空间和时间的理解能力。
实测结果
文章作者对Qwen2.5-VL模型进行了多项测试，包括表格解析、数学能力、信息抽取、计算、理解能力以及色盲测试。在表格解析方面，Qwen2.5-VL-72B模型对简单、中等和复杂表格均实现了完全正确的解析，表现远超此前GPT4-o、Claude和Gemini等模型。在数学测试中，该模型正确解答了2024年高考全国甲卷（文理科）数学试题。信息抽取、计算和理解能力测试也取得了较好的结果，仅在手写OCR识别现轻微错误。色盲测试则通过了一半。
Hugging Face快速使用
文章提供了在Hugging Face上使用Qwen2.5-VL-7B模型的代码示例，展示了如何利用该模型进行图像描述任务。
总结
作者认为Qwen2.5-VL是国内开源大模型的佼佼者，其在多模态能力上的提升令人印象深刻，尤其在表格解析方面的突破非常值得关注。文章最后表达了对后续Qwen3、QwQ和QvQ模型更新的期待。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下账号，专注于生成式人工智能，主要分享技术文章、论文成果与产品信息。

阅读原文

# AIGC动态 # Qwen-25-VL # 人工智能实测结果 # 千问大模型 # 多模态模型 # 大模型开源

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Qwen2.5-VL系列模型正式开源，千问永远不会让你失望 | 附实测结果

2025年的第一个月，国内大模型厂商都太争气了！Qwen2.5-VL的表格解析效果有点强！

通义千问Qwen2.5-VL系列模型开源：多模态能力显著提升

模型概述

实测结果

Hugging Face快速使用

总结

联系作者

DeepSeek是否利空算力？

我们决定用50个关键词，来总结2024这AI狂奔的一年。

相关文章

暂无评论