Qwen2.5-VL系列模型正式开源,千问永远不会让你失望 | 附实测结果

2025年的第一个月,国内大模型厂商都太争气了!Qwen2.5-VL的表格解析效果有点强!

Qwen2.5-VL系列模型正式开源,千问永远不会让你失望 | 附实测结果

原标题:Qwen2.5-VL系列模型正式开源,千问永远不会让你失望 | 附实测结果
文章来源:智猩猩GenAI
内容字数:3966字

通义千问Qwen2.5-VL系列模型开源:多模态能力显著提升

本文总结了通义千问在春节前夕开源的Qwen2.5-VL系列模型的特性和测试结果。该模型在多模态能力上取得了显著进步,尤其在表格解析方面表现突出。

  1. 模型概述

    Qwen2.5-VL系列模型包含三个尺寸:3B、7B和72B,分别适用于端侧部署、速度与效果平衡以及追求最佳效果的场景。其中7B模型在多个开源榜单上排名第一,72B模型则与GPT4-o和Claude 3.5性能相当。该模型不仅提升了对话、指令跟随、数学和代码能力,还支持坐标、JSON等返回格式,以及更长视频(1小时)的理解、更细粒度的时间感知、更全面的知识解析和更强的Agent能力(操作手机和电脑)。其视觉编码器采用原生训练的动态分辨率ViT,并引入空间和时间维度编码,提升了对空间和时间的理解能力。

  2. 实测结果

    文章作者对Qwen2.5-VL模型进行了多项测试,包括表格解析、数学能力、信息抽取、计算、理解能力以及色盲测试。在表格解析方面,Qwen2.5-VL-72B模型对简单、中等和复杂表格均实现了完全正确的解析,表现远超此前GPT4-o、Claude和Gemini等模型。在数学测试中,该模型正确解答了2024年高考全国甲卷(文理科)数学试题。信息抽取、计算和理解能力测试也取得了较好的结果,仅在手写OCR识别现轻微错误。色盲测试则通过了一半。

  3. Hugging Face快速使用

    文章提供了在Hugging Face上使用Qwen2.5-VL-7B模型的代码示例,展示了如何利用该模型进行图像描述任务。

  4. 总结

    作者认为Qwen2.5-VL是国内开源大模型的佼佼者,其在多模态能力上的提升令人印象深刻,尤其在表格解析方面的突破非常值得关注。文章最后表达了对后续Qwen3、QwQ和QvQ模型更新的期待。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...