通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

AIGC动态欢迎阅读

原标题:通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频
关键字:语言,模型,视觉,能力,图像
文章来源:AI前线
内容字数:0字

内容摘要:


整理 | 褚杏娟
2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注 Qwen-VL 的升级迭代。
相比上代模型,Qwen2-VL 的基础性能全面提升,可以读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。
通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-7B 以其“经济型”参数规模实现了极具竞争力


原文链接:通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

联系作者

文章来源:AI前线
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...