超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

AIGC动态4个月前发布 量子位
5 0 0

超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

AIGC动态欢迎阅读

原标题:超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
关键字:模型,视频,图像,能力,任务
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI新的最强开源多模态大模型来了!
阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得了SOTA。
在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。
在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。
甚至还能作为Agent与环境进行交互,根据任务目标自主操控手机等设备。
此次发布的Qwen2共有2B、7B、72B三个版本,其中2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。
目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。
还有不少网友都在狂cue一些知名大模型推理平台,如Groq、Ollama,希望能够早日提供支持。
下面就来一睹Qwen2-VL的表现!
会操作机械臂的多模态大模型利用强大的多模态能力,Qwen2-VL能够操纵机械臂,进行物体的拿取、放置等操作。
还可以化身扑克牌玩家,根据识别到的场上信息和提示词描述进行“2


原文链接:超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...