AIGC动态欢迎阅读
原标题:多模态大模型,阿里通义千问能和GPT-4V掰手腕了
关键字:模型,能力,阿里,图像,视觉
文章来源:机器之心
内容字数:7009字
内容摘要:
机器之心报道
编辑:泽南、蛋酱通义千问的图像推理能力,最近有了大幅提升。
2024 年,大模型领域要卷什么?
如果没有思路的话,不妨看看各家大厂都在押注什么方向。
最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。很明显,新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径。
不只有 GPT-4V、Gemini,在这个充满潜力的方向上,国内的技术力量同样值得关注:最近的一个重要发布就来自阿里,他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布,在多个测评基准上取得了好成绩,并实现了强大的图像理解的能力。
我们还记得 Gemini 发布之后,谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质
原文链接:多模态大模型,阿里通义千问能和GPT-4V掰手腕了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...