让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

AIGC动态欢迎阅读

原标题:让「GPT-4V」跑在手机上,这家中国大模型公司做到了​
关键字:模型,能力,视频,方面,视觉
文章来源:AI科技评论
内容字数:0字

内容摘要:


对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩
编辑 | 陈彩娴
真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。
与云端相比,端侧离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。
今日,面壁正式发布了 MiniCPM-V 2.6,在端侧性能实现全面对标 GPT-4V——
据介绍,MiniCPM-V 2.6 首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越GPT-4V,三项能力均取得 20B 以下 SOTA 成绩,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini 。
而类比知识密度来看,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%,MiniCPM-V 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)。
值得一提的是,面壁还将“实时”视频理解、多图联合理解、多图 ICL等能力首次搬上了端侧。
量化后端侧内存仅占 6 GB,端侧


原文链接:让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

联系作者

文章来源:AI科技评论
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...