实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

AIGC动态4个月前发布 AI前线
8 0 0

实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

AIGC动态欢迎阅读

原标题:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态
关键字:比亚迪,模型,能力,华为,字节跳动
文章来源:AI前线
内容字数:0字

内容摘要:


整理 | 褚杏娟
8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。
据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:
“三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。
多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。
极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。
端侧友好:量


原文链接:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

联系作者

文章来源:AI前线
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...