实时视频理解首次上端！面壁小钢炮2.6 携单图、多图、视频理解3 SOTA，全面对标 GPT-4V 最强多模态

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：实时视频理解首次上端！面壁小钢炮2.6 携单图、多图、视频理解3 SOTA，全面对标 GPT-4V 最强多模态
关键字：比亚迪,模型,能力,华为,字节跳动
文章来源：AI前线
内容字数：0字

内容摘要：

整理 | 褚杏娟
8 月 6 日，面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新！据悉，该模型仅 8B 参数，但将实时视频理解、多图联合理解（还包括多图 OCR、多图 ICL 等）能力首次搬上了端侧多模态模型。
据介绍，MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点：
“三合一”最强端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。
多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能，第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」，不仅看得清晰，还能有样学样、模仿学习。
极致高效，最高多模态像素密度：类比知识密度，小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度（token density），在端侧方寸之地，一路将大模型「能效比」挖到极限。这一进展，得益于视觉 token 相比上一代下降 30% ，比同类模型低 75%。
端侧友好：量

原文链接：实时视频理解首次上端！面壁小钢炮2.6 携单图、多图、视频理解3 SOTA，全面对标 GPT-4V 最强多模态