AIGC动态欢迎阅读
原标题:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态
关键字:比亚迪,模型,能力,华为,字节跳动
文章来源:AI前线
内容字数:0字
内容摘要:
整理 | 褚杏娟
8 月 6 日,面壁智能宣布「小钢炮」 MiniCPM-V 2.6 模型重磅上新!据悉,该模型仅 8B 参数,但将实时视频理解、多图联合理解(还包括多图 OCR、多图 ICL 等)能力首次搬上了端侧多模态模型。
据介绍,MiniCPM-V 2.6 延续了小钢炮系列一贯的以小博大与高效低成本特点:
“三合一”最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。
多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。
极致高效,最高多模态像素密度:类比知识密度,小钢炮 2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。
端侧友好:量
原文链接:实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态
联系作者
文章来源:AI前线
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...