面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！
关键字：华为,报告,字节跳动,模型,能力
文章来源：AI前线
内容字数：4836字

内容摘要：

整理 | 褚杏娟
5 月 20 日，面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉，该模型且支持 30+ 多种语言，并且具有以下特性：
最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V；
OCR 能力 SOTA！9 倍像素更清晰，难图长图长文本精准识别；
图像编码快 150 倍！首次端侧系统级多模态加速。
MiniCPM-Llama3-V 2.5 开源地址：
https://github.com/OpenBMB/MiniCPM-V
MiniCPM 系列开源地址：
https://github.com/OpenBMB/MiniCPM
Hugging Face 下载地址：
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_58 B 端侧模型，
超越 GPT-4V、Gemini Pro
MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级，贡献了惊艳的 OCR（光学字符识别）SOTA 成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能

原文链接：面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！