面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

AIGC动态7个月前发布 AI前线
8 0 0

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

AIGC动态欢迎阅读

原标题:面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!
关键字:华为,报告,字节跳动,模型,能力
文章来源:AI前线
内容字数:4836字

内容摘要:


整理 | 褚杏娟
5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:
最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;
OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;
图像编码快 150 倍!首次端侧系统级多模态加速。
MiniCPM-Llama3-V 2.5 开源地址:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM 系列开源地址:
https://github.com/OpenBMB/MiniCPM
Hugging Face 下载地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_58 B 端侧模型,
超越 GPT-4V、Gemini Pro
MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能


原文链接:面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...