探索未来：Megrez-3B-Omni——颠覆传统的全模态大模型实现新突破

中午看到无问芯穹开源了一个端侧全模态大模型-Megrez-3B-Omni，马上来测测看，效果如何。

原标题：实测！无问芯穹最新端侧全模态大模型Megrez-3B-Omni
文章来源：智猩猩GenAI
内容字数：6687字

12月23日10点，德州农工大学计算机系博士余政铭将进行关于《任意拓扑的高质量3D物体生成》的讲座，欢迎大家扫名参与。同时，无问芯穹推出了一个全模态大模型——Megrez-3B-Omni，支持文本、图像和语音的理解与生成。

Megrez-3B-Omni是基于Megrez-3B-Instruct扩展的端侧全模态理解模型，具备处理图片、文本和音频三种模态的能力。相较于同类参数模型，它在多个模态上均取得了良好的效果。

模型测试分为三个方面：文本、图像和语音。

模型在解答数学和逻辑问题时存在一定局限性，特别是在复杂数学题上更是显得力不从心。不过，它在伦理和生物等领域的回答安全性较高，整体表现尚可。

在单图信息抽取及理解方面，Megrez-3B-Omni能准确回答简单问题，但在复杂表格的识别上效果一般。目前版本不支持多图处理，预计未来版本会有所改善。

模型在语音转文本和语音问答方面表现良好，能够准确理解语音内容。

该项目基于Megrez-3B-Instruct模型，旨在实现高效的网页搜索功能，增加了摘要过程以去除无效信息并提高模型回复效果。整体流程简单易用，可在本地快速部署。

Megrez-3B-Omni整体体验不错，但在OCR、数学能力等方面依然需要改进。尽管面临资源紧张和模型大小的矛盾，端侧全模态模型的推出为应用落地提供了新的可能性。期待未来版本的进一步优化与更新。

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

文章版权归作者所有，未经允许请勿转载。

暂无评论...