探索未来:Megrez-3B-Omni——颠覆传统的全模态大模型实现新突破

中午看到无问芯穹开源了一个端侧全模态大模型-Megrez-3B-Omni,马上来测测看,效果如何。

探索未来:Megrez-3B-Omni——颠覆传统的全模态大模型实现新突破

原标题:实测!无问芯穹最新端侧全模态大模型Megrez-3B-Omni
文章来源:智猩猩GenAI
内容字数:6687字

智猩猩AI新青年讲座及Megrez-3B-Omni模型概述

12月23日10点,德州农工大学计算机系博士余政铭将进行关于《任意拓扑的高质量3D物体生成》的讲座,欢迎大家扫名参与。同时,无问芯穹推出了一个全模态大模型——Megrez-3B-Omni,支持文本、图像和语音的理解与生成。

1. Megrez-3B-Omni模型介绍

Megrez-3B-Omni是基于Megrez-3B-Instruct扩展的端侧全模态理解模型,具备处理图片、文本和音频三种模态的能力。相较于同类参数模型,它在多个模态上均取得了良好的效果。

2. 模型实测

模型测试分为三个方面:文本、图像和语音。

2.1 文本测试

模型在解答数学和逻辑问题时存在一定局限性,特别是在复杂数学题上更是显得力不从心。不过,它在伦理和生物等领域的回答安全性较高,整体表现尚可。

2.2 图像测试

在单图信息抽取及理解方面,Megrez-3B-Omni能准确回答简单问题,但在复杂表格的识别上效果一般。目前版本不支持多图处理,预计未来版本会有所改善。

2.3 语音测试

模型在语音转文本和语音问答方面表现良好,能够准确理解语音内容。

3. Web-Search项目介绍

该项目基于Megrez-3B-Instruct模型,旨在实现高效的网页搜索功能,增加了摘要过程以去除无效信息并提高模型回复效果。整体流程简单易用,可在本地快速部署。

4. 总结

Megrez-3B-Omni整体体验不错,但在OCR、数学能力等方面依然需要改进。尽管面临资源紧张和模型大小的矛盾,端侧全模态模型的推出为应用落地提供了新的可能性。期待未来版本的进一步优化与更新。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...