Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

AIGC动态2个月前发布 量子位
5 0 0

Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

AIGC动态欢迎阅读

原标题:Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿
关键字:模型,视觉,编码器,微软,大小
文章来源:量子位
内容字数:0字

内容摘要:


明敏 发自 凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了!
Pixtral 12B正式发布,同时具备语言和视觉处理能力。
它建立在文本模型Nemo 12B基础上,包含一个专门的视觉编码器。
大概24GB,原生支持任意数量和尺寸的图像,大约有40层神经网络、14,336 个隐藏维度大小和32个注意力头,以及一个专用的视觉编码器,支持高分辨率图像(1024×1024)处理。
发布形式还是简单直接一个种子链接。
现在可以通过链接、GitHub或Hugging Face下载模型。
Mistral的开发主管表示,后续也会在Chatbot上接入模型,并提供API服务。
超越Qwen、LLaVA等虽然目前模型的训练数据、细节都未公开,但是通过模型代码网友们发现了更多细节。
1、先进架构:40层网络、14336隐藏维度大小、32个注意力头。
2、视觉能力:专用视觉编码器,支持1024×1024图像大小和24个隐藏层,用于高级图像处理。
3、更大词汇量:131072tokens,支持更细致语言理解和 生成。
4、使用GeLU(用于视觉适配器)和2D RoPE(用于视觉编码器)。


原文链接:Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...