​MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

现在就能免费玩~

​MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

原标题:​MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o
文章来源:智猩猩GenAI
内容字数:3819字

MiniMax-01:400万Token上下文窗口的开源大模型

MiniMax公司开源了其最新的大模型MiniMax-01系列,包含文本模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列模型的突出特点是拥有超长的上下文窗口,达到惊人的400万token,这在业界尚属首例。

1. MiniMax-Text-01:超长上下文和卓越性能

MiniMax-Text-01是一个拥有456B参数的基础语言模型。它采用了创新的混合架构,结合了Lightning Attention、Softmax Attention和MoE,并通过多种优化策略,实现了100万token的训练上下文长度和400万token的推理上下文长度。在多个基准测试中,MiniMax-Text-01展现出强大的性能,尤其在超长上下文场景下优势明显。例如,在4M大海捞针测试中,MiniMax-Text-01实现了100%的准确率;在Ruler基准测试中,从128K token的输入长度开始超越所有基准模型;在LongBench v2测试中,无论是使用还是不使用思维链推理,都取得了最佳或显著的成果。此外,在MTOB数据集测试中,MiniMax-Text-01展现了强大的从上下文中学习的能力。

2. MiniMax-VL-01:强大的视觉多模态能力

MiniMax-VL-01采用“ViT-MLP-LLM”框架,结合了视觉Transformer(ViT)、多层感知机(MLP)和MiniMax-Text-01。它具有动态分辨率功能,可以处理不同尺寸的图像,并通过将图像分割成块进行编码,形成完整的图像表示。MiniMax-VL-01在多模态排行榜上表现突出,证明了其在处理复杂多模态任务中的优势。

3. 开放性和易用性

MiniMax-01系列模型的权重已完全开源,并部署在Hailuo AI平台上,用户可以免费试用。此外,MiniMax公司还提供了68页的技术论文详细介绍模型架构和性能。模型API价格也十分亲民,输入每百万token 0.2美元,输出每百万token 1.1美元。

4. 应用前景和社区反响

MiniMax公司表示,MiniMax-01系列模型是为支持未来的Agent相关应用而设计的,因为Agent需要强大的上下文处理能力和持续的内存。网友们对MiniMax-01的性能表示惊叹,纷纷进行实测并分享结果。一些初步测试表明,MiniMax-01在处理复杂任务时的表现令人印象深刻。

5. 总结

MiniMax-01系列模型的开源,标志着大模型技术向前迈进了一大步。其超长的上下文窗口、强大的性能以及开放性和易用性,将极大地推动大模型技术的应用和发展,为Agent等领域带来新的可能性。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...