MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

MiniMax 拥抱 Agent 时代

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

原标题:MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
文章来源:机器之心
内容字数:7721字

MiniMax 开源超长上下文窗口模型,助力 2025 AI Agent 时代

新年伊始,OpenAI、Meta 和英伟达 CEO 均预测 2025 年将是 AI Agent 的元年。MiniMax 迅速行动,开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01,其核心创新在于首次大规模实现新的线性注意力机制,将上下文窗口扩展至 400 万 token,是其他模型的 20-32 倍,为 Agent 应用爆发奠定基础。

1. MiniMax 模型的创新之处

MiniMax-Text-01 基于 Transformer 架构,其核心创新在于 Lightning Attention 线性注意力机制。该机制通过右边积核技巧,将计算复杂度从二次降到线性,显著提升效率。此外,MiniMax 还采用了 Hybrid-lightning 架构,结合 softmax 注意力,平衡效率和性能。 模型还使用了改进的混合专家 (MoE) 架构,并优化了通信技术,解决大规模 MoE 模型的路由崩溃问题。在训练方面,MiniMax 开发了数据打包技术,减少计算浪费,并针对 Lightning Attention 进行了多项优化。

2. MiniMax-Text-01 的性能表现

MiniMax-Text-01 拥有 32 个专家,总参数量达 4560 亿。在推理时,上下文长度可达 400 万 token。在 HumanEval、GPQA Diamond、MMLU、IFEval 和 Arena-Hard 等基准测试中,其性能与 GPT-4o、Claude 3.5 Sonnet 等闭源模型以及其他 SOTA 开源模型相当甚至超越。尤其在长文本理解任务上,MiniMax-Text-01 的优势显著,在 Ruler 和 LongBench v2 基准测试中,当上下文长度超过 128k 时,其表现远超其他模型。

3. MiniMax-VL-01:视觉语言模型

MiniMax-VL-01 在 MiniMax-Text-01 的基础上,整合了视觉编码器和图像适配器,实现了多模态能力。其架构遵循 ViT-MLP-LLM 范式,并使用专有数据集和多阶段训练策略进行训练。在各个基准测试中,MiniMax-VL-01 的表现与其他 SOTA 模型相当,甚至在某些指标上取得最佳成绩。

4. 超长上下文窗口的意义

MiniMax 认为,足够大的上下文窗口对于 AI Agent 至关重要,可以更充分地同步上下文信息,提升用户体验。400 万 token 的上下文窗口并非终点,MiniMax 正在研究更高效的架构,以实现无限上下文窗口。 多模态能力的加入,也预示着 Agent 将逐步进入物理世界。

MiniMax 的开源模型为 AI Agent 的发展提供了强大的技术支持,也为 2025 年 AI Agent 时代的到来铺平了道路。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止