MoBA在千万tokens量级实现16倍的加速。
原标题:杨植麟跟梁文锋,论文撞车!
文章来源:智东西
内容字数:9171字
国产大模型开源竞赛:月之暗面MoBA框架挑战长文本处理瓶颈
本文总结了月之暗面团队最新发布的MoBA稀疏注意力框架论文,以及同期发布的新模型Kimi Latest 的主要内容。 文章重点关注MoBA框架在长文本处理方面的效率提升和性能表现,以及与DeepSeek的NSA框架的对比。
1. 长文本处理的挑战与MoBA的解决方案
文章指出,处理长文本是实现通用人工智能(AGI)的关键,但传统注意力机制的计算复杂度呈二次方增长,限制了大模型处理长序列的能力。现有稀疏注意力框架存在可扩展性、成本效益和泛化能力等问题。月之暗面提出的MoBA框架旨在解决这些问题,它通过动态选择历史片段(块)来提高Transformer模型处理长序列的效率,在保留原始Transformer框架的前提下,实现高效的推理和训练加速,并能在全注意力和稀疏注意力模式之间无缝切换。
2. MoBA框架的核心设计
MoBA框架的核心创新在于其块划分和选择策略。它将长序列分割成多个固定大小的块,并通过门控机制动态选择与每个查询token最相关的块,从而实现稀疏注意力。MoBA借鉴了MoE中细粒度划分的思想,并结合FlashAttention优化计算流程,实现了高效的计算。其主要步骤包括块分配、顺序调整、块级注意力计算、输出重组和在线Softmax组合。
3. MoBA框架的性能表现
实验结果表明,MoBA框架在处理百万级token时,速度比全注意力快6.5倍,在千万级token时,速度比标准Flash Attention快16倍。在多个长上下文基准测试中,MoBA的性能与全注意力模型相当,甚至在部分测试中表现更好。MoBA与全注意力模型的验证损失曲线非常相似,表明其扩展性能与全注意力相当。混合训练策略也进一步提升了MoBA的性能。
4. Kimi Latest模型发布
月之暗面同时发布了新模型Kimi Latest,该模型对标Kimi智能助手当前使用的模型,并随产品更新同步升级。它支持自动上下文缓存,缓存命中的Tokens费用仅为1元/百万tokens,并支持图片理解等功能。Kimi Latest旨在弥合Kimi智能助手和开放平台之间模型的差异,为开发者提供更稳定和一致的模型体验。
5. 国产开源AI竞赛的激烈竞争
文章最后指出,国内大模型赛道正掀起一场开源军备竞赛,月之暗面虽然发布了MoBA框架和Kimi Latest模型,但仍面临来自DeepSeek等其他厂商的激烈竞争。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。