MoBA在千万tokens量级实现16倍的加速。
原标题:DeepSeek发文,月之暗面跟进!推出MoBA架构,处理百万token速度快6.5倍
文章来源:智东西
内容字数:9155字
月之暗面发布MoBA稀疏注意力框架,实现大模型16倍加速
本文总结了智东西报道的月之暗面团队发布的MoBA稀疏注意力框架论文要点,以及同期发布的Kimi Latest模型。
1. 长文本处理是AGI的关键,现有方案不足
文章指出,处理长文本是实现通用人工智能(AGI)的关键能力。传统的注意力机制计算复杂度高,现有稀疏注意力框架存在可扩展性、成本效益差等问题,难以高效处理百万级上下文长度。
2. MoBA架构:高效的动态注意力选择
月之暗面提出的MoBA(Memory-Based Attention)框架,通过动态选择历史片段(块)来提高Transformer模型处理长序列的效率。它将长序列分割成多个固定大小的块,并通过门控机制动态选择与每个查询token最相关的块,从而实现稀疏注意力。MoBA的设计灵感来源于混合专家(MoE)和稀疏注意力技术,并结合FlashAttention优化计算流程,实现了与全注意力机制相当的效果,同时保持了因果性。
3. 性能与效率的提升
MoBA在处理长达100万tokens的序列时,速度比全注意力快6.5倍;在1000万tokens时,比标准Flash Attention快16倍。在多个基准测试中,MoBA的性能与全注意力模型相当,甚至在某些测试中表现更好,例如RULER基准测试中,MoBA稀疏度高达62.5%,性能却与全注意力模型几乎一致。
4. Kimi Latest模型发布
月之暗面还发布了新模型Kimi Latest,该模型与Kimi智能助手当前使用的模型同步升级,旨在提升开放平台用户体验,并支持自动上下文缓存,缓存命中的Tokens费用仅为1元/百万tokens。Kimi Latest模型支持图片理解和多种功能,但建议根据实际应用场景选择合适的模型。
5. 开源竞赛与未来展望
文章最后提到,在DeepSeek等公司纷纷开源大模型的背景下,月之暗面虽然发布了多个成果,但关注度相对较低。这反映了当前大模型领域竞争的激烈程度。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。