非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造
关键字：模型,人工智能,架构,团队,神经网络
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAI挑战Transformer，MIT初创团队推出LFM（Liquid Foundation Model）新架构模型爆火。
LFM 1.3B、LFM 3B两个不同大小的模型，性能超越同等规模Llama3.2等Transformer模型。
LFM架构还有很好的可扩展性，团队还推出了基于MoE的LFM 40B（激活12B参数），能与更大规模的密集模型或MoE模型相媲美。
LFM用的是一种液态神经网络（LNN），从第一性原理出发而构建，其计算单元植根于动态系统理论、信号处理和数值线性代数。
这种架构还有一个特点：在内存效率方面特别强。
基于Transformer的LLM中的KV缓存在长上下文中会急剧增长，而LFM即使在处理100万个token时也能保持内存最小。
小巧便携，使得它能够直接部署在手机上进行文档和书籍等分析。
LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队，名叫Liquid AI。
其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call：
这三个具有SOTA性能的模型，是我职业生涯中最值得骄傲的版

原文链接：非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造