AIGC动态欢迎阅读
原标题:非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造
关键字:模型,人工智能,架构,团队,神经网络
文章来源:量子位
内容字数:0字
内容摘要:
西风 发自 凹非寺量子位 | 公众号 QbitAI挑战Transformer,MIT初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。
LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。
LFM架构还有很好的可扩展性,团队还推出了基于MoE的LFM 40B(激活12B参数),能与更大规模的密集模型或MoE模型相媲美。
LFM用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。
这种架构还有一个特点:在内存效率方面特别强。
基于Transformer的LLM中的KV缓存在长上下文中会急剧增长,而LFM即使在处理100万个token时也能保持内存最小。
小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。
LFM模型背后是一支MIT计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。
其后训练负责人Maxime Labonne在X上为自家模型疯狂打Call:
这三个具有SOTA性能的模型,是我职业生涯中最值得骄傲的版
原文链接:非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...