150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory
关键字：模型,解读,路由,专家,论文
文章来源：新智元
内容字数：4374字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】前几天，普林斯顿大合Meta在arXiv上发表了他们最新的研究成果——Lory模型，论文提出构建完全可微的MoE模型，是一种预训练自回归语言模型的新方法。不同于大多数模型使用字母缩略起名，论文作者在脚注中解释道，Lory是一种羽毛有彩虹颜色的鹦鹉，和「软MoE」的精神非常相似。
论文的作者团队也可以称之为「明星阵容」。
论文地址：https://arxiv.org/abs/2405.03133
主要作者之一陈丹琦是普林斯顿大学计算机科学系的助理教授，也是普林斯顿NLP小组共同之一。她本科毕业于清华大学姚班，2018年在斯坦福大学获得博士学位，导师是大名鼎鼎的Christopher Manning。
斯坦福教授、NLP领域泰斗Dan Jurafsky曾这样评价她：「她在发现重要的研究问题上很有品位。她已经对该领域产生了非凡的影响，并且她的影响只会越来越大。」
Mike Lewis是Meta AI的一名研究科学家，他领导了Meta刚发布的大语言模型Llama 3的预训练工作。
他此前曾发表过多项有影响力的研究成果，包括Bart、Robe

原文链接：150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory