150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

AIGC动态6个月前发布 新智元
21 0 0

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

AIGC动态欢迎阅读

原标题:150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
关键字:模型,解读,路由,专家,论文
文章来源:新智元
内容字数:4374字

内容摘要:


新智元报道编辑:乔杨 好困
【新智元导读】前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。不同于大多数模型使用字母缩略起名,论文作者在脚注中解释道,Lory是一种羽毛有彩虹颜色的鹦鹉,和「软MoE」的精神非常相似。
论文的作者团队也可以称之为「明星阵容」。
论文地址:https://arxiv.org/abs/2405.03133
主要作者之一陈丹琦是普林斯顿大学计算机科学系的助理教授,也是普林斯顿NLP小组共同领导人之一。她本科毕业于清华大学姚班,2018年在斯坦福大学获得博士学位,导师是大名鼎鼎的Christopher Manning。
斯坦福教授、NLP领域泰斗Dan Jurafsky曾这样评价她:「她在发现重要的研究问题上很有品位。她已经对该领域产生了非凡的影响,并且她的影响只会越来越大。」
Mike Lewis是Meta AI的一名研究科学家,他领导了Meta刚发布的大语言模型Llama 3的预训练工作。
他此前曾发表过多项有影响力的研究成果,包括Bart、Robe


原文链接:150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...