标签:路由

深度揭秘:Meta工程师如何构建超大规模AI训练网络?

新智元报道编辑:乔杨 【新智元导读】最近,Meta的多个工程团队联合发表了一篇论文,描述了在引入基于GPU的分布式训练时,他们如何为其「量身定制」专用的数...
阅读原文

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

新智元报道编辑:乔杨 好困 【新智元导读】前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是...
阅读原文

DeepMind升级Transformer,前向通过FLOPs最多可降一半

机器之心报道 编辑:Panda W引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这...
阅读原文

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

机器之心专栏 机器之心编辑部2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理...
阅读原文

2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

上交大IPADS实验室 投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了! 上海交大IPADS实验室推出的...
阅读原文

降本提效!阿里提出大模型集成新方法

夕小瑶科技说 原创作者 | 智商掉了一地、Python随着对大型语言模型(LLM)研究的不断深入,越来越多的工作不再局限于模型本身的性能提升,而是更加关注如何在...
阅读原文