挑战Transformer，华为诺亚新架构盘古π来了，已有1B、7B模型

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：挑战Transformer，华为诺亚新架构盘古π来了，已有1B、7B模型
关键字：模型,盘古,架构,特征,华为
文章来源：机器之心
内容字数：10194字

内容摘要：

机器之心专栏
机器之心编辑部5 年前，Transformer 在国际神经信息处理大会 NeurIPS 2017 发表，后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。
1 年前，一项重大的创新引起了人们的广泛关注，那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 任务，还能以人类对话的方式与人类进行互动，产生了深远的影响。
1 年以来，“百模大战” 在业界激烈开展，诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型，推动了 LLM 领域的快速发展。除了通用 LLM，为了支撑更多行业的应用和商业变现，很多行业垂域大模型也涌现出来，特别是金融、法律和医疗等领域尤为活跃。
开发一个卓越的 LLM，就如同进行一项复杂的系统工程，其中包括数据准备、数据清理、模型架构设计、集群通信以及优化器的选择。在 2022-2023 年的最新项目中，大部分大模型都是基于标准的 Transformer 架构进行开发，主要在数据工程、训练策略上进行不同的优化。模型架构设计，作为其中至关重要的一环，决定了 LLM 的最大性能潜力，并没有在业界引起足够的重视。
近日，来

原文链接：挑战Transformer，华为诺亚新架构盘古π来了，已有1B、7B模型