英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快
关键字：向量,矩阵,模型,球面,注意力
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子 LRS
【新智元导读】LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能维持原有精度。AI的未来，或许就此改写……
最近，英伟达团队抛出的一枚重磅，提出了全新神经网络架构——归一化Transformer（nGPT），基于超球面（hypersphere）进行表示学习。
相较于Transformer架构本身，nGPT直接将LLM训练速度提升至高20倍，而且还保持了原有精度。
也就意味着，原本需要一个月完成的训练，在未来可能只需1-2天的时间就能搞定。
无疑为通向AGI终极目标，注入了一针强心剂！
论文地址：https://arxiv.org/pdf/2410.01131
在nGPT中，所有的向量（嵌入、MLP、注意力矩阵、隐藏状态），都被归一化为单位范数（unit norm）。
输入后的token在超球面表面上移动，每一层都通过「位移」来贡献最终的输出预测，其中位移量是由MLP和注意力模块进行定义的，其向量组件都位于同一个超球面上。
实验表明，nGPT达到相同精度所需的训练步骤

原文链接：英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快