华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA

AIGC动态9个月前发布 量子位
7 0 0

华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA

AIGC动态欢迎阅读

原标题:华为改进Transformer架构盘古-π解决特征缺陷问题,同规模性能超LLaMA
关键字:华为,盘古,模型,架构,诺亚方舟
文章来源:量子位
内容字数:3135字

内容摘要:


明敏 发自 凹非寺量子位 | 公众号 QbitAI华为盘古系列,带来架构层面上新!
量子位获悉,华为诺亚方舟实验室等联合推出新型大语言模型架构:盘古-π。
它通过增强非线性,在传统Transformer架构上做出改进,由此可以显著降低特征塌陷问题。
带来的直接效果就是模型输出表达能力更强。
在使用相同数据训练的情况下,盘古-π(7B)在多任务上超越LLaMA 2等同规模大模型,并能实现10%的推理加速。
在1B规模上可达SOTA。
同时还基于这一架构炼出了一个金融法律大模型“云山”。
该工作由AI大牛陶大程领衔。
具体如何实现?一起来看。
利用非线性解决特征塌陷目前常见大模型基本都采用Transformer架构,比如GPT、LLaMA等。
它的核心构成包括多头自注意力机制(MSA)和前馈网络(FFN)。
MSA的主要功能是计算输入序列中每个token和其他所有token之间的相关性,通过学习输入序列中的依赖关系,可以增强对语言的理解能力。FFN主要对输入进行非线性转换,增强模型表达能力,使其可以逼近更复杂的函数。
不过,华为诺亚方舟实验室发现,特征崩溃(feature collapse


原文链接:华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...