ICML2024高分!魔改注意力,让小模型能打两倍大的模型

AIGC动态5个月前发布 量子位
8 0 0

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

AIGC动态欢迎阅读

原标题:ICML2024高分!魔改注意力,让小模型能打两倍大的模型
关键字:注意力,模型,矩阵,动态,回路
文章来源:量子位
内容字数:0字

内容摘要:


彩云科技团队 投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力,让小模型能打两倍大的模型!
ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。
DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。
可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。
DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。
这项工作由来自北京邮电大学、AI创业公司彩云科技的研究人员共同完成。
研究人员用在DCFormer基础上打造的模型DCPythia-6.9B,在预训练困惑度和下游任务评估上都优于开源Pythia-12B。
DCFormer模型在性能上与那些计算量是其1.7-2倍的Transformer模型相当。
多头注意力模块有何局限?大模型的scaling la


原文链接:ICML2024高分!魔改注意力,让小模型能打两倍大的模型

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...