AIGC动态欢迎阅读
原标题:这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
关键字:报告,注意力,上下文,模型,团队
文章来源:机器之心
内容字数:0字
内容摘要:
机器之心报道
编辑:PandaTransformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的 Reformer 和 Infini-Transformer。
今天我们又将介绍另一种新型 Transformer 架构:Differential Transformer(差分 Transformer,简称 Diff Transformer)。该架构来自微软研究院和清华大学,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。论文标题:Differential Transformer
论文地址:https://arxiv.org/pdf/2410.05258
在 Hacker News 及 Twitter 等社交网络上,该论文都反响热烈,有网友表示差分 Transformer 提出的改进简单又美丽,而带来的提升又非常显著。甚至已有开发者做出了差分 Transformer 的轻量实现!差分 Transformer 的轻量实现,https://github.com/
原文链接:这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
联系作者
文章来源:机器之心
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...