质疑微软,理解微软
原标题:ViT作者飞机上也要读的改进版Transformer论文,花2个小时详细批注解读分享出来
文章来源:量子位
内容字数:3875字
Lucas Beyer点评微软Differencial Transformer论文:改进Transformer架构的“简单而优雅”尝试
近日,OpenAI研究员Lucas Beyer在其个人社交媒体上发表长文,对一篇来自微软的改进Transformer架构的论文(简称DiffTransformer)进行了深入分析。这篇论文提出了一种名为“Differencial Transformer”的模型,旨在解决Transformer模型信噪比低的问题,其核心思想类似于差分放大电路或降噪耳机,利用两个注意力头的差值来滤除共模噪声。
1. 论文核心思想及Beyer的初步质疑
论文的核心创新点可以用一句话概括:将两个注意力头配对,然后执行(softmax(Q1K1) – λ*softmax(Q2K2)) V,其中λ是一个可学习的标量。 Beyer最初对该方法持保留态度,认为普通的Transformer的多个注意力头应该能够自行学习到这种机制,无需额外设计。
2. Beyer的观点转变及论文细节分析
然而,在与同行交流并重新阅读论文后,Beyer改变了看法。他赞扬了论文中实验的公平性和谨慎性。但他同时指出了一些论文中容易被忽视的细节,例如:DiffAttn实际上并没有对差值重新归一化,λ的计算较为复杂,且缺乏对λ参数的深入分析,以及实验中基线模型选择的合理性存疑等。 Beyer建议论文作者提供更多关于注意力分布、熵、以及λ参数和层归一化影响的图表数据,以增强论文的说服力。
3. 实验结果及Beyer的质疑
论文中大量的实验结果显示,Diff Transformer在某些方面表现优于基线模型StableLM-3B。然而,Beyer对实验结果提出了两点质疑:首先,缩放曲线存在明显的断裂,且使用了不同的学习率;其次,训练数据量相对较小(100亿token)。他认为这些因素可能影响了实验结果的可靠性,并建议提供基于计算量或实际时间的缩放曲线。
4. Diff Transformer的优势及不足
尽管存在一些质疑,Beyer仍然肯定了Diff Transformer在长文本评测和对输入样本顺序的鲁棒性方面的优势。特别是在上下文学习的鲁棒性实验中,Diff Transformer表现出更强的稳定性。但同时,Diff Transformer的推理速度略慢于基线模型(慢5-10%)。
5. 总结与展望
总而言之,Beyer对Diff Transformer的评价是积极的,他认为这项工作展现了比单纯的“两个注意力头相减”更多的潜力,是一个有前景的研究方向。但他同时也强调,需要进一步的研究来验证其在其他任务中的泛化能力和复现性。
6. 关于作者Lucas Beyer
Lucas Beyer是OpenAI的研究员,曾是谷歌的研究员,参与了Vision Transformer的研发。他经常对最新的AI研究发表评论,是一位值得关注的学者。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破