小模型性能饱和、表现不佳，根源是因为Softmax?

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：小模型性能饱和、表现不佳，根源是因为Softmax?
关键字：模型,维度,表征,各向异性,语言
文章来源：机器之心
内容字数：7685字

内容摘要：

机器之心报道
编辑：陈萍小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点，但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象)，那么这个现象的原因是什么？是否可以克服并利用它去提升小语言模型的性能？语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中，使用这样的模型进行训练和推断可能会成本高昂，这促使人们使用较小的替代模型。然而，已经观察到较小的模型可能会出现饱和现象，表现为在训练的某个高级阶段性能下降并趋于稳定。
最近的一篇论文发现，这种饱和现象可以通过较小模型的隐藏维度与目标上下文概率分布的高秩之间的不匹配来解释。这种不匹配通过著名的 softmax 瓶颈现象影响了这些模型中使用的线性预测头的性能。论文链接：https://arxiv.org/pdf/2404.07647.pdf
本文在不同设置下衡量了 softmax 瓶颈的影响，并发现基于小于 1000 个隐藏维度的模型往往在预训练的后期采用退化的潜在表征，从而导致评估性能降低。
简介
表征退化问题是影响用于文本数据的自监督学习方法等多种模态的常见现象。对语言模型的中间表征

原文链接：小模型性能饱和、表现不佳，根源是因为Softmax?