一种基于Sinkhorn距离的知识蒸馏方法
基于Sinkhorn距离的知识蒸馏新方法SinKD
最近,中科大和腾讯优图实验室提出了一种新的知识蒸馏方法SinKD,旨在通过Sinkhorn距离来改善大语言模型(LLMs)向小模型的知识转移。这一方法能够在不同类型和架构的LLMs上实现更优秀的性能,超越了现有的最先进技术(SOTA)。
1. 研究背景
知识蒸馏(KD)是一种通过对教师模型的输出进行软目标对齐,将其知识传递给学生模型的技术。传统的KD方法主要依赖于KL散度、RKL散度和JS散度等度量,这些方法在模型输出差异较大时表现不佳,容易导致学生模型学习到过于平滑或低估稀有事件的概率。
2. SinKD的优势
SinKD采用了Sinkhorn距离作为新的散度度量,克服了传统KD方法的局限性。Sinkhorn距离能够更准确地衡量教师和学生模型之间的差异,避免了KL散度的非对称性,以及模式崩溃与模式平均的问题。此外,SinKD通过批量重构捕捉样本分布的几何复杂性,使得模型在高维空间中更具适应性。
3. 方法介绍
SinKD方法的核心在于使用批量化的Sinkhorn距离来进行知识蒸馏。该方法通过定义一个包含多个样本的批次来整体参与散度度量,显著提高了对复杂分布的捕捉能力。此外,SinKD还适用于回归任务及独热标签微调,从而扩展了其应用范围。
4. 实验与结果
在GLUE和SuperGLUE等多个自然语言处理任务上,SinKD显示出显著的性能提升,相较于基线和当前SOTA方法,均取得了更好的结果。消融实验表明,Sinkhorn损失对学生模型的提升作用最大,批量化的SinKD优于逐样本的KD方法。
5. 总结与展望
SinKD方法不仅解决了现有知识蒸馏技术的不足,还通过批量化重构增强了模型的表现。研究表明,SinKD在各种任务和模型架构中表现优异,未来将有望在计算机视觉等其他领域进一步应用。
如需了解更多细节,请查阅原论文链接。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破