颠覆传统:腾讯优图与中科大携手推出全新模型知识蒸馏SOTA!

AIGC动态4小时前发布 量子位
0 0 0

一种基于Sinkhorn距离的知识蒸馏方法

颠覆传统:腾讯优图与中科大携手推出全新模型知识蒸馏SOTA!

原标题:模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
文章来源:量子位
内容字数:6619字

基于Sinkhorn距离的知识蒸馏新方法SinKD

最近,中科大和腾讯优图实验室提出了一种新的知识蒸馏方法SinKD,旨在通过Sinkhorn距离来改善大语言模型(LLMs)向小模型的知识转移。这一方法能够在不同类型和架构的LLMs上实现更优秀的性能,超越了现有的最先进技术(SOTA)。

1. 研究背景

知识蒸馏(KD)是一种通过对教师模型的输出进行软目标对齐,将其知识传递给学生模型的技术。传统的KD方法主要依赖于KL散度、RKL散度和JS散度等度量,这些方法在模型输出差异较大时表现不佳,容易导致学生模型学习到过于平滑或低估稀有事件的概率。

2. SinKD的优势

SinKD采用了Sinkhorn距离作为新的散度度量,克服了传统KD方法的局限性。Sinkhorn距离能够更准确地衡量教师和学生模型之间的差异,避免了KL散度的非对称性,以及模式崩溃与模式平均的问题。此外,SinKD通过批量重构捕捉样本分布的几何复杂性,使得模型在高维空间中更具适应性。

3. 方法介绍

SinKD方法的核心在于使用批量化的Sinkhorn距离来进行知识蒸馏。该方法通过定义一个包含多个样本的批次来整体参与散度度量,显著提高了对复杂分布的捕捉能力。此外,SinKD还适用于回归任务及独热标签微调,从而扩展了其应用范围。

4. 实验与结果

在GLUE和SuperGLUE等多个自然语言处理任务上,SinKD显示出显著的性能提升,相较于基线和当前SOTA方法,均取得了更好的结果。消融实验表明,Sinkhorn损失对学生模型的提升作用最大,批量化的SinKD优于逐样本的KD方法。

5. 总结与展望

SinKD方法不仅解决了现有知识蒸馏技术的不足,还通过批量化重构增强了模型的表现。研究表明,SinKD在各种任务和模型架构中表现优异,未来将有望在计算机视觉等其他领域进一步应用。

如需了解更多细节,请查阅原论文链接。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...