「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验

「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验

原标题:「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验
文章来源:新智元
内容字数:14584字

知识蒸馏在持续学习中的应用综述

本文总结了哈尔滨工业大学和中科院自动化所研究人员发表在IEEE Transactions on Neural Networks and Learning Systems (TNNLS)上的一篇综述论文,该论文系统地探讨了知识蒸馏技术在持续学习中缓解灾难性遗忘问题的应用。

1. 持续学习与灾难性遗忘:持续学习旨在使模型能够连续学习新任务,而不会忘记之前学到的知识。然而,神经网络容易出现灾难性遗忘,即在学习新任务时,对旧任务的性能急剧下降。知识蒸馏(KD)作为一种有效的缓解方法,通过让新模型模仿旧模型的输出,从而保留旧任务的知识。

2. 知识蒸馏在持续学习中的分类:论文提出了一种新的分类方法,将基于知识蒸馏的持续学习方法分为三大范式:

  1. 正则化的知识蒸馏:直接将知识蒸馏作为正则化项,约束模型参数变化,以保持旧任务的知识。这种方法简单直接,但效果通常较弱。

  2. 知识蒸馏与数据回放结合:将知识蒸馏与数据回放技术相结合,从数据和模型两个方面增强记忆保持能力。数据回放通过存储和重放旧任务数据来减轻遗忘。该范式表现较好,但可能存在数据不平衡导致的分类偏差问题。

  3. 知识蒸馏与特征回放结合:无需存储原始数据,通过回放特征信息来保留模型的记忆能力。该范式具有内存效率高,且能缓解分类偏差的优点。

3. 知识来源与蒸馏损失:论文根据知识来源将KD方法分为三个层次:logits级别、特征级别和数据级别。logits级别蒸馏模仿旧模型的输出概率或logit值;特征级别蒸馏模仿中间层的特征表示;数据级别蒸馏则通过生成模型或其他方式对齐数据分布。不同的知识来源和蒸馏损失函数(如交叉熵、KL散度、L1/L2距离、余弦相似度)对最终效果有显著影响。

4. 实验结果与分析:论文在CIFAR-100、TinyImageNet和ImageNet-100数据集上进行了广泛的实验,验证了知识蒸馏在减轻遗忘方面的有效性。实验结果表明,“知识蒸馏与数据回放结合”范式的方法通常表现最佳,但分类偏差可能会削弱知识蒸馏的效果。使用separated softmax损失函数可以有效缓解这个问题。

5. 未来展望:论文展望了基于知识蒸馏的持续学习的未来研究方向,包括:

  1. 高质量知识的知识蒸馏:如何提取和传递更高质量的知识,是提升持续学习效果的关键。

  2. 针对特定任务的知识蒸馏:需要针对不同任务(如目标检测、语义分割等)进行定制化设计。

  3. 更好的教师模型:利用预训练模型(PTM)和大型语言模型(LLM)作为教师模型,可以更有效地指导学生模型学习。

总而言之,该综述论文系统地总结了知识蒸馏在持续学习中的应用,为该领域的研究提供了宝贵的参考,并指出了未来研究的方向。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...