少样本轻量化：多个小模型互学习会比大模型好么？

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：少样本轻量化：多个小模型互学习会比大模型好么？
关键字：模型,视图,学生,数据,框架
文章来源：AI前线
内容字数：9558字

内容摘要：

来源 | ACTBIGDATA
作者 |毛乾任、蒋为峰等背景
大型预训练语言模型（PLM），如 BERT、GPT-3，在自然语言处理应用的发展中扮演着至关重要的角色。为了将这些 PLM 应用于广泛的下游任务中，我们需要对其进行微调，以便将预训练阶段的知识泛化到具体的任务中去。然而，尽管预训练和下游任务微调的范式为自然语言处理任务带来了显著的进步，在现实应用中，我们仍会面对一些资源上的限制，这就需要低资源技术的参与。例如，半监督学习解决了标注样本有限的挑战，而知识蒸馏（KD）则帮助缓解计算资源上的限制。
本文讨论了一种满足这两种低资源场景的技术策略，能够同时应对标注样本有限和计算资源受限设备的挑战。然而，直接将半监督学习与知识蒸馏结合起来存在挑战。首先，较浅的网络通常具有有限的模型容量，从而使得其相比于大型 PLM 更难优化。此外，有限的标注数据进一步限制了小模型有效优化的能力。
为了应对这些挑战，我们提出了半监督协同训练框架 DisCo（Distilled Student Models Co-training for Semi-supervised Text Mining）。该框架

原文链接：少样本轻量化：多个小模型互学习会比大模型好么？