比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

让训练token骤减!

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

原标题:比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
文章来源:机器之心
内容字数:5522字

Meta提出新型预训练框架CoCoMix:超越“下一个token预测”范式

大型语言模型(LLMs)的最新进展主要基于“下一个token预测”的范式,然而这种方法依赖于表层token,限制了模型对高级推理和长期任务的处理能力。Meta等机构的研究者提出了一种新颖的预训练框架:连续概念混合(CoCoMix),旨在超越这一局限。

1. CoCoMix的核心思想

CoCoMix将离散的“下一个token预测”与连续概念相结合。它利用预训练的稀疏自编码器(SAE)提取语义概念,并根据归因分数选择对模型输出影响最大的概念。模型通过交叉熵损失预测这些概念,并将预测的概念压缩成单个连续概念,与token隐藏表示交错混合到模型的隐藏状态中,直接参与“下一个token预测”。

2. CoCoMix的有效性验证

研究者在多个语言建模基准和不同规模的模型上评估了CoCoMix的有效性,主要从以下几个方面进行验证:

  1. 性能提升:CoCoMix在各种规模的模型上都显著提高了下游任务的性能。例如,在1.38B规模的模型上,CoCoMix在减少21.5%训练token的情况下,实现了与标准“下一个token预测”相当的性能,展现了高采样效率。
  2. 弱到强监督场景改进:CoCoMix在弱到强监督的场景中表现出色,从小模型中提取的概念可以有效地指导大模型的训练。
  3. 可解释性和可操纵性:CoCoMix具有良好的可解释性和可操纵性。通过分析模型预测的概念,可以了解模型的关注点;通过调整概念的激活强度,可以控制模型的输出。
  4. 组件有效性分析:研究者对CoCoMix的各个组件进行了详细分析,验证了归因分数、概念预测、压缩权重等设计选择的有效性。

3. CoCoMix与其他方法的比较

研究者将CoCoMix与知识蒸馏(KD)方法进行了比较。结果表明,CoCoMix在弱到强监督的场景中,特别是当学生模型能力超过教师模型时,性能显著优于KD。这是因为CoCoMix选择性地利用有用的概念,避免了KD中可能出现的噪声或次优知识的影响。

4. 总结

CoCoMix通过结合概念学习和交错技术,有效地提升了LLM预训练的效率和性能。它不仅在性能上超越了传统的“下一个token预测”方法,还在可解释性和可操纵性方面展现了优势,为LLM预训练提供了新的方向。这项工作也进一步巩固了Meta在大型概念模型研究方面的领先地位。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...