让训练token骤减!
原标题:比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
文章来源:机器之心
内容字数:5522字
Meta提出新型预训练框架CoCoMix:超越“下一个token预测”范式
大型语言模型(LLMs)的最新进展主要基于“下一个token预测”的范式,然而这种方法依赖于表层token,限制了模型对高级推理和长期任务的处理能力。Meta等机构的研究者提出了一种新颖的预训练框架:连续概念混合(CoCoMix),旨在超越这一局限。
1. CoCoMix的核心思想
CoCoMix将离散的“下一个token预测”与连续概念相结合。它利用预训练的稀疏自编码器(SAE)提取语义概念,并根据归因分数选择对模型输出影响最大的概念。模型通过交叉熵损失预测这些概念,并将预测的概念压缩成单个连续概念,与token隐藏表示交错混合到模型的隐藏状态中,直接参与“下一个token预测”。
2. CoCoMix的有效性验证
研究者在多个语言建模基准和不同规模的模型上评估了CoCoMix的有效性,主要从以下几个方面进行验证:
- 性能提升:CoCoMix在各种规模的模型上都显著提高了下游任务的性能。例如,在1.38B规模的模型上,CoCoMix在减少21.5%训练token的情况下,实现了与标准“下一个token预测”相当的性能,展现了高采样效率。
- 弱到强监督场景改进:CoCoMix在弱到强监督的场景中表现出色,从小模型中提取的概念可以有效地指导大模型的训练。
- 可解释性和可操纵性:CoCoMix具有良好的可解释性和可操纵性。通过分析模型预测的概念,可以了解模型的关注点;通过调整概念的激活强度,可以控制模型的输出。
- 组件有效性分析:研究者对CoCoMix的各个组件进行了详细分析,验证了归因分数、概念预测、压缩权重等设计选择的有效性。
3. CoCoMix与其他方法的比较
研究者将CoCoMix与知识蒸馏(KD)方法进行了比较。结果表明,CoCoMix在弱到强监督的场景中,特别是当学生模型能力超过教师模型时,性能显著优于KD。这是因为CoCoMix选择性地利用有用的概念,避免了KD中可能出现的噪声或次优知识的影响。
4. 总结
CoCoMix通过结合概念学习和交错技术,有效地提升了LLM预训练的效率和性能。它不仅在性能上超越了传统的“下一个token预测”方法,还在可解释性和可操纵性方面展现了优势,为LLM预训练提供了新的方向。这项工作也进一步巩固了Meta在大型概念模型研究方面的领先地位。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...