比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

让训练token骤减！

原标题：比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架
文章来源：机器之心
内容字数：5522字

Meta提出新型预训练框架CoCoMix：超越“下一个token预测”范式

大型语言模型（LLMs）的最新进展主要基于“下一个token预测”的范式，然而这种方法依赖于表层token，限制了模型对高级推理和长期任务的处理能力。Meta等机构的研究者提出了一种新颖的预训练框架：连续概念混合（CoCoMix），旨在超越这一局限。

1. CoCoMix的核心思想

CoCoMix将离散的“下一个token预测”与连续概念相结合。它利用预训练的稀疏自编码器（SAE）提取语义概念，并根据归因分数选择对模型输出影响最大的概念。模型通过交叉熵损失预测这些概念，并将预测的概念压缩成单个连续概念，与token隐藏表示交错混合到模型的隐藏状态中，直接参与“下一个token预测”。

2. CoCoMix的有效性验证

研究者在多个语言建模基准和不同规模的模型上评估了CoCoMix的有效性，主要从以下几个方面进行验证：

性能提升：CoCoMix在各种规模的模型上都显著提高了下游任务的性能。例如，在1.38B规模的模型上，CoCoMix在减少21.5%训练token的情况下，实现了与标准“下一个token预测”相当的性能，展现了高采样效率。
弱到强监督场景改进：CoCoMix在弱到强监督的场景中表现出色，从小模型中提取的概念可以有效地指导大模型的训练。
可解释性和可操纵性：CoCoMix具有良好的可解释性和可操纵性。通过分析模型预测的概念，可以了解模型的关注点；通过调整概念的激活强度，可以控制模型的输出。
组件有效性分析：研究者对CoCoMix的各个组件进行了详细分析，验证了归因分数、概念预测、压缩权重等设计选择的有效性。

3. CoCoMix与其他方法的比较

研究者将CoCoMix与知识蒸馏（KD）方法进行了比较。结果表明，CoCoMix在弱到强监督的场景中，特别是当学生模型能力超过教师模型时，性能显著优于KD。这是因为CoCoMix选择性地利用有用的概念，避免了KD中可能出现的噪声或次优知识的影响。

4. 总结

CoCoMix通过结合概念学习和交错技术，有效地提升了LLM预训练的效率和性能。它不仅在性能上超越了传统的“下一个token预测”方法，还在可解释性和可操纵性方面展现了优势，为LLM预训练提供了新的方向。这项工作也进一步巩固了Meta在大型概念模型研究方面的领先地位。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # Transformer预训练 # 模型压缩 # 知识蒸馏 # 连续概念混合 # 高效预训练

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

让训练token骤减！

Meta提出新型预训练框架CoCoMix：超越“下一个token预测”范式

1. CoCoMix的核心思想

2. CoCoMix的有效性验证

3. CoCoMix与其他方法的比较

4. 总结

联系作者

当微信杠上 DeepSeek：这波操作让 AI 圈彻底炸锅了！

新版GPT-4o登顶大模型榜首！意识觉醒疯狂「暴走」，竟要与人类开战

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点