原标题:小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控
文章来源:新智元
内容字数:5119字
Meta新研究:超越“下一个token预测”,基于连续概念的LLM预训练框架CoCoMix
Meta团队近期发表了一篇论文,提出了一种名为CoCoMix的下一代大语言模型(LLM)预训练框架,该框架超越了传统的“下一个token预测”(NTP)范式,利用连续概念进行语言建模,从而提高了模型效率和可解释性。
1. “下一个token预测”的局限性
传统的NTP方法依赖于tokenization,这导致LLM在处理非文本信息(例如表情包)或细微的语言差异(例如单词拼写)时存在不足。Meta的研究人员认为,需要一种超越token级别的方法来更有效地捕捉语言的语义信息。
2. CoCoMix:基于连续概念的语言建模
CoCoMix的核心思想是利用稀疏自编码器(SAE)提取高层次的语义概念。该框架包含三个步骤:
从预训练的SAE中提取并选择显著的概念。
LLM从其隐藏状态预测这些概念。
将预测出的多个概念压缩成一个单一的“连续概念”,并将其“混合”到LLM隐藏状态中。
通过这种方式,CoCoMix能够在语句级别上进行语言建模,摆脱了对人类语言类型的依赖。
3. 实验结果与优势
研究人员在多个语言建模基准和不同规模的预训练模型上进行了广泛的评估,结果表明CoCoMix具有显著的优势:
更高的样本效率:与NTP相比,CoCoMix在相同性能下可以减少20%的训练数据量。
优于知识蒸馏:CoCoMix在弱监督到强监督的场景中都表现优于传统的知识蒸馏方法,甚至可以从小模型中提取概念来指导大模型的训练。
可解释性和可操纵性:通过检查概念预测,可以分析模型关注哪些概念,并通过调整概念来控制模型的输出生成。
实验结果图(图2-6)进一步验证了CoCoMix在不同模型规模、不同任务(包括困惑度、准确率等)上的优越性能。
4. 结论
CoCoMix是一种高效且可解释的LLM预训练框架,它超越了传统的NTP方法,利用连续概念进行语言建模,在多个方面都展现出优异的性能。该研究为未来的LLM预训练提供了新的方向,并为提高模型的可控性和可解释性提供了新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。