原标题:全面超越CoT!Meta田渊栋团队新作:连续思维链
文章来源:新智元
内容字数:5433字
Meta田渊栋团队提出新型LLM推理范式:连续思维链(Coconut)
Meta田渊栋团队近期发表论文,提出了一种名为Coconut(Chain of Continuous Thought)的新型大语言模型 (LLM) 推理范式,旨在提升LLM在推理任务中的性能和效率。该方法的核心思想是摒弃传统的基于人类语言的思维链 (CoT),直接在连续的潜在空间中进行推理,从而避免了语言表达的低效性和局限性。
连续思维链的核心思想
传统的CoT方法将推理过程转化为人类可理解的语言步骤,这在实际应用中效率低下。Coconut则直接利用LLM的中间状态进行自回归推理,只在最终输出答案时才转换为人类语言。这种方法避免了在语言空间中进行推理的低效性,并允许模型在潜在空间中进行更、更有效的推理。
Coconut的优势
与CoT相比,Coconut在性能上不相上下,但在token数量上减少了好几倍,显著提升了推理效率。这是因为Coconut避免了将推理过程转化为人类语言的冗余步骤,直接在潜在空间中进行推理。 此外,连续思维链允许模型同时编码多个可能的后续步骤,类似于广度优先搜索 (BFS),从而能够探索更多可能的推理路径,并逐步消除错误的选项。
Coconut的训练过程
Coconut采用多阶段训练策略,利用语言CoT数据进行监督学习。初始阶段,模型在常规CoT实例上进行训练。后续阶段,逐渐用连续思维替换CoT中的语言推理步骤。训练过程中,模型优化负对数似然损失,但屏蔽了问题和潜在思维的损失,鼓励模型学习更有效的推理步骤表示。连续思维的完全可微性允许进行端到端优化。
实验结果与分析
研究人员在三个数据集(GSM8k、ProntoQA和ProsQA)上进行了实验,结果表明Coconut在ProntoQA和ProsQA数据集上表现出优于CoT的性能,同时保持了高效率。实验还分析了不同推理方法的准确性、推理效率以及“幻觉”和“错误目标”的发生率,结果表明连续思维链能够有效提升规划能力,减少错误。
未来展望
尽管Coconut的训练效率仍有优化空间,但其提出的连续潜在空间推理范式为LLM的推理能力提升提供了新的方向。未来研究可以进一步优化训练过程,探索更有效的连续思维表示方法,以及在更多复杂任务中应用该方法。
总而言之,Coconut代表了LLM推理范式的一次重要革新,它通过在连续潜在空间中进行推理,显著提升了LLM的推理效率和性能,为未来LLM的发展提供了新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。