推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

AIGC动态24小时前发布 量子位
0 0 0

测试时计算Scaling Law已验证

推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

原标题:推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考
文章来源:量子位
内容字数:2493字

开源推理大模型Huginn:抛弃长思维链,在高维潜空间推理

近日,来自马克思普朗克研究所、马里兰大学等团队的研究人员提出了一种全新的开源推理大模型架构——Huginn,该架构与Deepseek-R1和OpenAI o1等模型截然不同,它抛弃了依赖长思维链和人类语言的推理方式,转而直接在连续的高维潜空间中进行推理。

1. 核心创新:潜空间推理 Huginn模型的核心创新在于其在高维潜空间中进行推理。模型通过对输入数据进行嵌入,将其映射到一个高维的潜在空间,然后在这个空间中利用循环计算单元来修改状态,最终从潜空间解码得到预测结果。这种方法允许模型自适应地花费更多计算来思考更长时间,并能捕捉到难以用语言表达的推理类型。

2. 模型架构:三段式设计 Huginn的架构由三部分组成:Prelude(前奏)、Recurrent Block(循环块)和Coda(尾声)。Prelude将输入数据嵌入到潜空间;Recurrent Block是循环计算单元,在潜空间中迭代修改状态,并自适应调整迭代次数;Coda则从潜空间解码,并包含模型的预测头。

3. 推理轨迹可视化:独特的几何模式 研究人员通过可视化模型在潜空间中的推理轨迹,发现模型对不同token的处理方式存在差异。对于一些简单token,隐状态会快速收敛到稳定点;而对于关键token(例如数学问题中的数字),隐状态会形成复杂的圆形轨道;还有一些token的隐状态会沿特定方向“滑动”,可能用于计数循环次数。这些丰富的几何模式表明模型正在学习利用潜空间的高维性质以新的方式进行推理。

4. 优势与效率:无需特殊训练数据,计算效率高 Huginn模型具有以下几个优势:无需任何专门的训练数据;可以在很小的上下文窗口下工作;能够捕捉到难以用语言表达的推理类型。此外,尽管模型在训练时计算量相当于传统的32B模型,但其3.5B参数的规模却能与7B参数的模型相媲美,展现了其高效的计算能力。

5. 训练细节:超算助力,一次性训练 Huginn模型使用了美国橡树岭实验室的Frontier超算进行训练,使用了8个AMD GPU节点(4096块GPU),没有使用英伟达体系。研究团队只进行了一次大规模训练,在800B tokens数据上预训练了一个3.5B参数的模型,没有进行post/mid-training过程。

6. 未来展望:潜在的应用和研究方向 Huginn模型的出现为大模型推理开辟了新的方向,其在潜空间中进行推理的方法也引发了业界对OpenAI o3等模型的猜测。一些研究人员已经开始尝试结合Huginn的潜空间推理能力和CoT(思维链)的可读性,探索新的研究方向。

总而言之,Huginn模型的创新之处在于其抛弃了传统的长思维链推理范式,转而采用在高维潜空间中进行推理的新方法。这种方法不仅提高了模型的推理效率和能力,也为未来大模型的研究提供了新的思路和启发。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...