大幅消灭思考过程中的“大抵或许应该”
原标题:Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品
文章来源:量子位
内容字数:6107字
人大清华联手打造Search-o1框架,大幅提升Qwen大模型推理能力
本文介绍了由人民大学和清华大学合作推出的新型搜索增强推理模型框架Search-o1,该框架显著提升了基于开源Qwen-32B-Preview模型的推理能力。文章重点阐述了Search-o1的设计理念、核心组件以及实验结果。
1. 问题与动机:o1模型推理的瓶颈
现有o1类模型在复杂推理任务中表现出色,但存在知识不足的缺陷。当推理步骤过长或模型知识储备不足时,容易出现推理链断裂和错误传递,最终影响答案准确性。研究发现,o1类模型在处理复杂问题时,平均每个推理过程会出现超过30次不确定词汇,例如“或许”、“可能”等,这增加了推理复杂性,也使得人工验证推理过程变得困难。因此,如何在推理过程中自动补充所需知识成为提升大型推理模型可信度的关键。
2. Search-o1框架的设计理念:模拟人类查阅资料的思考过程
Search-o1的解题思路是:在推理过程中,当模型遇到知识缺口时,主动暂停推理,通过搜索引擎检索相关资料,获取所需知识后继续推理。这模拟了人类在思考问题时查阅资料的过程。框架的核心在于将Agentic搜索工作流整合到推理过程中,通过自主知识检索,提升大型推理模型的可靠性和适用性。
3. Search-o1框架的核心组件
Search-o1框架主要包含两个核心组件:
- Reason-in-Documents模块:该模块于主推理链,用于处理Agentic RAG机制检索到的外部知识文档。它会分析文档,生成中间推理序列,并提取与当前推理步骤高度相关的精炼知识,以规定的格式整合到推理链中,确保推理过程简洁、连贯和逻辑一致。
- Agentic RAG机制:该机制赋予模型在推理过程中自主决定何时检索外部知识的能力。模型会生成包含特殊符号的搜索查询,当检测到特定符号时,触发检索函数获取相关文档,并由Reason-in-Documents模块处理后整合回推理链。批量推理时,该机制可以并行处理多个问题,提高效率。
4. 实验结果与结论
在广泛的实验中,Search-o1在11个复杂推理任务(包括科学问答、数学、代码)中的10个任务上超越了原生推理和传统RAG方法。在某些科学问答子领域,Search-o1甚至超越了人类专家。在开放域问答基准测试中,Search-o1在多跳QA任务上表现尤为突出,平均准确率提升近30%。
研究人员认为,Reason-in-Documents模块和Agentic RAG机制的结合,有效解决了模型知识不足的问题,增强了推理模型的可信度和实用性,为构建更可靠、高效的智能系统奠定了基础。Search-o1框架的开源,为相关研究提供了宝贵的资源。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破