WebThinker

WebThinker – 人民大合智源研究院等机构推出的深度研究智能体

WebThinker

WebThinker是由中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构联合研发的先进智能体。它通过赋予大型推理模型（LRMs）自主进行网络搜索、网页导航以及撰写报告的能力，极大地提升了模型在复杂推理和知识密集型任务中的表现。

WebThinker是什么

WebThinker是一个深度研究智能体，旨在增强大型推理模型（LRMs）的能力，使其在推理过程中能够进行网络搜索、浏览网页并撰写报告。通过采用深度网页探索器和自主思考、搜索、写作策略，WebThinker使LRMs能够动态获取信息，并实时生成高质量的研究报告。此外，基于强化学习的训练策略，WebThinker进一步提高了工具使用效率，使其在复杂推理和报告生成任务中表现卓越，显著增强了LRMs在知识密集型任务中的可靠性与实用性。

WebThinker的主要功能

自主决策：LRM能够在推理过程中判定何时需要外部信息及更新报告。
深度探索：支持多步骤搜索和页面导航，深入挖掘信息。
动态撰写：模型可以实时撰写和修改报告，配备专业工具集（如写作、检查与编辑），确保报告内容的连贯性和完整性。
工具优化：提高LRM对研究工具的使用效率，优化研究过程。

WebThinker的技术原理

深度网页探索器（Deep Web Explorer）：使LRM具备超越传统搜索的能力，能够通过点击链接和交互元素在网页间灵活导航，深入获取信息。模型自主决定搜索查询，持续探索直至收集到充分信息并返回精炼的总结。
基于强化学习的训练策略：采用迭代式在线直接偏好优化（DPO）训练，提升LRM对研究工具（包括搜索、导航和报告撰写工具）的利用效率，构建偏好数据集，优先选择能得出准确答案和高质量报告的推理路径。
运行模式：在问题解决模式中，LRM配备深度网页探索器来解决复杂问题；而在报告生成模式中，LRM具备写作、检查和编辑能力，能够在思考和搜索的同时，迭代撰写全面的研究报告。