OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务
关键字：模型,基线,过程,提示,链式
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAIOpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。
不限于推理性的逻辑或数学任务，一般问答也能思考的那种。
最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。
论文一作为华人学者Tianhao Wu，导师之一是2011年清华特奖得主焦剑涛。
团队提出了一种称作思考偏好优化（Thought Preference Optimization）的方法，能让模型像OpenAI-o1一样，通过内部“思考”输出更好答案，最终只显示结果，不展示思考过程。
TPO将思维链式提示/推理融入训练中：
在回答之前，用思维链式方法进行思考；使用一个LLM评判来评估响应（不包括由LLM生成的想法）；根据被拒绝和优选的响应形成偏好对进行DPO（包括这些响应中的想法）。
基于Llama 3 8B Instruct的结果表明，TPO效果相当好。
有意思的是，如果添加了思维提示，但Llama 3 8B Instruct基础模型没有在偏好对上经历DPO微调，那么这个基础模型的性能会比没有思维

原文链接：OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好优化，不限于推理任务