AIGC动态欢迎阅读
原标题:OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务
关键字:模型,基线,过程,提示,链式
文章来源:量子位
内容字数:0字
内容摘要:
西风 发自 凹非寺量子位 | 公众号 QbitAIOpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。
不限于推理性的逻辑或数学任务,一般问答也能思考的那种。
最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。
论文一作为华人学者Tianhao Wu,导师之一是2011年清华特奖得主焦剑涛。
团队提出了一种称作思考偏好优化(Thought Preference Optimization)的方法,能让模型像OpenAI-o1一样,通过内部“思考”输出更好答案,最终只显示结果,不展示思考过程。
TPO将思维链式提示/推理融入训练中:
在回答之前,用思维链式方法进行思考;使用一个LLM评判来评估响应(不包括由LLM生成的想法);根据被拒绝和优选的响应形成偏好对进行DPO(包括这些响应中的想法)。
基于Llama 3 8B Instruct的结果表明,TPO效果相当好。
有意思的是,如果添加了思维提示,但Llama 3 8B Instruct基础模型没有在偏好对上经历DPO微调,那么这个基础模型的性能会比没有思维
原文链接:OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...