AIGC动态欢迎阅读
原标题:OpenAI的Weak-to-Strong在说什么
关键字:模型,人类,数据,任务,效果
文章来源:算法邦
内容字数:5149字
内容摘要:
前阵子OpenAI新成立的SuperAlignment放出了他们的第一篇工作[1],虽然没有带来太多震撼,只是验证了一个简单的直觉:用弱一点的模型标注数据,精调更强的基模型,得到的效果好于弱模型本身。
但通过上面的结论,就可以推断出:用人类标注的数据,精调强于人类的基模型,就能超越人类了。这就是OpenAI的风格,论文看着也没说啥,只是说了一个小规律,但如果把这个小规律scale起来,就大力出奇迹了。
不过这篇文章跟之前SuperAlignment放出的计划还是有些区别,也没我预期那么fancy(我不配),下面先简要介绍下这篇文章的重点结论,再聊下个人观后感。
01Weak-to-Strong讲了啥这篇文章主要是验证:用弱模型的输出训强基座,是否能产生大于弱模型的效果?
作者的做法很简单:
用监督数据训一个弱模型,作为基线
用弱模型产生label,训练强模型
用监督数据训strong模型,作为天花板
在NLP任务上,得到的效果很理想,精调出的模型好于弱模型,且效果会随着弱模型尺寸、强模型尺寸的提升而提升。但问题马上就来了,在chess puzzles、reward modeling这两
原文链接:OpenAI的Weak-to-Strong在说什么
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...