OpenAI的Weak-to-Strong在说什么

AIGC动态2年前 (2023)发布算法邦

AIGC动态欢迎阅读

原标题：OpenAI的Weak-to-Strong在说什么
关键字：模型,人类,数据,任务,效果
文章来源：算法邦
内容字数：5149字

内容摘要：

前阵子OpenAI新成立的SuperAlignment放出了他们的第一篇工作[1]，虽然没有带来太多震撼，只是验证了一个简单的直觉：用弱一点的模型标注数据，精调更强的基模型，得到的效果好于弱模型本身。
但通过上面的结论，就可以推断出：用人类标注的数据，精调强于人类的基模型，就能超越人类了。这就是OpenAI的风格，论文看着也没说啥，只是说了一个小规律，但如果把这个小规律scale起来，就大力出奇迹了。
不过这篇文章跟之前SuperAlignment放出的计划还是有些区别，也没我预期那么fancy（我不配），下面先简要介绍下这篇文章的重点结论，再聊下个人观后感。
01Weak-to-Strong讲了啥这篇文章主要是验证：用弱模型的输出训强基座，是否能产生大于弱模型的效果？
作者的做法很简单：
用监督数据训一个弱模型，作为基线
用弱模型产生label，训练强模型
用监督数据训strong模型，作为天花板
在NLP任务上，得到的效果很理想，精调出的模型好于弱模型，且效果会随着弱模型尺寸、强模型尺寸的提升而提升。但问题马上就来了，在chess puzzles、reward modeling这两

原文链接：OpenAI的Weak-to-Strong在说什么