OpenAI“最后一篇”超级对齐论文发布：大小模型相互博弈，输出可读性up

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：OpenAI“最后一篇”超级对齐论文发布：大小模型相互博弈，输出可读性up
关键字：准确率,模型,人类,团队,解法
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI让大小模型相互博弈，就能实现生成内容可读性的提升！
这是来自OpenAI的正经研究，目标就是在保证准确率的同时，让模型输出更容易被人理解。
用这种方法训练之后，人类对模型输出的判断准确率明显增长，速度也变得更快了。
这项研究出自OpenAI已解散的“超级对齐”团队，模仿了多伦多大学学者与2021年提出的“证明者-验证者”（Prover-Verifier）博弈。
在训练过程中，OpenAI让大模型担任“证明者”，小模型作为“验证者”，让这两种身份展开一场相互较量。
最终，大模型输出的结果不仅更易理解，自身的准确率也没有明显损失，小模型的判断水平也提高了。
甚至论文作者之一、OpenAI研究员Yining Chen表示，这种方法“有可能使未来的模型比人类更聪明”。
值得一提的是，超级对齐团队原负责人、RLHF作者Jan Leike也参与了这项研究，他离职时曾炮轰OpenAI不重视安全。
不过，Jan Leike介绍这篇论文的推文最后，是给现在所在的Anthropic（Claude厂家）打广告招兵买马。
论文的另一名作者、OpenAI研究人

原文链接：OpenAI“最后一篇”超级对齐论文发布：大小模型相互博弈，输出可读性up