人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈
关键字：模型,人类,语言,自我,算法
文章来源：机器之心
内容字数：5143字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.comRichard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」
自我博弈（self play）就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。
今年年初，加利福尼亚大学洛杉矶分校（UCLA）的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN)，可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。
最近，顾全全教授团队和卡内基梅隆大学（CMU）Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化（Self-Play Preference Op

原文链接：人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈