这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数
关键字：模型,函数,算法,机,方法
文章来源：机器之心
内容字数：4506字

内容摘要：

机器之心报道
编辑：Panda‍‍还记得去年 11 月底爆出来的 Q* 项目吗？这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下，可参看机器之心当时的报道《全网大讨论：引爆 OpenAI 全员乱斗的 Q * 到底是什么？》简而言之，Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。
近日，斯坦福大学一个团队的一项新研究似乎为这一研究方向的潜力提供了佐证，其声称现在已经取得非凡成就的「语言模型不是一个奖励函数，而是一个 Q 函数！」由此发散思维猜想一下，也许 OpenAI 秘密的 Q* 项目或许真的是造就 AGI 的正确方向（或之一）。论文标题：From r to Q∗: Your Language Model is Secretly a Q-Function
论文地址：https://arxiv.org/pdf/2404.12358.pdf
在对齐大型语言模型（LLM）与人类意图方面，最常用的方法必然是根据人类反馈的强化学习（RLHF）。通过学习基于人类标注的比较的奖励函数，RLHF 能够捕获实践中难以描述的复杂目标。研究者们

原文链接：这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数