大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间

关键字：模型,基础,团队,能力,示例

文章来源：量子位

内容字数：4668字

内容摘要：梦晨发自凹非寺量子位 | 公众号 QbitAI要搞大模型AI助手，像ChatGPT一样对齐微调已经是行业标准做法，通常分为SFT+RLHF两步走。来自艾伦研究所的新研究却发现，这两步都不是必要的？？？新论文指出，预训练完成刚出炉的基础模型已经掌握了遵循指令的能力，只需要提示工程就能引导出来，引起开发社区强烈关注。因为RLHF的成本非常高训练还不稳定，这样可就省了大钱了。研究据此提出一种新的免微调对齐法URIAL。论文中把新方法形容为“解锁基础模型潜力的咒语”，能够节省大量算力资源和时间。更值得关注的是，不掌握稳定RLHF（人类强化学习）能力的小型团队，也能低成本开发出可以对话、遵循指令的对齐模型了。目前URIAL代码和新评估基准Just-Eval-Instruct已开源，刚刚上传不久。研究来自艾伦研究所和华盛顿大学Yejin Choi团队，过去曾提出Top_p采样，在如今大模型AP…

原文链接：点此阅读原文：大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友：节省大量成本和时间