大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间

AIGC动态11个月前发布 量子位
14 0 0

大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间

AIGC动态欢迎阅读

原标题:大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间

关键字:模型,基础,团队,能力,示例

文章来源:量子位

内容字数:4668字

内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAI要搞大模型AI助手,像ChatGPT一样对齐微调已经是行业标准做法,通常分为SFT+RLHF两步走。来自艾伦研究所的新研究却发现,这两步都不是必要的???新论文指出,预训练完成刚出炉的基础模型已经掌握了遵循指令的能力,只需要提示工程就能引导出来,引起开发社区强烈关注。因为RLHF的成本非常高训练还不稳定,这样可就省了大钱了。研究据此提出一种新的免微调对齐法URIAL。论文中把新方法形容为“解锁基础模型潜力的咒语”,能够节省大量算力资源和时间。更值得关注的是,不掌握稳定RLHF(人类强化学习)能力的小型团队,也能低成本开发出可以聊天对话、遵循指令的对齐模型了。目前URIAL代码和新评估基准Just-Eval-Instruct已开源,刚刚上传不久。研究来自艾伦研究所和华盛顿大学Yejin Choi团队,过去曾提出Top_p采样,在如今大模型AP…

原文链接:点此阅读原文:大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...