微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了

AIGC动态11个月前发布 机器之心
18 0 0

微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了

AIGC动态欢迎阅读

原标题:微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了

关键字:报告,基础,模型,研究者,样本

文章来源:机器之心

内容字数:8670字

内容摘要:机器之心报道机器之心编辑部大模型的效果好不好,有时候对齐调优很关键。但近来很多研究开始探索无微调的方法,艾伦人工智能研究所和华盛顿大学的研究者用「免调优」对齐新方法超越了使用监督调优(SFT)和人类反馈强化学习(RLHF)的 LLM 性能。我们知道,仅在无监督文本语料库上预训练的基础大语言模型(LLM)通常无法直接用作开源域的 AI 助手(如 ChatGPT)。因此,为了让这些基础的 LLM 成为有用且无害的 AI 助手,研究人员往往使用指令调优和偏好学习对它们进行微调。先来看下指令调优的定义,它是一种监督微调(SFT)过程,主要使用人工注释或者从 GPT-4 等专有 LLM 中收集的数据。偏好学习则是一种典型的人类反馈强化学习(RLHF),它不断地调优监督微调后的 LLM 以进一步对齐人类偏好。基于调优的对齐促使 LLM 显著改进,似乎释放了令人印象深刻的能力,并表明广泛的微调对构建 A…

原文链接:点此阅读原文:微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...