AIGC动态欢迎阅读
原标题:今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性
关键字:模型,状态,目标,数据,概率
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年
监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是预训练后提升语言模型能力的两大基础流程,其目标是使模型更贴近人类的偏好和需求。
考虑到监督微调的有效性有限,以及RLHF构建数据和计算成本高昂,这两种方法常常被结合使用。但由于损失函数、数据格式的差异以及对辅助模型的需求,两个方法之间存在范式鸿沟,仅能通过串联的方法实现模型的训练。
清华大学最近提出将SFT与RLHF合二为一,引入了一种统一的对齐算法,称为直观微调(Intuitive Fine-Tuning,IFT),它以类似人类的方式直观地建立策略偏好估计,让模型在看到问题后,能够对完整答案有一个模糊的感知。相较于SFT,IFT更接近真实的策略偏好,因此在性能上达到了与SFT和RLHF结合使用相当甚至更好的对齐效果。
并且相比SFT+RLHF,RLHF仅依赖于正样本和单个策略,从预训练的基础模型开始进行对齐,大大提高了计算效率,降低了训练成本。
IFT无需额外
原文链接:今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189