AIGC动态欢迎阅读
原标题:基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
关键字:模型,报告,腾讯,数据,过程
文章来源:算法邦
内容字数:13419字
内容摘要:
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,潞晨科技创始人尤洋,生数科技CEO唐家渝,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,DeepWisdom合伙人徐宗泽,腾讯研究科学家张驰,前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告,欢迎报名。项目地址:https://github.com/beyondguo/LLM-Tuning众所周知,整个 RLHF (基于人类反馈的强化学习) 分为这么三步:
SFT (Supervised Fine-Tuning): 有监督的微调,使用正常的 instruction following 或者对话的样本,来训练模型的基础对话、听从 prompt 的能力;
RM (Reward Modeling): 基于人类的偏好和标注,来训练一个能模拟人偏好的打分模型;
RL (Reinforcement Learning): 在前面的 SFT 模型的基础上,借助 RM 提供反馈,来不断通过 PPO 的强化学习框架来调整模型的行为。为了节省训练资源,快速了解整个 R
原文链接:基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...