基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型经历

AIGC动态1年前 (2024)发布算法邦

基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历

AIGC动态欢迎阅读

原标题：基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型经历
关键字：模型,报告,腾讯,数据,过程
文章来源：算法邦
内容字数：13419字

内容摘要：

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，潞晨科技创始人尤洋，生数科技CEO唐家渝，优必选研究院执行院长焦继超，科大讯飞人形机器人首席科学家季超，DeepWisdom合伙人徐宗泽，腾讯研究科学家张驰，前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告，欢迎报名。项目地址：https://github.com/beyondguo/LLM-Tuning众所周知，整个 RLHF (基于人类反馈的强化学习) 分为这么三步：
SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 prompt 的能力；
RM (Reward Modeling): 基于人类的偏好和标注，来训练一个能模拟人偏好的打分模型；
RL (Reinforcement Learning): 在前面的 SFT 模型的基础上，借助 RM 提供反馈，来不断通过 PPO 的强化学习框架来调整模型的行为。为了节省训练资源，快速了解整个 R

原文链接：基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型经历