小红书大模型团队的探索与实践：从 0 到 1 构建自研 RLHF 框架

AIGC动态欢迎阅读

原标题：小红书大模型团队的探索与实践：从 0 到 1 构建自研 RLHF 框架
关键字：模型,框架,算法,性能,阶段
文章来源：AI前线
内容字数：0字

内容摘要：

采访嘉宾 | 于子淇，小红书资深技术专家编辑 | 冬梅
在人工智能技术的快速发展中，多模态大语言模型（MLLM）以其强大的图文理解、创作、知识推理及指令遵循能力，成为了推动数字化转型的重要力量。然而，如何使这些模型的输出更加贴近人类的风格、符合人类的偏好，甚至与人类价值观保持一致，成为了一个亟待解决的问题。为了应对这一挑战，基于人类反馈信号的强化学习方法（RLHF）应运而生，其中，PPO（Proximal Policy Optimization）算法作为 OpenAI 的核心技术，在 RLHF 阶段扮演着关键角色。
小红书大模型团队，在这个技术日新月异的时代，开始了他们自研 MLLM RLHF 训练框架的征程。他们深知，要构建一个高效、准确的 RLHF 训练系统，需要综合考虑算法优化、系统架构、训练调度以及推理引擎等多个方面。在本次 QCon 上海 2024 大会上，小红书团队的资深技术专家于子淇展示了他们的在 RLHF 框架上的探索、设计和优化细节。同时，他也分享了未来的计划与实践中的痛点，如 RLHF PPO 算法的资源消耗复杂度过高、训练精度的敏感性等，这些问题既是挑战，也

原文链接：小红书大模型团队的探索与实践：从 0 到 1 构建自研 RLHF 框架