在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

文章来源：机器之心

内容字数：7552字

内容摘要：机器之心专栏机器之心编辑部该论文介绍了一种名为 ReMax 的新算法，专为基于人类反馈的强化学习（RLHF）而设计。ReMax 在计算效率（约减少 50% 的 GPU 内存和 2 倍的训练速度提升）和实现简易性（6 行代码）上超越了最常用的算法 PPO，且性能没有损失。论文链接：https://arxiv.org/abs/2310.10505作者：李子牛，许天，张雨舜，俞扬，孙若愚，罗智泉机构：香…

原文链接：点此阅读原文：在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了