在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

AIGC动态11个月前发布 机器之心
25 0 0

在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

AIGC动态欢迎阅读

原标题:在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

关键字:报告,模型,算法,梯度,价值

文章来源:机器之心

内容字数:7552字

内容摘要:机器之心专栏机器之心编辑部该论文介绍了一种名为 ReMax 的新算法,专为基于人类反馈的强化学习(RLHF)而设计。ReMax 在计算效率(约减少 50% 的 GPU 内存和 2 倍的训练速度提升)和实现简易性(6 行代码)上超越了最常用的算法 PPO,且性能没有损失。论文链接:https://arxiv.org/abs/2310.10505作者:李子牛,许天,张雨舜,俞扬,孙若愚,罗智泉机构:香…

原文链接:点此阅读原文:在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...