标签:梯度

用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手

白交 发自 凹非寺量子位 | 公众号 QbitAI训练机器人,AI比人类更拿手!英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任...
阅读原文

在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

机器之心专栏机器之心编辑部该论文介绍了一种名为 ReMax 的新算法,专为基于人类反馈的强化学习(RLHF)而设计。ReMax 在计算效率(约减少 50% 的 GPU 内存和...
阅读原文

从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

机器之心报道编辑:大盘鸡这样学,还能那样学。人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器...
阅读原文

32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了

机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...
阅读原文
123