标签:梯度
清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!
夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...
OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御
选自Lil’Log作者:Lilian Weng机器之心编译编辑:PandaLLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果。虽然大多数商用和开源 L...
北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023
新智元报道编辑:LRS 好困【新智元导读】新方法结合扩散模型和强化学习,将抓取问题分解为「如何抓」以及「何时抓」,平价显卡即可实现实时交互。手是人类与...
准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习攻击识别」解决方案|ICCV2023
新智元报道编辑:LRS【新智元导读】无惧联邦学习中的后门攻击!全新解决方案利用多指标和动态加权来自适应地识别后门,在难度最高的Edge-case PGD中,后门准...
上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」
新智元报道编辑:LRS【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。近些年来,基于Transfor...
英伟达开源新Agent!用了GPT-4后,机器人把转笔、盘核桃都玩明白了
夕小瑶科技说 分享来源 | 量子位作者 | 白交训练机器人,AI比人类更拿手!英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复...
用GPT-4训练机器人,英伟达最新Agent开源:任务越复杂越拿手
白交 发自 凹非寺量子位 | 公众号 QbitAI训练机器人,AI比人类更拿手!英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任...
在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了
机器之心专栏机器之心编辑部该论文介绍了一种名为 ReMax 的新算法,专为基于人类反馈的强化学习(RLHF)而设计。ReMax 在计算效率(约减少 50% 的 GPU 内存和...
从观察、思考到行动,深度强化学牛Pieter Abbeel谈如何驯服机器人
机器之心报道编辑:大盘鸡这样学,还能那样学。人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器...
32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了
机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...