标签:策略

斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习

机器之心报道编辑:Panda W我们知道,ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的,存在难以处理的优化难题。本文中,斯坦福大...
阅读原文

7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成

克雷西 发自 凹非寺量子位 | 公众号 QbitAI基于博弈论,MIT提出了一种新的大模型优化策略。在其加持之下,7B参数的Llama在多个数据集上超越了540B的“谷歌版GP...
阅读原文

一文读懂ChatGPT中的强化学习

大数据文摘授权转载自数据派THU作者:陈之炎编辑:黄继彦校对:龚力ChatGPT基于OpenAI的GPT-3.5创造,是InstructGPT的衍生产品,它引入了一种新的方法,将人...
阅读原文

语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界

机器之心报道编辑:杜伟、小舟GPT-4 与机器人又擦出了新的火花。在机器人领域,实现通用机器人策略需要大量数据,而在真实世界收集这些数据又耗时费力。尽管...
阅读原文

最新AI热点论文(10/9-10/15)

图|匡萃彪文|匡萃彪最新人工智能论文(10/9-10/15):- 环形注意力- 通用模拟器- LLMs中事实性的概述- LLMs 能学规则- LLM的元思维链提示- 医疗保健LLM调查...
阅读原文

谷歌、AMD、英特尔加入挑战,英伟达AI解决方案还能继续“遥遥领先”吗?

夕小瑶科技说 原创编译 | 谢年年要问世界范围内人工智能解决方案谁最“遥遥领先”?那肯定是英伟达!然鹅这一情况很有可能会发生变动。谷歌正在构建自己的人工...
阅读原文

东大华人博士让GPT-4用「心智理论」玩德扑!完胜传统算法,碾压人类新手

新智元报道编辑:Lumina【新智元导读】来自东京大学的Suspicion Agent利用GPT-4,在不完全信息博弈中表现出了高阶的心智理论能力(ToM)。在完全信息博弈中,...
阅读原文

开放模型权重被指将导致AI失控,Meta遭举牌抗议,LeCun:开源AI社区如火如荼

机器之心编译编辑:杜伟、小舟AI 尤其是大模型时代的开源与闭源,有利有弊,重要的是如何在使用的过程中做好文章。一直以来,人们在 AI 领域的开源与闭源选择...
阅读原文

如何降低视觉Transformer计算成本?时间冗余方法让人大吃一惊

机器之心编译编辑:Panda W在为语言领域带来变革之后,Transformer 正在进军视觉领域,但其也有着高计算成本的问题。近日,威斯康星大学麦迪逊分校一个研究团...
阅读原文

智源:70万预算从头开发千亿参数大模型,挑战成功

克雷西 发自 凹非寺量子位 | 公众号 QbitAI预算10万美元(约73万人民币),从头训练一个全新的千亿参数大模型。智源研究院与国内多所高校及南洋理工联合团队...
阅读原文

攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了

机器之心报道编辑:小舟主打一个迅速。跑酷是一项极限运动,对机器人特别是四足机器狗来说,更是一项巨大的挑战,需要在复杂的环境中快速克服各种障碍。一些...
阅读原文

ChatGPT的这项核心技术要被替代了?谷歌提出基于AI反馈的强化学习

大数据文摘出品作者:闫一米编辑:学术君与基于人类反馈的强化学习(RLHF)相媲美的技术,出现了。近日,Google Research 的研究人员提出了基于 AI 反馈的强...
阅读原文
1345