标签:策略

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,照样能跑酷

机器之心报道 编辑:杜伟如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界...
阅读原文

过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%

新智元报道编辑:LRS 【新智元导读】通过过程奖励模型(PRM)在每一步提供反馈,并使用过程优势验证器(PAV)来预测进展,从而优化基础策略,该方法在测试时...
阅读原文

WHALE来了,南大周志华团队做出更强泛化的世界模型

机器之心报道 作者:陈陈、佳琪世界模型又出新进展了,来自国内机构。人类能够在脑海中设想一个想象中的世界,以预测不同的动作可能导致不同的结果。受人类智...
阅读原文

LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题

机器之心报道 编辑:Panda让 LLM 在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可...
阅读原文

Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获「潜意识」!

新智元报道编辑:静音 【新智元导读】来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER,仅用一个1.5M参数模型就可以...
阅读原文

让机器人拥有人一样「潜意识」,英伟达1.5M小模型就能实现通用控制了

机器之心报道 编辑:Panda、佳琪当机器人也有潜意识。大模型固然性能强大,但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型,那真是小庙供不起大菩萨...
阅读原文

强化学习训练一两个小时,100%自主完成任务:机器人ChatGPT时刻真来了?

机器之心报道 编辑:Panda、佳琪把平均成功率从 50% 拉到了 100%。最近,AI 的进步有目共睹,现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助...
阅读原文

AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭

新智元报道编辑:桃子 【新智元导读】Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短...
阅读原文

空间智能如何构建?牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

来源:专知 人类能够通过规划、推理和预测行动结果,执行具有长期目标的复杂任务。为了让具身智能体(如机器人)实现类似的能力,它们必须获得可以迁移到新情...
阅读原文

如何通过KV稀疏实现对vLLM的1.5倍加速

作者 | PPIO 算法专家张青青前 言近一年以来,自 H2O 起,关于 KV 稀疏的论文便百花齐放,而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的...
阅读原文

Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

新智元报道编辑:LRS 【新智元导读】在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案...
阅读原文

李飞飞「数字表兄弟」破解机器人训练难题!零样本sim2real成功率高达90%

新智元报道编辑:编辑部 HXZ 【新智元导读】在用模拟环境训练机器人时,所用的数据与真实世界存在着巨大的差异。为此,李飞飞团队提出「数字表亲」,这种虚拟...
阅读原文

李飞飞:不要数字孪生,要数字表兄弟,一张照片生成机器人训练场景

机器之心报道 编辑:泽南、Panda不百分百还原出虚拟场景,效果反而更好。我们很多人都听说过数字孪生(digital twin),在英伟达等公司的大力推动下,这种高...
阅读原文

一文看懂LLM推理,UCL汪军教授解读OpenAI ο1的相关方法

机器之心报道 机器之心编辑部OpenAI 最近发布的 o1 系列模型堪称迈向强人工智能的一次飞跃,其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。...
阅读原文

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
1237