标签:策略

浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

Wenqi Zhang 投稿量子位 | 公众号 QbitAI基于大模型的Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21点这种非完美信息博弈。 来自浙...
阅读原文

当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

机器之心专栏 机器之心编辑部近年来,大语言模型(LLMs)由于其通用的问题处理能力而引起了大量的关注。现有研究表明,适当的提示设计(prompt enginerring)...
阅读原文

今日arXiv最热大模型论文:北京大学发布,将试错引入大模型代理学习!

夕小瑶科技说 原创编辑 | 松果引言:探索语言智能的新边界在人工智能的发展历程中,语言智能始终是一个核心的研究领域。随着大语言模型(LLM)的兴起,我们对...
阅读原文

人类沦为工具人!斯坦福机器人“吸星大法”:从演示中转移技能,400美元打破训练数据悖论

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI斯坦福最新“技能转移”大法,让人类沦为给机器人提供训练数据的工具人。 小哥拿上机械手做示范,机器人就能从收...
阅读原文

陪跑又快又稳,机器人跑步搭子来了

机器之心报道 编辑:陈萍、蛋酱这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它...
阅读原文

性能提升、成本降低,这是分布式强化学习算法最新研究进展

机器之心原创 作者:Jiying 编辑:H4O深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效...
阅读原文

今日arXiv最热NLP大模型论文:智能谈判Agent综述,一文读懂谈判桌上的人工智能

夕小瑶科技说 原创编辑 | 谢年年谈判,就是大家坐下来聊聊,看怎么能达成共识,共同解决问题。可以是朋友间的闲聊,也可以是国与国之间的外交场合。 但谈判这...
阅读原文

今日arXiv最热NLP大模型论文:基于语言模型模拟的经济学研究

夕小瑶科技说 原创作者 | 芒果、Python引言:经济选择预测的新视角在经济决策的预测领域,传统方法通常受限于获取人类选择数据的难度。实验经济学研究大多集...
阅读原文

向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」

机器之心专栏 机器之心编辑部「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,...
阅读原文

CMU&ETH实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!

机器之心报道 机器之心编辑部足式机器人领域又一次迎来创新!CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」(ABS,Agile But Safe)的新框架,为...
阅读原文

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

机器之心专栏 机器之心编辑部随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无...
阅读原文

Transformer竟是无限状态RNN?

夕小瑶科技说 原创作者 | 付奶茶、python近期,Transformer再度成为学术界的热门话题! Meta的一项最新研究带来了一个新的发现:在某些情况下,'Transformer...
阅读原文

千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,可帮助...
阅读原文

大模型玩星际争霸能秀到什么程度?有意识,有预判,中科院和汪军团队发布

机器之心专栏 机器之心编辑部全球最重要的电竞赛事之一DreamHack刚刚落幕,来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中...
阅读原文

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

机器之心专栏 作者:腾讯AI Lab近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI '绝悟' 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显...
阅读原文
134567