标签:策略

性能提升、成本降低,这是分布式强化学习算法最新研究进展

机器之心原创 作者:Jiying 编辑:H4O深度强化学习(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效...
阅读原文

今日arXiv最热NLP大模型论文:智能谈判Agent综述,一文读懂谈判桌上的人工智能

夕小瑶科技说 原创编辑 | 谢年年谈判,就是大家坐下来聊聊,看怎么能达成共识,共同解决问题。可以是朋友间的闲聊,也可以是国与国之间的外交场合。 但谈判这...
阅读原文

今日arXiv最热NLP大模型论文:基于语言模型模拟的经济学研究

夕小瑶科技说 原创作者 | 芒果、Python引言:经济选择预测的新视角在经济决策的预测领域,传统方法通常受限于获取人类选择数据的难度。实验经济学研究大多集...
阅读原文

向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」

机器之心专栏 机器之心编辑部「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,...
阅读原文

CMU&ETH实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!

机器之心报道 机器之心编辑部足式机器人领域又一次迎来创新!CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」(ABS,Agile But Safe)的新框架,为...
阅读原文

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

机器之心专栏 机器之心编辑部随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无...
阅读原文

Transformer竟是无限状态RNN?

夕小瑶科技说 原创作者 | 付奶茶、python近期,Transformer再度成为学术界的热门话题! Meta的一项最新研究带来了一个新的发现:在某些情况下,'Transformer...
阅读原文

千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,可帮助...
阅读原文

大模型玩星际争霸能秀到什么程度?有意识,有预判,中科院和汪军团队发布

机器之心专栏 机器之心编辑部全球最重要的电竞赛事之一DreamHack刚刚落幕,来自世界各地的星际争霸 II 顶尖选手们展开了激烈的较量。在这场紧张精彩的赛事中...
阅读原文

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

机器之心专栏 作者:腾讯AI Lab近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI '绝悟' 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显...
阅读原文

OpenAI官方的Prompt工程指南:你可以这么玩ChatGPT

机器之心报道 编辑:陈萍、小舟写好 prompt 已经成为 LLM 的一项必修课。‍随着 ChatGPT、GPT-4 等大型语言模型(LLM)的出现,提示工程(Prompt Engineering...
阅读原文

陶哲轩青睐的证明助手Lean,用上了大模型

机器之心报道编辑:陈萍现在,数学辅助证明工具都用上了大模型。「我预计,如果使用得当,到 2026 年,AI 将成为数学研究和许多其他领域值得信赖的合著者。」...
阅读原文

吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题

新智元报道编辑:alan【新智元导读】大语言模型在实际部署中,存在内存和输入长度限制的问题。最近,田渊栋团队一举解决这两大难题,将推理系统的吞吐量提高...
阅读原文

微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源

机器之心报道机器之心编辑部站在巨人的肩膀上会让你看的更远,而通过让大规模语言模型来「教」较小规模的语言模型进行推理,也会是事半功倍的效果。如你我所...
阅读原文

OpenAI神秘Q*毁灭人类?爆火「Q*假说」竟牵出世界模型,全网AI大佬长文热议

新智元报道编辑:Aeneas 好困【新智元导读】传闻中OpenAI的Q*,已经引得AI大佬轮番下场。AI2研究科学家Nathan Lambert和英伟达高级科学家Jim Fan都激动的写下...
阅读原文