LLM Agent在交互中学习游戏世界模型和进化行为策略

LLM Agent在交互中学习游戏世界模型和进化行为策略

AIGC动态欢迎阅读

原标题:LLM Agent在交互中学习游戏世界模型和进化行为策略
关键字:策略,报告,世界,环境,游戏
文章来源:人工智能学家
内容字数:8196字

内容摘要:


来源:将门创投
作者:张文祺
来源:公众号【量子位】
目前,LLM Agent大多专注于特定任务。研究者在了解该任务的领域知识后,手工编写大量复杂的Prompt,告知任务的规则并规范LLM 的输入输出的形式等。此外,大部分LLM Agent缺乏从任务环境中学习的能力, 他们无法通过与环境互动来提升自己的行为,从而更好地达类设定的目标。
因此当面对复杂的动态的环境时,例如多人德州扑克、21点等大型非完美信息博弈游戏,LLM Agent给出的决策往往不够合理,不懂变通。那么, 在不调整模型参数的前提下,LLM Agent能否像人类一样,在复杂动态环境中学习并持续提升,从一个新手小白进化为一个熟练的专家呢?
针对这一问题,来自浙江大学, 中科院软件所等机构的研究者提出了Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization,具备策略级自我反思和行为优化的LLM Agent。Agent-Pro 能够与游戏环境交互,学习游戏环境的世界模型,优化自己的行为策略,提升游戏技巧。图1 Agent-Pro


原文链接:LLM Agent在交互中学习游戏世界模型和进化行为策略

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...