LLM Agent在交互中学习游戏世界模型和进化行为策略

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：LLM Agent在交互中学习游戏世界模型和进化行为策略
关键字：策略,报告,世界,环境,游戏
文章来源：人工智能学家
内容字数：8196字

内容摘要：

来源：将门创投
作者：张文祺
来源：公众号【量子位】
目前，LLM Agent大多专注于特定任务。研究者在了解该任务的领域知识后，手工编写大量复杂的Prompt，告知任务的规则并规范LLM 的输入输出的形式等。此外，大部分LLM Agent缺乏从任务环境中学习的能力, 他们无法通过与环境互动来提升自己的行为，从而更好地达类设定的目标。
因此当面对复杂的动态的环境时，例如多人德州扑克、21点等大型非完美信息博弈游戏，LLM Agent给出的决策往往不够合理，不懂变通。那么, 在不调整模型参数的前提下，LLM Agent能否像人类一样，在复杂动态环境中学习并持续提升，从一个新手小白进化为一个熟练的专家呢？
针对这一问题，来自浙江大学, 中科院软件所等机构的研究者提出了Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization，具备策略级自我反思和行为优化的LLM Agent。Agent-Pro 能够与游戏环境交互，学习游戏环境的世界模型，优化自己的行为策略，提升游戏技巧。图1 Agent-Pro

原文链接：LLM Agent在交互中学习游戏世界模型和进化行为策略