浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显
关键字：腾讯,策略,模型,游戏,扑克
文章来源：量子位
内容字数：6612字

内容摘要：

Wenqi Zhang 投稿量子位 | 公众号 QbitAI基于大模型的Agent，已经成为了大型的博弈游戏的高级玩家，而且玩的还是德州扑克、21点这种非完美信息博弈。
来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。
通过不断优化自我构建的世界模型和行为策略，Agent-Pro掌握了虚张声势、主动放弃等人类高阶游戏策略。
Agent-Pro以大模型为基座，通过自我优化的Prompt来建模游戏世界模型和行为策略。
相比传统的Agent框架，Agent-Pro能够变通地应对复杂的动态的环境，而不是仅专注于特定任务。
而且，Agent-Pro还可以通过与环境互动来优化自己的行为，从而更好地达类设定的目标。
同时作者还指出，在竞争、公司谈判和安全等现实世界中遇到的情景，大多可以抽象为multi-agent博弈任务，而Agent-Pro通过对这类情境的研究，为解决众多现实世界的问题提供了有效策略。
那么，Agent-Pro在博弈游戏中的表现究竟如何呢？
进化出游戏世界模型在研究中，作者使用了“21点”和“

原文链接：浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显