AIGC动态欢迎阅读
原标题:浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
关键字:腾讯,策略,模型,游戏,扑克
文章来源:量子位
内容字数:6612字
内容摘要:
Wenqi Zhang 投稿量子位 | 公众号 QbitAI基于大模型的Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21点这种非完美信息博弈。
来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略,从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。
通过不断优化自我构建的世界模型和行为策略,Agent-Pro掌握了虚张声势、主动放弃等人类高阶游戏策略。
Agent-Pro以大模型为基座,通过自我优化的Prompt来建模游戏世界模型和行为策略。
相比传统的Agent框架,Agent-Pro能够变通地应对复杂的动态的环境,而不是仅专注于特定任务。
而且,Agent-Pro还可以通过与环境互动来优化自己的行为,从而更好地达成人类设定的目标。
同时作者还指出,在竞争、公司谈判和安全等现实世界中遇到的情景,大多可以抽象为multi-agent博弈任务,而Agent-Pro通过对这类情境的研究,为解决众多现实世界的问题提供了有效策略。
那么,Agent-Pro在博弈游戏中的表现究竟如何呢?
进化出游戏世界模型在研究中,作者使用了“21点”和“
原文链接:浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...