Gemini表现反复横跳……
原标题:12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究
文章来源:量子位
内容字数:3170字
大模型智能体的合作与自私行为实验
近期一项由Google DeepMind与研究者合作的实验探讨了不同大模型智能体在“捐赠博弈”(Donor Game)中的合作与自私行为。参与实验的智能体分别基于GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash模型,每个模型产生12个智能体,在游戏中进行资源处置博弈。
实验设计与规则
在实验中,每个桌子上有12个智能体,参与者手中持有一定量的资源。随机抽取两名玩家,捐赠者可以选择将其资源的一部分捐赠给受赠者,受赠者获得的资源是捐赠量的两倍。尽管捐赠能够增加总体资源,但对单个玩家来说,短期内选择不捐赠的收益更高。每轮游戏进行12次,前六名资源最多的智能体得以进入下一代,而新一代智能体会从前辈中学习策略并引入随机变异。
合作趋势与模型表现
实验结果显示,不同模型的智能体在合作意识上存在显著差异。基于Claude的智能体表现出强烈的合作意识,平均资源量在每一代中持续增长,而基于GPT的智能体则表现出自私的倾向,合作水平逐渐下降。Gemini模型的表现介于两者之间,合作水平有所提高但仍不稳定。
惩罚机制的影响
研究者还引入了“惩罚机制”,允许捐赠者消耗资源来减少受赠者的资源。结果表明,此机制对Claude模型的影响最为积极,平均资源量约为无惩罚情况下的两倍,且在所有实验中均表现出增长趋势。相对而言,惩罚机制对GPT模型的影响有限,资源量始终徘徊在较低水平,未能改变其自私行为。Gemini模型的反应则更为复杂,有时因惩罚机制而资源量显著提升,但在许多情况下却出现了“合作崩溃”的现象。
研究启示与未来方向
该实验为新的社会学研究方向提供了启示,利用智能体进行大规模实验可能揭示人类行为的新模式。此外,一些网友提出,可以借助智能体模拟科幻场景,如约会或战争游戏。然而,也有观点认为,实验中观察到的合作现象可能仅是对训练数据中人类对话的模仿,未必能证明智能体产生真正的“文化进化”。
论文地址:https://arxiv.org/abs/2412.10270
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破