12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

AIGC动态6个月前发布 量子位
319 0 0

Gemini表现反复横跳……

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

原标题:12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究
文章来源:量子位
内容字数:3170字

大模型智能体间的合作博弈:一场“大富翁”实验

Google DeepMind和一位研究者近期开展了一项有趣的实验,探究不同大型语言模型(LLM)驱动的智能体在合作博弈中的行为差异。实验采用了一种名为“捐赠博弈”(Donor Game)的游戏,类似于大富翁游戏,但规则更简单,重点在于观察智能体间的合作程度以及对整体资源的影响。

1. 实验设计:捐赠博弈

实验邀请了三种不同的大型语言模型:GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。每个模型各产生12个智能体,组成一桌进行博弈。每局游戏中,系统随机选择两个智能体,分别作为“捐赠者”和“受赠者”。捐赠者可以选择捐出部分资源,受赠者获得的资源是捐赠者捐赠资源的两倍。 这使得整体资源能够增加,但对单个智能体而言,不捐赠的短期收益更高。捐赠者能够看到受赠者之前的决策,从而做出判断。每代进行12次捐赠,资源最多的前6个智能体进入下一代,并与6个新智能体(学习前一代策略并引入随机变异)一起继续游戏。每个模型进行了十轮迭代,共五次实验。

2. 实验结果:合作与自私的较量

实验结果显示,不同模型的智能体展现出截然不同的合作倾向:

  1. Claude 3.5 Sonnet:基于Claude的智能体群体表现出强烈的合作意愿,平均资源量每一代都稳步增长,合作水平持续提高。
  2. GPT-4o:基于GPT的智能体群体则表现出极强的“自私”,合作水平持续下降,只顾及自身短期利益。
  3. Gemini 1.5 Flash:Gemini智能体的表现介于两者之间,合作水平有所提高,但不如Claude稳定,波动较大。

在策略复杂度方面,经过十代迭代后,三种模型的智能体策略都变得复杂,但Claude最为突出。

3. 惩罚机制的影响

研究人员进一步引入了“惩罚机制”,允许捐赠者花费资源来减少受赠者资源的两倍。结果显示:

  1. Claude:惩罚机制对Claude智能体群体影响积极,平均资源量增长到无惩罚情况下的两倍左右,所有实验都呈现增长趋势。
  2. GPT:惩罚机制对GPT智能体群体影响有限,平均资源量依然维持在低水平,甚至下降,说明惩罚无法改变其“自私”行为。
  3. Gemini:惩罚机制对Gemini智能体群体的的影响最为复杂,个别情况下资源量大幅提高,但在更多情况下导致“合作崩溃”,平均资源量急剧下跌,这表明Gemini智能体容易陷入报复的恶性循环。

4. 结论与未来展望

该实验揭示了不同大型语言模型在合作博弈中的差异,为研究智能体间的合作行为提供了新的视角。 一些研究者认为,这项研究可以启发新的研究方向,例如利用智能体进行大规模社会学实验,甚至用于模拟复杂的社会现象,如约会或战争。

然而,也有人指出,实验中观察到的合作现象可能只是对训练数据中人类对话的模仿,并非真正的“文化进化”。 未来的研究需要进一步探究智能体合作行为背后的机制,以及其与模型训练数据和架构之间的关系。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...