> 自媒体 > (AI)人工智能 > 东大博士让GPT-4用心智理论玩德扑!完胜传统算法,碾压人类新手
东大博士让GPT-4用心智理论玩德扑!完胜传统算法,碾压人类新手
来源:新智元
2023-10-30 10:25:35
439
管理

编辑:Lumina

【新智元导读】来自东京大学的Suspicion Agent利用GPT-4,在不完全信息博弈中表现出了高阶的心智理论能力(ToM)。

在完全信息博弈中,每个博弈者都知道所有信息要素。

但不完全信息博弈不同,它模拟了现实世界中在不确定或不完全信息下进行决策的复杂性。

GPT-4作为目前最强大模型,具有非凡的知识检索和推理能力。

但GPT-4能否利用已学习到的知识进行不完全信息博弈?

为此,东京大学的研究人员引入了Suspicion Agent这一创新智能体,通过利用GPT-4的能力来执行不完全信息博弈。

的条件分布可以建模为:

这里,

的长度,此模块命名为观察解释器。

在不完全信息博弈中,这种表述方式能更容易理解与模型之间的交互。

研究人员引入了一种虚无规划方法,该方法具有一个Reflexion模块,旨在自动检查对局历史,使LLMs能够从历史经验中学习和改进规划,以及一个单独的规划模块,专门用于做出相应的决策。

然而,虚无的规划方法往往难以应对不完全信息博弈中固有的不确定性,尤其是在面对善于利用他人策略的对手时。

受这种适应性的启发,研究人员设计出了一种新的规划方法,即利用LLM的ToM能力来了解对手的行为,从而相应地调整策略。

实验

定量评估

在一阶理论心智策略下,Suspicion Agent选择弃牌,以最小化损失。这个决定是基于观察到对手通常在手中有Queen或Jack时才跟注。

然而,这些策略未能充分利用对手手牌的推测弱点。这一缺点源于它们不考虑Suspicion Agent的举动可能如何影响对手的反应。

表4:比较结果表明了在莱德克牌局环境中将对手观察结果纳入对局历史的影响

表5:比较结果表明,当Suspicion Agent在 Leduc Hold'em 环境中与CFR对弈时,在对局历史中加入对手观察结果的影响。结果是使用不同种子进行100局对局后的输赢筹码,输赢筹码数从1到14不等

结论

Suspicion Agent没有进行任何专门的训练,仅仅利用GPT-4的先验知识和推理能力,就能在Leduc Hold'em等不同的不完全信息游戏中战胜专门针对这些游戏训练的算法,如CFR和NFSP。

这表明大模型具有在不完全信息游戏中取得强大表现的潜力。

通过整合一阶和二阶理论心智模型,Suspicion Agent可以预测对手的行为,并相应调整自己的策略。这使得它可以对不同类型对手进行适应。

Suspicion Agent还展示了跨不同不完全信息游戏的泛化能力,仅仅根据游戏规则和观察规则,就可以在Coup和Texas Hold'em等游戏中进行决策。

但Suspicion Agent也有着一定的局限性。例如,由于计算成本限制,对不同算法的评估样本量较小。

以及推理成本高昂,每局游戏耗费接近1美元,并且Suspicion Agent的输出对提示的敏感性较高,存在hallucination的问题。

同时,在进行复杂推理和计算时,Suspicion Agent的表现也不尽人意。

未来,Suspicion Agent将在计算效率、推理鲁棒性等方面进行改进,并支持多模态和多步推理,来实现对复杂游戏环境的更好适应。

同时,Suspicion Agent在不完全信息博弈游戏中的应用,也可以迁移到未来多模态信息的整合,模拟更真实的交互、扩展到多玩家游戏环境中。

参考资料:

https://arxiv.org/abs/2309.17277

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
货车司机亲测:伴通轮胎耐磨抗造,比米其林不差还多跑3万公里..
货车司机亲测:伴通轮胎耐磨抗造,比米其林不差还多跑3万公里驾驶货车十..
警方通报“京昆高速古家山隧道货车起火”:系自燃,无人员伤亡..
2月23日,一则四川广元古家山隧道车辆起火的视频在网络传播,画面显示,..
跑货车型怎么选?2026年选对车才赚钱
今天咱们直接讲干货,不绕弯子、不吹不捧,专门给想入行跑货拉拉、货运的..
“车开到哪儿,就污染到哪儿”——如何管好大货车上的“环保刺客”?..
在豫冀两省交界处的一个检查站,一辆“晋A”牌照、冒着黑烟的重型柴油货..
一带一路带火中亚货运,中国货车拉着小家电,撑起境外民生..
当古老的驼铃声消散在历史的烟尘中,一种新的声音正在亚欧大陆腹地回响—..
京昆高速四川境内隧道有货车自燃,画面曝光!警方称无人伤亡..
2月23日,南都N视频记者从四川省公安厅高速公路公安局二分局获悉,当天10..
越野车的顶级之选:探寻极限的终极座驾
一、越野性能的巅峰:硬派越野的代表在越野车的世界里,硬派越野车一直被..
V7过来凑个数,三台不同形式的越野车同框,最喜欢哪个?..
三台越野车背书包。飒爽英姿牧马人这个后窗能打开,但霸道和帕杰罗不行。..
分不清SUV与越野车的小伙伴集合,多维度对比,新手也能辨别..
首先是车身结构方面,硬派越野车采用非承载式车身(带独立梯形大梁),车..
关于作者
杨子(普通会员)
文章
1992
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103835

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索