“第十一层,冷轩对虚拟玩家7号——‘宽容以牙还牙’:大部分时候以牙还牙,但偶尔会原谅背叛。”
冷轩选了合作。
虚拟玩家7号:合作。
双合作。冷轩得3分,累计21。乘数变为4。
游戏继续进行。
虚拟玩家的策略越来越复杂:有“两报还一报”(被背叛两次才报复一次)、有“随机试探”(偶尔无故背叛看反应)、有“进化策略”(根据历史胜率调整)……
团队五人艰难地推进。乘数时而增长,时而被重置。得分起起伏伏。
最难受的是,有时候你明知道对方可能背叛,但为了乘数增长,还得选合作——因为只要对方合作一次,乘数就能+1,长期收益更大。
这是耐心和信任的极限测试。
走到第三十层时,陈凡的累计得分是72,乘数是8。其他人也差不多。
“现在进入第四阶段。”
均衡观察者的声音似乎更认真了,“虚拟玩家将采用‘学习型策略’——它们会观察你们的历史选择,建立模型,预测你们的行为,并选择最优应对。”
这章没有结束,请点击下一页继续阅读!
“而且,从这一层开始,游戏变为‘团队对战’。你们五人作为一个团队,对战五个虚拟玩家团队。每一层,你们可与内部讨论策略,然后每个人分别与对方团队对应成员对战。”
“团队总得分决定乘数变化。”
五人聚在一起。
“终于能说话了!”萧九长出一口气,“憋死本喵了!”
林默快速分析:“团队对战更复杂。对方是学习型策略,会模仿我们。如果我们合作多,它们可能也合作;如果我们背叛多,它们也背叛。”
苏夜离:“但如果我们一直合作,它们可能会偶尔背叛来试探——因为学习型策略要探索最优策略。”
冷轩:“所以我们要制定统一策略。我建议:对外始终保持合作,除非对方连续背叛两次以上。”
陈凡思考着:“学习型策略……它们在学习我们。那我们能不能反过来学习它们?预测它们的行为?”
“理论上可以。”林默说,“但我们需要数据。前几轮可能要牺牲一些得分来收集信息。”
“那就这样。”陈凡决定,“前三轮,我们都选合作,观察对方反应,收集数据。从第四轮开始,根据情况调整。”
“同意。”众人点头。
第三十一层,团队对战开始。
五人各自面对一个虚拟玩家。
陈凡选了合作。对方也合作。
苏夜离合作,对方合作。
冷轩合作,对方合作。
林默合作,对方合作。
萧九合作——对方背叛。
“喵!为什么就背叛本喵!”萧九气得跳脚。
均衡观察者:“虚拟玩家检测到萧九历史背叛率较低(因为她总是先合作),判断背叛她可能不会引发强烈报复。这是一种试探。”
团队总分:陈3+苏3+冷3+林3+萧0=12。对方总分:3+3+3+3+5=17。
但因为这层是团队对战,乘数变化看团队总分的相对大小。由于对方总分高,乘数不加也不减,保持8。
“继续合作。”陈凡说,“再收集一轮数据。”
第三十二层。
陈凡合作,对方合作。
苏夜离合作,对方合作。
冷轩合作,对方合作。
林默合作,对方背叛——这次换林默了。
萧九合作,对方合作。
林默脸色难看:“它们在轮流试探我们每个人!”
团队总分:12。对方总分:17。乘数不变。
第三十三层。
五人继续合作。
这次,五个虚拟玩家全部合作。
团队总分:15。对方总分:15。平局。乘数+1,变为9。
“它们试探完了。”林默说,“发现我们始终保持合作,没有报复行为。所以它们也开始合作——因为长期合作收益更大。”
“但这陷陷阱。”冷轩冷冷道,“一旦我们放松警惕,它们可能会突然集体背叛,收割高乘数下的巨大收益。”
陈凡点头:“所以我们不能永远合作。要在适当的时候展示‘报复能力’,让它们知道背叛会付出代价。”
“怎么做?”苏夜离问。
“下一轮,”陈凡说,“我们集体选背叛。”
“全部?”萧九瞪大眼睛。
“对。集体背叛一次,让乘数归1,损失短期的巨大收益,但传递一个信号:我们有底线,如果被背叛,我们会反击到底。”
林默计算着:“现在乘数是9,下一轮如果双方都合作,每人得3分,乘以9就是27分,团队总分135。如果集体背叛,每人得1