“但长期来看,”陈凡说,“如果不展示报复能力,对方会在乘数达到几十几百的时候突然背叛,那时候损失更大。”
苏夜离支持:“我同意凡哥。博弈不是一味讨好,要有威慑。”
冷轩:“剑道也有类似道理:只攻不守,必露破绽;只守不攻,必被击溃。攻守兼备才是正道。”
“那本喵也同意!”萧九举起爪子。
“好,第三十四层,集体背叛。”
五人同时选择背叛。
对面的五个虚拟玩家,在这一轮全部选了合作——因为它们预测团队会继续合作。
结果:
团队每人得5分(背叛对方合作),乘数归1。但个人得分:5×1=5。团队总分25。
对方每人得0分(合作遭遇背叛),团队总分0。
虚拟玩家们“愣住”了——不是真的愣住,是策略程序出现了剧烈调整。它们没预测到这种突然的集体背叛。
均衡观察者记录:“第三十四层:团队展示‘惩罚策略’。学习型策略重新评估对手模型。”
第三十五层。
团队恢复合作。
虚拟玩家们……全部合作。
它们学乖了:这个团队不是软柿子,会报复。长期合作比试探更安全。
团队总分15,乘数+1变2。
第三十六层,合作,对方合作,乘数变3。
第三十七层,合作,对方合作,乘数变4。
合作持续了十年。乘数恢复到10。
但陈凡知道,这还不够。学习型策略可能会忘记教训,尤其是在高收益诱惑下。
果然,在第四十五层,乘数15时,一个虚拟玩家试探性地背叛了萧九。
萧九这次选了合作——因为团队策略是“对方单次背叛,我方继续合作,展示宽容”。
但陈凡立刻说:“下一层,集体背叛那个背叛者的队友。”
“为什么是队友?”林默问。
“传递更复杂的信号:背叛会连累你的团队。这样虚拟玩家不仅要考虑个人收益,还要考虑团队责任。”
第四十六层,团队集体背叛那个背叛者所在的虚拟玩家小组的其他成员。
结果:那几个被牵连的虚拟玩家得分大降。它们内部产生了“压力”——因为一个人的背叛导致团队受损。
虚拟玩家们的学习程序开始加入“团队约束”因子。
游戏越来越深入。
团队五人不仅要应对虚拟玩家,还要调整内部策略。
有时候意见会有分歧,但最终总能达成一致。
在这个过程中,陈凡看到了每个人的特点:
苏夜离总是先信任,但被伤害后会谨慎;
冷轩始终保持警惕,但一旦信任就会坚持;
林默理性计算,但会被情感影响;
萧九凭直觉,但直觉往往惊人地准;
而他自己……在理性与情感之间寻找平衡。
乘数时涨时跌,得分起起伏伏。
走到第九十九层时,乘数达到了史无前例的50。
团队累计总分已经超过5000。
虚拟玩家们已经彻底“驯化”——它们几乎永远合作,因为任何背叛都会引发团队的集体报复,长期损失远大于短期收益。
“最后一层,第一百层。”均衡观察者的声音响起,“这一层,规则改变。”
“你们将面对‘终极虚拟玩家’——它整合了所有虚拟玩家的学习数据,拥有最强的预测能力。”
“而且,这一层的收益计算改变:如果双方合作,各得1000分乘以乘数(50),也就是各得分。如果一方合作一方背叛,背叛者得分,合作者得0分。如果双方背叛,各得100分。”
“此外,这一层结束后,游戏强制结束。总得分将转化为某种‘实质奖励’。”
巨大的诱惑。
分对分。
如果团队合作,虚拟玩家背叛,虚拟玩家能独吞10万分;如果团队背叛,虚拟玩家合作,团队能拿10万分。
但如果双方都背叛,各自只有100分,损失惨重。
而双方都合作,各自5万分,双赢。
“这是最后一层,没有未来互动,没有长期考虑。”林默脸色凝重,“从博弈论角度,这是单次囚徒困境。理性选择应该是背叛——因为无论对方选什么,背叛的收益都大于或等于合作。”
“但对方也在这么想。”苏夜离说。
冷轩:“如果双方都这么想,结果就是双背叛,各得100分——最差结果之一。”
萧九:“那怎么办啊?”
陈凡盯着面前的终极虚拟玩家。那是一个光影组成的复杂结构,里面流淌着无数策略数据。
它也在“看”着陈凡。