小说每天学点博弈论全集人物励志王兴

《每天学点博弈论全集》：第六节破解囚徒困境的“一报还一报”

------第六节破解囚徒困境的“一报还一报”------

在“囚徒困境”中，我们知道：如果你总是想赢对方，那么结果可能得不偿失。因为对方也会全力反击，最后造成“两败俱伤”的局面。即使是“一报还一报”这种有效破解“囚徒困境”的理想策略也不例外。因为对任何行为及时有效的回报，以牙还牙，就陷入“循环报复”的局面，难以脱身。

人们一旦陷入“囚徒困境”之中，其中任何一方都无法独善其身，即使双方都有合作的意愿，也很难达成合作。这往往是指单次发生的囚徒困境而言的。而单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行，因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。

罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特开发并运用到锦标赛中的方法，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%-5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

在这个过程中，“惩罚”是通过报复的形式来体现的。也就是说，参与者时刻准备报复来自对方“无缘无故”的背叛。这样，善良能得到好处，报复也能得到好处。因此就衍生出了相对较好的“一报还一报”的形式。

“一报还一报”综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，但是不管过去相处的关系如何好，它总能被一个背叛所激怒，而迅速作出反应。

“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解，从而引出长期的合作。

“一报还一报”能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的行为。

要想确实实现良好的合作，那么，就要在持续的“重复囚徒困境”中有以下几点良好的表现：

1.不要嫉妒。

人们习惯于考虑零和对局，在这种情况下，一个人赢，另一个就输。比如下棋。为了能赢，一个参赛者必须在大部分时间里比对手做得更好。然而，生活中的大多数情况都是非零和的。双方可以都做得很好，也可以都做得很差。双方的合作是可能的，但并不是总能实现。这就是为什么“囚徒困境”是各种各样的日常情形的有用模型。

人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒，嫉妒导致企图抵消对方已经得到的优势。在“囚徒困境”的形式下，抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。在大多数情况下，这个目的是不可能实现的。

因此在一个非零和的世界里，你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的“重复囚徒困境”中，其他人的成功是你自己成功的前提。

比如，在生意场中，一个从供应商那儿买来东西的公司，妒忌供方的利润是完全没有意义的。任何通过不合作行为(如不按时付账)来减少这种利润的企图，都将激起供方的报复行动，报复行为可以采用多种形式，经常以不明显惩罚形式，诸如拖延发货，较低的质量保证，不愿意打折扣，或者不交换市场条件变化的信息。这种报复使得嫉妒代价很大。因此，买者不要担心卖方的相对的利润，而可以考虑是否有其他更好的购买策略。

2．不要首先背叛。

只要对方合作你也合作就会有好处。当然，你可以尝试更保险的方式，即先背叛直到对方合作，才开始合作。然而，这实际上是一个很有风险的策略，因为你的最初的背叛就可能引起对方的报复，并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复，这种反应就会一直延续下去。如果你宽恕了对方，你就得冒被欺负的风险。即使你能避免这些长远问题，对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。

另一个首先背叛需要冒很大风险的道理是，总是占“傻瓜”的便宜，短期内看似获利了，实际上，随着“傻瓜”群体的减少，你将没有便宜可占，最终导致自己的消亡。这个教训说明，虽然不善良在最初看来似乎是很有希望的，但长期下去它将毁坏使自己成功所必需的环境。

3．对合作与背叛都要给以回报。

“一报还一报”的成功给出了一个鲜明的建议：要回报。“一报还一报”的成功表明，它不仅与最初的各种规则相处得很好，而且能与那些可能在未来群体中占较大份额的成功的规则相处得很好，它不毁坏自己成功的基础，相反它在与其他成功的规则相互交往中繁荣起来。

如果每个人都使用“一报还一报”策略，那么对一个特定的个体的最好建议就是也采用“一报还一报”的策略。或者这么说，如果你能肯定对方是采用“一报还一报”，并且这种交道将持续足够长，那么，你最好也采用相同的策略。

也就是说，最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占“好说话”的规则的便宜的策略，那么，太多的宽恕就要付出代价。因此，对参与者的一个很好的建议是对合作和背叛都要给予回报。

4．不要耍小聪明。

在“囚徒困境”的情况下，人们容易耍小聪明，然而复杂的规则并不比简单的规则做得更好。事实上，这些规则的共同问题是，使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作，但是问题的关键是这些规则没有考虑到它自己的行为会引起对方的变化。对方对你的行为是有反应的，对方将把你的行为看作你是否回报合作的信号。因此，你自己的行为将会反射到你的身上。

试图使得分最大化的规则把对方看作环境的一个不变的部分而忽略了相互的作用，不管他们在有限的假设下所做的计算是多么的聪明。如果你离开双方相互适应的简单原则，那么你的聪明是不会有好结果的。

另一个过分聪明的方式是使用“永久报复”的策略。这个策略只要对方合作它就合作，但是一旦对方背叛一次，它就决不合作。由于这个策略是善良的，它与其他善良的策略相处得很好。并且它与那些完全随机的规则相遇时干得也不错。但它与许多其他规则相遇就干得很差，因为对于那些偶尔背叛但准备一旦受惩罚就撤回的规则来说，它太快放弃合作了。“永久报复”看起来似乎很聪明，因为它为避免背叛提供了最大的激励，但是它为了自己的利益显得太严厉了。

另外，在零和对策(如下棋)和非零和对策(如“重复囚徒困境”)之间有一个重要的不同。在下棋时，让你的对手猜疑你的企图是很有用的，你的对手越是怀疑，他(或她)的策略就越没效果。但是在非零和情况下，如此聪明不总是有好处的。在“重复囚徒困境”中，你要从对方的合作中得到好处。诀窍在于鼓励合作，一个好的方式就是清楚地表明你愿意回报，这就是“一报还一报”之所以如此有效的原因。

博弈课堂：

1.联翩而来的好运总是可疑的，只会占“傻瓜”的便宜是没有用的。

2.“一报还一报”从来没有一次在游戏中比对方得到更多的分！

* 温馨提示：关注微信公众号： xiaoyida_com ，回复 xsd94535 在手机上阅读完整章节！

------第二章纳什均衡：最理想的博弈------

博弈论中最基本的概念就是纳什均衡。纳什均衡指的是这样一种战略组合，这种战略组合由所有参与人的最优战略组成，也就是说，给定别人战略的情况下，没有任何单个参与人有积极性选择其他战略使自己获得更大利益，从而没有任何人有积极性打破这种均衡。
未完待续......欲知下回，请关注微信公众号： xiaoyida_com ，回复 xsd94535 获取完整内容！
----------
本小说内容节选自：人物励志小说 《每天学点博弈论全集》

作者：王兴
现有字数：16万字
最后更新于：2016年10月22日
----------
温馨提示：如何阅读完整内容？
方法一：点击下方 “阅读原文” 链接去读小说“每天学点博弈论全集”后续完整章节！
方法二：关注微信公众号： xiaoyida_com (优美小说节选)，回复 xsd94535 阅读后续完整章节！