生活中的博弈论2
标签:古玩 ------------
位置博弈的策略
------------
有这么一个大家都很熟悉的现象,那就是在每个大大小小的城市街道上,经常见到一些地段上的商店十分拥挤,形成一个繁荣的商业中心区,但另一些地段却十分冷僻,没什么商店。
更有意思的是,往往同类型的商家总是聚集在比较近的地方,比如肯德基、麦当劳之间总是紧紧相邻。再如超市现象,前两年有很多人对超市的布局发表了一些议论。因为有人注意到,如果在一条街上有2~3家超市的话,这几家超市经常会“相依为邻”,选址离得很近,倘若它们稍微分散地布置于街上,无疑对市民的购物提供相当的便利,因此他们认为超市“拥挤”在一起属于资源浪费。
类似的事情也发生于国内各省级电视台的节目播放。很多电视迷会发现,大部分电视台总是将最精彩的节目放在相同的时间段,甚至有些时候是在相同时间段播放类似的节目,比如你播“快乐大本营”,我就播“超级总动员”;你播“玫瑰之约”,我就播“单身男女”。人都说文人相轻,电视台也是这么相煎太急。
博弈论能够对这个现象作出科学的解释。首先对一个简单的博弈模型进行叙述:
假设有条完全笔直的公路,连接城市A到城市B之间的交通。这条公路上每天行驶着大量的车辆,并且车流量在公路上是均匀分布的。假设有两家快餐店,我们不妨假设为靠高速公路起家的麦当劳与肯德基,它们要在这条公路上选择一个位置开设快餐,招揽来往车辆。为了能够更加清晰地说明这个博弈,我们不得不画一张图。
再对该模型作一个合乎逻辑的假定:通常情况下,车辆总是乐意到距自己最近的快餐店购买食物。根据这个原则,从资源的最佳配置来看,麦当劳、肯德基应该分别开在1/4、3/4处是最优。
在这种均匀散布的情况下,每家快餐店都拥有1/2的顾客量,同时对于开车的人们总体来说,这种策略的选择,车辆到快餐店的总的距离最短。
然而,人生不如意事十之八九,天并不总能遂人之愿。肯德基与麦当劳都是百年老店,自然是精明之至,从经济学上就是具有经济理性。他们只要手段合法,总是希望自己的生意尽可能地红火,至于其他人的生意的好坏则与己无关。
出于这种理性,肯德基分店经理肯定会想到:如果我将店铺从3/4点处向左移一点,那么1/4点之间的中点不再是1/2点处,而是位于1/2点的靠左边一点。这等于说,这一移位,肯德基将从麦当劳夺取部分顾客,这对于肯德基单方面来说无疑是一个好主意。当然麦当劳也不甘示弱,作为一个“理性人”,麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。
不难想象,双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态,甲乙两人相依为邻且相安无事地做起快餐生意。如果我们放宽条件,不是两家快餐店,而是很多家快餐店,很容易分析得到结果:这些快餐店仍然会在1/2处设店达到纳什均衡。
同样的道理,如果地段的繁华等其他原因在一条路上都可以认为到处相同的话,没有一个商家会将自己安置于某条路的一头,只要条件许可,超市将几乎趋向于相依为邻,这种现象完全可以看做公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理,在博弈论中称为位置博弈。
电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上,我们只要将时间设想为上述案例中的公路,就不难分析出:市场竞争的结果就是,观众青睐的精彩节目将集中在同一黄金时段。在这种情况下,电视台之间的竞争会更加激烈,为了获得收视率,电视台只能在制作质量上下功夫,最终获得实惠的仍然是广大观众。
西方国家在名义上是民权政治。实际上,选举上台的各个政党之间的政策并没有多大差别。就拿美国来说,民主党与共和党为了能够获得总统大选的胜利,必须要尽量争取最多的选民。两党在制订政策时,必然以这个目的为原则。我们把选民的政治主张看成是位置博弈中的均匀分布的人群,把两个政党看成是两个店铺,最终的结果必然是两个政党的政策趋向于折衷,并且非常近似。从这个意义上来说,西方政党的换届选举倒真是有“换汤不换药”的味道。
------------
猎鹿模型的合作哲学
------------
社会学告诉我们,在人类文明之初的原始社会,人们维生的方式主要是狩猎。
话说某个部落有两个出色的猎人,某一天他们狩猎的时候,看到一头梅花鹿。于是两人商量,只要守住梅花鹿可能逃跑的两个路口,梅花鹿就会无路可逃。只要他们能够齐心协力,梅花鹿就会成为他们的盘中餐。不过只要其中有任何一人放弃围捕,梅花鹿就会逃跑掉。
“福兮祸之所依;祸兮福之所伏。”有时运气太好并不一定有好的结果。正当两个猎人严阵以待,围捕梅花鹿的时候,在两个路口都跑过一群兔子,如果猎人去抓兔子,会抓住4只兔子。从维持生存的角度来看,4只兔子可以供一个人吃4天,1只梅花鹿如果被抓住将被两个猎人平分,可供每人吃10天。这里不妨假设两个猎人叫A和B。
在这个矩阵图中,每一个格子都代表一种博弈的结果。具体说来:
1.左上角的格子表示,猎人A和B都抓兔子,结果是猎人A和B都能吃饱4天;
2.左下角的格子表示,猎人A抓兔子,猎人B打梅花鹿,结果是猎人A可以吃饱4天,B则一无所获;
3.在右上角,猎人A打梅花鹿,猎人B抓兔子,结果是猎人A一无所获,猎人B可以吃饱4天;
4.在右下角,猎人A和B合作抓捕梅花鹿,结果是两人平分猎物,都可以吃饱10天。
在这个博弈中,根据纳什均衡的定义,应用博弈论中的“严格劣势删除法”(有兴趣的读者可以找本书参考文献中的相关书籍阅读,这里不做详细介绍。)可以得到该博弈有两个纳什均衡点,那就是:要么分别打兔子,每人吃饱4天;要么合作,每人吃饱10天。
两个纳什均衡,就是两个可能的结局。两种结局到底哪一个最终发生,这无法用纳什均衡本身来确定。
比较[10,10]和[4,4]两个纳什均衡,明显的事实是,两人一起去猎梅花鹿比各自去抓兔子可以让每个人多吃6天。按照经济学的说法,合作猎鹿的纳什均衡,分头抓打兔子的纳什均衡,具有帕累托优势。与[4,4]相比,[10,10]不仅有整体福利改进,而且每个人都得到福利改进。
换一种更加严密的说法就是,[10,10]与[4,4]相比,其中一方收益增大,而其它各方的境况都不受损害。这就是[10,10]对于[4,4]具有帕累托优势的含义。
在经济学中,帕累托效率准则是:经济的效率体现于配置社会资源以改善人们的境况,主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善我就必须损害你或别的什么人,要想再改善你就必须损害另外某个人。
一句话简单概括,要想再改善任何人都必须损害别的人了,这时候就说一个经济已经实现了帕累托效率。
相反,如果还可以在不损害别人的情况下改善任何人,就认为经济资源尚未充分利用,就不能说已经达到帕累托效率。效率是指资源配置已达到这样一种境地,即任何重新改变资源配置的方式,都不可能使一部分人在没有其他人受损的情况下受益。这一资源配置的状态,被称为“帕累托最优”(Pareto optimum)状态,或称为“帕累托有效”(Pareto efficient)。
目前在世界上比比皆是的企业强强联合,就接近于猎鹿模型的帕累托改善,跨国汽车公司的联合、日本两大银行的联合等等均属此列,这种强强联合造成的结果是资金雄厚、生产技术先进、在世界上占有的竞争地位更优越,发挥的影响更显著。
总之,他们将蛋糕做得越大,双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好,还是其他什么重组方式,最重要的在于将蛋糕做大。在宝钢与上钢的强强联合中,宝钢有着资金、效益、管理水平、规模等各方面的优势,上钢也有着生产技术与经验的优势。两个公司实施强强联合,充分发挥各方的优势,发掘更多更大的潜力,形成一个更大更有力的拳头,将蛋糕做得比原先两个蛋糕之和还要大。
猎鹿模型的讨论,我们的思路实际只停留在考虑整体效率最高这个角度,而没有考虑蛋糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。
我们不妨做这样一种假设,猎人A比猎人B狩猎的能力水平要略高一筹,但B猎人却是酋长之子,拥有较高的分配权。
可以设想,A猎人与B猎人合作猎鹿之后的分配不是两人平分成果,而是A猎人仅分到了够吃2天的梅花鹿肉,B猎人却分到了够吃18天的梅花鹿肉。
在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人A的利益。我们假想,具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎人A的狩猎热情遭到伤害,这必然会导致整体效率的下降。进一步推测,如果不是两个人进行狩猎,而是多人狩猎博弈,根据分配可以分成既得利益集团与弱势群体,这和我国的现状非常相似。
我国改革的进程在九十年代中期以前是一种帕累托改善的过程。但是随着各种复杂的不确定因素影响,贫富差距逐渐拉大,基尼指数甚至超过0.45的国际警戒线,帕累托改善的过程受到干扰。
这种情况如果继续下去,社会稳定和改革深化必将受到决定性的冲击。我们的党和政府已经关注到弱势群体的生存状态,并适时地提出建设和谐社会的改革目标,纠正了一些错误思潮,将改革的进程拉回到健康的轨道。
------------
“囚徒困境”的深刻哲理
------------
在博弈论中,有一个流传颇为广泛的故事,叫做“囚徒困境”(Pris-oner's Dilemma)。
话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人A和B,并从他们的住处搜出被害人家中丢失的财物。但是,他们都矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。
这个时候,聪明的警官找他们谈话,分别告诉他们说:“你们的偷盗罪确凿,所以可以判你们2年刑期。但是,我可以和你做个交易。如果你招了,他不招,那么你会作为证人无罪释放,他将被判10年徒刑;如果你招了,他也招了,你们都将被判5年有期徒刑;如果他招了,你不招,他无罪释放,你被判无期徒刑,终身囚禁;如果你们都不招,各判2年。”
一般读者可能会误认为,既然两个囚犯最好的结果是都不招供,两人都只被判2年,那么,两个囚犯都选择不招供就是这个博弈的最终结果。
然而,人算不如天算,“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果,即两个囚犯统统招供,结果都被判有期徒刑5年。
反过来说,这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行,认罪伏法。对一个博弈来说,游戏规则非常地重要,适宜的规则才能够达到目的。在我们的日常生活中莫不如此,规则制订者往往利用条件制定出有利于自身的规章制度。
读到这里,很多读者不禁会问,为什么两个人都选择了“招”,傻到接受这种最坏的结果呢?
在解释这个问题之前,笔者首先说明一下,囚徒困境和其它的博弈一样,都需要有2个前提假设:囚徒A和B两人都是自利理性的个人,即只要给出两种可选的策略,每一方将总是选择其中对他更有利的那种策略;两人无法沟通,要在不知道对方所选结果的情况下,独自进行策略选择。
囚犯“思想搏斗过程”大致如下,囚犯A的内心活动是这样:假如他招了,我不招,我就要将牢底坐穿,招了最坏坐10年,还是招了合算;假如他不招,我也不招,只坐2年的牢(因无法串供,风险太大);如果我招,他不招,马上被释放,也是招了合算。
因此,无论囚犯B是坦白还是沉默,囚犯A采取坦白的策略对自己更为有利。
同样,以上推理也适用于囚犯B。结果两个囚徒都坦白了,都被判刑5年。
囚徒困境之所为被称为“困境”,正是在于:如果A、B二人都保持沉默,则都只被判刑2年,显然比两人都坦白的结果要好。
两名囚犯都作出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的选择。照博弈论的说法,这是惟一的纳什均衡点。
除了这个均衡点,A与B的任何一人单方面改变选择,他只会得到更加不经济的结果。而在其它的结果中,比如两人都不坦白的情况下,都有一人可以通过单方面改变选择,来减少自己的刑期。可是两人经过一番理性计算后,却选择了一个使自己陷入不利的结局。
其实“囚徒困境”不允许囚犯A和B进行沟通的假设,与实际生活中大部分情况的现实是有差异的。比如,在爱情博弈中,很多恋人会经常花前月下、彻夜厮守;在企业的价格战中,企业之间也会多有沟通,甚至结成价格联盟;即使是20世纪下半世纪的美苏军备竞赛中,两个超级大国也会经常进行外交交谈,及时交换信息。
因此不妨将条件放宽,允许囚犯A和B在审讯室里在一起呆上10分钟,给予他们充分的串供的机会。
很明显,双方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立一个口头协议,要求双方都不去坦白。然后,双方再单独被提审。
我们不妨设想囚犯A的心理活动。他一定会认为,如果囚犯B遵守约定的话,则自己坦白就可获得自由;如果囚犯B告密的话,若自己不坦白就会被终生囚禁。事实上,囚犯A的策略并没有因为简单的沟通或协议而摆脱两难境地。对于囚犯B也是一样。
虽然“坦白从宽,抗拒从严”的道理人人都懂,而从博弈论的角度来看,实际上就是一个囚徒困境的应用。“囚徒困境”被看成是博弈论的代表性案例,不仅因为其简单易懂,还在于它的现象在日常生活中广泛存在。
比如,恋人们在恋爱中的海誓山盟,最终还是分手;企业之间相互沟通合作结成战略关系时是信誓旦旦,但价格战仍然会爆发;美苏两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年。
囚徒困境的游戏规则,能够让狡猾的罪犯招供,得到应有的惩罚,固然不是坏事。然而,我们不妨假设囚徒A和B完全都是清白的具有理性的大大的良民,这个博弈的纳什均衡并不会因为他们的清白而改变。如果在现实生活中,审案存在对身体的残害,完全可能造成屈打成招的冤假错案。在中国历史上,这种冤案并不是什么稀少的事情。
从更深刻的意义上讲,囚徒困境模型动摇了传统社会学、经济学理论的基础,这是经济学的重大革命。
传统经济学的鼻祖亚当斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制:“当个人在追求他自己的私利时,市场的看不见的手会导致最佳经济后果。”这就是说,每个人的自利行为在“看不见的手”的指引下,追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。
传统经济学秉承了亚当斯密的思想。传统经济学认为:因此经济学不必担心人们参与竞争的动力,只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正,自然会增进社会福利。
但是囚徒困境的结果,恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件,但无法确信其他参与者是否能与自己一样遵守市场规则。
简单地说就是,在一个集体里,有可能每个人的选择都是理性的,但对于整个集体来说其结果却不是理性的。比如大家所熟悉的股市。股市的参与人数虽然十分庞大,但实际上是只有多与空、机构与机构、散户与散户之间的双方“博弈”,有人将此称之为“零和游戏”。
股市“博弈”双方的多数也处在一种“囚徒困境”中。对于股市中博弈双方来说,当股市涨到最高点时,无论对散户,还是对机构来说,任何一方的最大利益在于“我卖,而你没卖,我获得最大盈利”,而对于双方来说最理想的状态是“大家都不卖,把股市推向一个更高点位,大家都有更多利润空间”。但实际结果却大相径庭,市场“无形之手”没起作用,却是“囚徒困境”起到了决定性的作用。
佛家讲因果报应,儒家讲究“财自道生,利缘义取”。从“囚徒困境”看来,如果一味地想算计别人,算来算去,最后却算计到自己头上来了。如果我们将“囚徒困境”故事中的无期徒刑改为死刑,那么“机关算尽太聪明,反误了卿卿性命”用在这里是再恰当不过了。
那么怎么样才能摆脱“囚徒困境”呢?
博弈双方都付出代价,失去自己不愿失去的东西,但只有这样才能共存并且摆脱囚徒困境,这有如壮士断臂,不得不为,也乐得为之。
如果说“兄弟阋于墙,共御外侮”是理想化的摆脱囚徒困境的策略,那么出卖“兄弟”以还得自己的平安,则是处于囚徒困境下本能的选择。趋利避害是人的本能,在经济行为和社会行为中这一本能都鲜明地体现着。
值得注意的是,并不是所有的“囚徒困境”都需要走出来或都需要解脱。如果所有的罪犯都走出了困境,那么将对社会产生灾难性后果,社会将充满了犯罪和混乱。
------------
“囚徒困境”的破解:合作的约束
------------
“不识庐山真面目,只缘身在此山中。”严格囚徒困境的前提条件是博弈各方不可以进行合作,也就是不能够制订有约束力的协议。但实际上,合作是文明的基础,比如兴修水利、组织国防、创建企业等都是合作而产生的,无怪乎哲学家卢梭写了本书《社会契约论》,认为契约是整个人类社会存在的前提条件之一。
如果囚徒困境只是一次性的博弈,签订协议是毫无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,就是博弈需要重复若干次,当然至少大于一次。
就恋爱博弈来看,男女双方在交往的过程中,随时都在博弈,因为相爱的过程中任何一个时点都是有可能分手的。用博弈论的术语来说,这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩迭宕正是这个博弈模型的表现。
当然,那种素不相识一对男女,偶尔在酒吧中相遇,于是宾馆订房、春梦一场,拂晓之后就各自分道扬镳的一夜情,是理所当然的一次性囚徒困境博弈。
我们在这里要注意的是,重复博弈与我们前面所提及一般性的动态博弈是不同的。在多轮动态博弈中,参与者能够了解到博弈的每一步中其他参与者在这个参与者选择某种策略下的行动,而重复博弈的参与者无法了解到在任何一个步骤中,其它参与者的策略选择。
囚徒困境一旦从一次性博弈转变为重复博弈,情况会发生非常大的变化,博弈的结局也就是纳什均衡点可能会完全不同。
举个例子,大家都知道国外的黑手党组织严密,对待背叛者的惩罚非常残忍。一个黑手党成员告发别的黑手党成员,一定会被组织谋杀。我们假设前面的囚徒困境故事不是发生在中国,而是意大利,囚犯A和B都是黑手党成员。他们很可能宁愿被判处终生囚禁,也不愿意出狱之后被同伙干掉。
实际上,在重复型的囚徒困境中,并不是签订合作协议很困难,困难的是这个协议对博弈各方是否具有很强的约束力。一个合作契约建立的困难在于任何协议签订之后,博弈参与者都有作弊的动机。
因为至少在作弊的这一局博弈中,作弊者可以得到更大的收益。还是用爱情来打比方,常言道:“婚姻是走向爱情的坟墓”,但从博弈论的角度来看,婚姻恰恰是男女双方签订的一种协议,具有一定约束力的协议,因为一旦对方背叛婚姻,就会受到家庭的压力与社会舆论的谴责。
在博弈理论中,博弈专家已经用数学证明出,在无限次重复博弈的情况下,合作可能是稳固的。如果博弈无穷次,双方就会逐渐从互相背叛走向互相合作。
因为任何一次背叛都会招致对方在下一次博弈时的报复;而双方都采取合作态度会带来合作收益。但是在现实社会生活中又不完全这样,人总是要死的,因而人与人之间的博弈不是无限次的。当一个人知道他终将退出博弈时,他就可能不再害怕此后别人对他的报复,从而可以在博弈结束前做损害他人的事情,这就回复到有限次重复博弈的境况。
对于有限次囚徒困境博弈,美国密西根大学的罗伯特爱克斯罗德教授(Robert Axelrod)曾经做过一个著名的博弈论试验。这个试验的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”模型中一个囚犯。他们把自己的策略编入计算机程序,然后这些程序会被成双成对地融入不同的组合。分完组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间作出选择。试验参与者连续玩上200次,于是这就更逼真地反映了日常人际关系。
试验的结果表明,囚徒困境在同样重复数十次或一百次的情况下,只要两个参与者仍然还是理性人(这可以在该试验的参加者所编程序中反映出),博弈的结果仍然是囚徒A和B都把对方招供出来。为了解释这个问题,我们不妨讨论一个博弈两次的模型。
我们首先考虑第二次博弈的情况,由于这是最后一次博弈,自然没有后面的博弈对这次博弈的影响,因此也就不必为将来打算,个人都只追求这次博弈的最大利益,于是第二次博弈的结果应该和一次囚徒困境博弈完全一样,自然是囚徒A和B都坦白,达到纳什均衡。
现在再来考虑第一次博弈的情况,博弈参与者A已经很清楚最后一次博弈时,B一定会招供,那么即使囚徒A不坦白,在下一次博弈时,B也一定会招供,这次博弈A不坦白对下一次博弈没有任何好的影响,那么作为理性人的A一定仍然选择坦白。对于B,也是一样的道理。由此可见,第一次博弈自然也和一次性囚徒困境博弈完全一样。
其实不论是两次博弈,还是3次,4次,甚至是上百次,只要是有限次数的重复囚徒困境博弈,其思路方法都是一样的。这种方法就是我们在前文中提到的倒推法(Backward induction),这在博弈论中,对于重复博弈与动态博弈是一种重要的分析方法,当然这对我们在日常生活中分析问题也不无裨益。
比如,汽车企业之间的价格战往往不是一次性降价,而是一轮一轮地降价,这种类似的问题都可以用有限次囚徒困境模型来分析,事实情况和我们前面的分析完全相同,汽车企业之间每一次的价格博弈的纳什均衡只有一个,那就是全体降价。
笔者在这里最后还要补充一个问题,就是多人重复囚徒困境的博弈。实际上,生活中的两人博弈毕竟是特例,绝大部分的情况还是多人博弈,比如上面提到的汽车价格战。在多人博弈中,只有其它所有参与者在第k-1次博弈中都是合作的,某个参与者才会在k次博弈中采取合作策略。
然而,这一策略会带来一个协调问题,任何人的一个小小失误都会导致采取背叛策略的其他参与者的数量如同滚雪球一样地愈演愈烈,最终导致所有人的背叛。更糟糕的是,一旦出现这种情况,没有任何人会主动开始合作。因此,我们可以这么说,多人重复囚徒困境(无论有限或无限)中稳定的合作几乎是不可能的。
比如1992年英镑事件前后,可以明显感觉到有关游戏各方的思路与分析、行为模式。游戏中的德国、英国、意大利等的共同利益是建立统一的欧洲共同体;而它们在考虑统一货币的利益时,均在强调自己的利益;德国在其中的地位很特殊,它具有双重身份,既是欧洲汇率机制的基础,也是德国货币稳定的保证。这就形成了“囚徒困境”的博弈模型。
索罗斯的量子基金发起攻击的主要原因在于:德国联邦银行总裁“暗示”不会放弃德国的利益。而英国、意大利等国家在本国利益受到损害时,也必然倾向于自保。而在这种分歧加剧的背景下,无疑会加重有关各方拒绝承认错误的立场,这又进一步加重了分歧,索罗斯正是利用这套机制获利的。
这个结论似乎是一个令人绝望的,但绝望之处必有希望,欧元已经成功地在欧洲大陆通行,成为可以与美元相抗衡的硬通货。这其中的道理,笔者在后面将告诉读者,什么样的游戏规则可以保证博弈各方稳定合作。
------------
威胁、承诺、作弊与惩罚
------------
西方哲学家卢梭说过,“究竟是什么不可思议的艺术,使人类找到一种法,通过强迫人们服从,从而使他们获得自由?”
其中最著名的一个答案是由托马斯霍布斯给出的。霍布斯是现代英国君主立宪政体的理论奠基人,其代表作是政治学名著《利维坦》(Leviathan)。所谓“利维坦”,是《圣经》中的一种力大无穷的巨兽名字的音译,在书中意指一个强大的国家。
霍布斯说:“人的自然本性是自私自利、恐惧、贪婪、残暴无情,人对人互相防范、敌对、争战不已,像狼和狼一样处于可怕的自然状态中。于是出于人的理性,人们相互间同意订立契约,放弃各人的自然权利,把它托付给某一个人或一个由多人组成的集体(如议会、董事会、法院等),这个人或集体能把大家的意志化为一个意志,能把大家的人格统一为一个人格;大家都服从他的意志,服从他的判断。这个人或这个集体就是主权者,而像这样通过社会契约而统一在一个人格之中的一群人就组成了国家。这就是伟大的利维坦的诞生,用更尊敬的方式来说,这就是活的上帝的诞生。”
按照他的观点,没有集权的合作是不可能产生的。因此,一个有力的政府是必要的。
霍布斯对合作协议的观点是:“不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”这就是说,没有权威的协议并不是导致民主,而是导致无政府状态。最后,霍布斯总结道,“在一切政体中,最坏的政体并不是专制而是无政府状态。”
霍布斯的观点虽然有些偏激,但却不无道理。根据博弈论的观点,无论是一次性或有限次重复博弈,“囚徒困境”产生这种结局的原因是两个囚犯都基于自身利益的角度考虑,这最终导致合作协议无法稳定遵守。
实际上,决定合作协议是否能够被囚徒双方执行的最关键的基本要素有两个,即承诺与威胁。所谓承诺,在囚徒困境中就是囚徒向对方相互许诺,在下一次博弈时会采取让对方有利的行为,也就是不坦白与对方合作;所谓威胁,就是某个囚徒告知对方如果下一次博弈时其采取招供策略而不合作,在第三次博弈时就会采取不利于对方的策略,即招供。
其实,在社会生活中,承诺与威胁是非常常见的现象。比如女生告诉她的男朋友,如果他敢结交其他的女生,只要被发现一次,就立刻分手,这是威胁;而她男朋友向她发誓绝对自己是个专一的情圣,决不会背叛爱情,这就是承诺。
再如在外交中,美国经常向中国承诺只承认一个中国的原则,我国政府向国际社会承诺中国强大也决不会采用霸权政策。很多常见的耳熟能详的俗语都是承诺与威胁,比如“人不犯我,我不犯人”、“坦白从宽,抗拒从严”、“以眼还眼,以牙还牙”等。
合作的关键是承诺与威胁的可信度有多大。因为承诺与威胁都是在博弈者进行策略选择之前作出的,如果承诺与威胁对博弈者的约束力越小,那么合作的可能性就越小。比如很多手慈心软却遇人不淑的妻子,一次又一次地原谅胡作非为的丈夫,希望用真情感动他回心转意。但结果却往往是丈夫反而得寸进尺,因为他知道无论如何,只要用一些花言巧语假装可怜的承诺就会获得宽恕。在这种情况下,妻子的威胁对丈夫是毫无作用的。
假想一个可信度很小的承诺与威胁。比如参加考试的学生承诺在没有老师监考的时候决不作弊,但却不难想象监考老师不在的时候,考场中将会是一种什么样的景象。
学生并不都是道德高尚、具有很强自制能力的人。即使在有老师监督考场,并威胁如果有学生敢于顶风作案,必然严惩不怠,比如考卷直接判零分。设想一下,如果这种威胁仅仅是威胁,在学生作弊后并未真地采取什么严惩的行动,那么学生作弊的风险非常小,考场纪律依然与没有老师一样。由此可见,监考老师在一定程度上不得不要做一个霍布斯所说的“利维坦”式的专制者。
从实际的整个社会生活说来,对于有限次重复博弈合作问题的解决主要有两个典型方法,那就是社会道德与国家法律。至于其他解决方法在本质上并不会超脱于它们。
------------
猴子的故事与道理约束
------------
亚当斯密在写完《国富论》与市场这只“看不见的手”之后,转而又写了本《道德情操论》,专门论述个人道德与社会道德是维持市场经济的基本要素之一。
亚当斯密告诉我们:最商业化的社会,也是最讲究道德的社会,比如16世纪时荷兰人就比英国人值得信赖,当时荷兰的商业比英国发达,反之亦然。
人类道德的产生一般有两种解释:
一是纯文化因素起作用,有些国家道德程度高,有些国家则低。如北欧人之间的道德感高于意大利人的道德感。
二是宗教信仰的原因,怕上帝惩罚你,所以有宗教信仰的人道德感就要强于一般人。如在美国,教会的人道德感比较强,因为他们认为若不道德,将来会进地狱。在这种解释中,道德是外界强加于人们的,使人们不违约。而笔者主要想给出的是第二种解释,即博弈论是如何解释道德的。
道德可以打破囚徒困境的难题,化解个人理性与社会群体理性的矛盾,维系整个社会经济体系的稳定与发展。关于这一点,我们来看一个猴群博弈的故事。近两年这个故事一直流传于中文网络各大论坛与社区。
有一群猴子被关在笼子里。在笼子里的上方有一条绳子,绳子拴着一个香蕉,绳子连着一个机关,机关又与一个水源相连。
猴子们发现了香蕉,有猴子跳上去够这个香蕉,当猴子够到时,与香蕉相连的绳子带动了机关,于是一盆水倒了下来,尽管够到香蕉的猴子吃到了香蕉,但其他猴子被淋湿了。这个过程一直重复着。
猴子们发现,尽管有猴子吃到香蕉,但吃到香蕉的猴子是少数,而其余的大多数猴子都被淋湿。经过一段时间,有一伙猴子自觉地行动起来,当有猴子去抓香蕉时,它们便揍那个猴子。每当有猴子去取香蕉,就有其他的猴子因愤怒而自动地去撕咬那个猴子,久而久之,猴子们产生了合作,再也没有猴子敢去取香蕉了。
在这个故事里,猴子间产生了“道德”。如果这群猴子构成一个社会,它们也繁衍下一代,它们会将它们的经历告诉下一代,渐渐地猴子们便认为取香蕉的后果对其他猴子不利,从而认为去取这个香蕉是“不道德的”,它们也会自动地惩罚“不道德的”猴子。当然这只是一个故事,但这个博弈故事却反映了人类的道德的产生过程。
霍布斯认为人类在没有任何约束的自然状态中,就是“人与人之间像狼与狼一样”,是“每个人对每个人的战争”。在这种状态中,每个人都力图保护自己的利益,并企图占有别人的东西,此时,每个人是每个人的敌人。此时没有任何规则,没有财产,没有正义或不正义,只有战争。武力与欺诈是战争中的两大基本德性。因此人类在自然状态下无法产生文明。
与国家一样,道德也是对某些不合作行动的惩罚机制。这种机制的出现使得人类从囚徒困境中走出来。人的正义与非正义的观念产生了道德感。
道德感自然地使得人们对不道德的或不正义的行为谴责或者对不道德的人采取不合作,从而使得不道德的人遭受损失。这样,社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道德,正义或非正义的观念,就自动地产生了调节作用。
当然,道德约束有其自身的局限性。它对不道德的行为的抑制是有限度的,当不道德的行为带来的利益大于道德的满足时,道德约束的作用便失效。
假设笼子中的这群猴子由于天气炎热,想要冲凉,却因道德约束无法用盆子中的水。这时,终于出现了一位猴子A。这只猴子在无意中碰到了香蕉,理所当然地饱受老拳。但在这个过程中,猴子们享受到了冲凉的乐趣。等身上的水干了之后,某只猴子B在无意中碰撞了A,使A又一次接触到了香蕉,于是,猴子们享受了第二次冲凉,A遭到了第二次痛殴。在此之后,只要大家有冲凉的需要,就总有一只猴子挺身而出,对A进行合理冲撞。大家对A的态度也有了明显的不同,在平时大家会对A异常温和,以弥补在冲凉时为维护规则而不得不对它进行的暴力举动。
一天,在大家冲凉时,饱受折磨的A闻到了香蕉的清香,生物本能使它在别的猴子没有注意到时将香蕉吃掉。而且此后没有了新的香蕉来填补空缺。于是猴子们陷入了另一个尴尬境地:没有冲凉的水,也没有香蕉。于是,另一个规则便形成了。猴子在烦躁的时候会痛打猴子A出气,猴子A不得反抗。当笼子里的旧猴子被新猴子换掉时,新猴子会在最快的时间内学会殴打猴子A。
终于有一天,老天有眼,历尽沧桑的猴子A被另一只猴子代替了。猴子们失去了发泄的对象,只能任意选取一个目标进行攻击。从此以后,笼子里的猴子们不吃不喝不冲凉,唯一的举动就是打架。
这就是社会整体道德沦丧的过程。
在生活中的道德约束失灵也很常见。所有的人都知道,拾金不昧是美德。当拾到别人丢的100块钱时还给失主不仅有道德满足感,还会受到社会的表扬,建立起自己的美誉;若不及时交还失主并很容易被发现的话,则会受到严厉的谴责并失去社会信誉。
假想一下,当拾到别人遗失的价值上百万的古玩名画时,极大的可能是归为己有。这是因为其归还物品所受表扬的效用(道德满足感)与不归还物品所受谴责的效用之和远小于该价值巨大的物品带给他的效用。这种情况下,道德作用失效,法治就不可替换地成为约束人们行为的主要手段。
------------
为什么要有法律?
------------
100多年以前,粱启超曾说过:“我国成文法之起源不可确指,然以数千年之思想往往视法律与命令同为一物。”直至今日,很多人在骨子里面往往还是视法律和命令同为一物。
从命令的角度来理解法律,是指个人意志或某个集团的意志以上下级纵向关系的方式传达,具有直接的强制力,在命令者与被命令者之间缺乏公正程序、严格的概念解释以及独立的第三者裁判等中间环节或者客观机制作为媒介。这样的法律往往是朝令夕改,其约束力并不能长久保持。
更严重的是,这种法律经常演变成是权力的合法外衣,为个人私欲谋取利益,而法律不再成为凌驾于社会生活博弈的超然之物,而是让博弈又多了一个权力者的不公平参与。真正的法律是在顾及社会各方利益博弈均衡的结果,在社会博弈中具有独立性,不参与博弈。
同时,合理的法律必须要有强制性,不管是对社会大众还是掌握权力的人,都拥有至高无上的权威,所有的人都必须遵守法律的约定,包括制定与执行法律的人,否则必然要受到无法逃脱的惩罚。
在这样一种法治环境中,法律必然可以改善囚徒困境。我们来看这样一个例子。如所前述,我们假定执法人员独立于博弈之外,有公司A与公司B是商业上的合作伙伴,公司A经常向公司B购买原材料,由于两家公司在不同的城市,于是两个公司经过谈判之后签订买卖合同,一般在一周最后的那一天,公司A将现金打入公司B的银行账户,公司B则发货到公司A,若违约则处以2~5倍罚款。
实际上,如果公司A与公司B都是理性人,那么他们的合作就是一个有限次数重复博弈,在社会不存在法律的情况下,在两个公司任何一次交易中都有可能存在其中一家公司不遵守合同,逃款或逃货,即使公司A现金充裕,而公司B货源充足。所谓的熟人欺诈也是这个道理。
然而,在我们理想的法律环境下,公司A和B最佳策略都是合作。不妨假设公司A与公司B每年的交易都有十几次,平均每笔生意为100万,若违约则罚款200万。
见上图,在这个博弈中:
1.在矩阵的左上角,公司A和B都选择合作,双方收益均为20万(指公司A与公司B的利润);
2.在矩阵的左下角,在公司A付款,而公司B不发货,A损失100万,B收益100万;
3.在矩阵的右上角,公司A不付款,公司B发货,公司A收益120万(其中包含20万的利润),公司B损失80万(指公司B货物的成本,也就是收入减去利润);
4.在矩阵的右下角,公司A不付款,公司B不发货,双方收益为零。
当然,这里还要说明的是这个博弈中没有考虑商业信誉的问题,商誉是社会道德中的问题,后面笔者会详细讨论。
很显然这是一个有限次重复博弈的囚徒困境,注意到前文所介绍的模型都是对称的,这个博弈则是非对称博弈,这更加贴切于日常生活的真相。
在没有法律背景的条件下,双方选择不合作是自然的纳什均衡点。然而引入强制性的法律则不同,这时他们所签合同具有法律效应,一旦有一方违约,另一方有权罚款其200万元,并且法院可以强制执行。在这种情况下,两个“囚徒”,也就是公司自然都会采取合作策略,完成合同对各方所要求的行动。简单说来,就是法律改变了两个公司博弈的均衡结果。
霍布斯认为,国家以法律形式规定对某种行为如“违约”采取惩罚措施,但是如果惩罚措施不力,即使扣除惩罚的成本,行动者从“违约”策略中获取的好处大于他采取“守信”策略所带来的好处,那么国家的法律措施是无效率的或者说是低效率的。因此国家法律的制定应以抑制对他人的危害行动为原则。
这就是法律制定的第一条原则:效率原则。效率原则是从对社会的整体考虑分析得出的,从这个意义上讲,法律越严格越好,越严格越有效率。
强制性有效法律是非常重要的。在冷战时期,美苏两个超级大国40多年的军备竞赛反证出这一点。尽管他们双方签订一些制止军备竞赛的协议,但因缺乏一个世界性的公平合理又具有强制性的法律环境,其结果仍然是陷入无法解脱的囚徒困境。
类似的还有各国的贸易保护主义的永恒倾向也很能说明这个问题,除非某一天出现全世界的国家都得到统一,建立一个全球性政府才可以彻底解决这些国与国之间的囚徒困境问题。
法律制定的第二条原则是,法律对犯法者的惩罚应以与犯法者给社会或他人造成的危害相等为原则,这就是公平原则。用简单的一句话说,法律惩罚太重对犯法者不公平,惩罚太轻则对社会或他人不公平。
因此在不同的国家以及在同一个国家的不同时期,对这两个原则的态度是不同的。法律制定的这两条原则要根据不同时代,不同社会的具体状况而各有侧重。
就目前我国的社会现状来说,国家法律与立法执法的重要性日益凸现。我们从法律制定的第一条原则来看,违反契约的惩罚越是严厉并可信,则博弈者违约的可能性越小,这是路人皆知的道理。
再从法律制定的第二条原则来看,权力对法律公平性的侵害有损法律的权威性与公正性,这也是众所周知的。“乱世用重典”,通过上述分析,读者您认为目前的中国社会应采用什么方式,才能适宜于治理、整顿、重构目前的社会系统运行状态呢?
------------
爱克斯罗德试验中的针锋相对策略
------------
如果没有外部强制力,囚徒困境中的参与者怎样才可以维持合作呢?
这是一个非常实际的问题。比如在国际事务上,国家与国家之间经常就某些问题达成一定的协议,这种协议我们在前面解释过,由于不存在一个世界性的政府,约束力往往很小。
对于这个问题,有这样一种答案。如果一方采取不合作的策略,另一方随即也采取不合作策略并且永远采取不合作策略,在博弈论里面称之为触发策略(Trigger strategy),或称冷酷策略。
如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作策略,双方便永远进入不合作的困境。因此,只要有人采取触发策略,那么双方均愿意采取合作策略。
但是这个策略面临着这样一个问题:如果双方存在误解,或者由于一方发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的策略。也就是说,这种策略不给对方一个改正错误或解释错误的机会。
美国密西根大学罗伯特爱克斯罗德教授那个著名试验,给出了这个问题更好的答案。爱克斯罗德邀的这些人都是政治学家、数学家、经济学家、社会学家。获胜者是加拿大多伦多大学的拉波波特写出的针锋相对(tit-for-tat)策略。说穿了,所谓针锋相对策略,就是胡萝卜加大棒的原则。
爱克斯罗德在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有任何权威干预每个人的决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
这个游戏共进行了两轮。在第一轮游戏中,共有14个程序参加竞赛,并附加上爱克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),总共运转了200次。结果得分最高的程序是加拿大学者罗伯布编写的针锋相对策略程序。
这个程序的特点是:第一次对局采用合作的策略,以后每一步都紧紧跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。爱克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即“善良的”;第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的”;第三,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作,即“宽容性”。
为了进一步验证第一轮游戏得到的结论,爱克斯罗德邀请了更多的人再做一次游戏。这时游戏进入了第二轮。第二次爱克斯罗德征集到了62个程序,同样也附加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是针锋相对策略。
爱克斯罗德总结这次游戏的结论是:第一,针锋相对方法仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的”,后15名中,只有1个总是合作的是“善良的”。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是“清晰性”,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。针锋相对策略就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
针锋相对策略的优越性向我们充分展示了一个纯粹自利的人何以会选择“善行”,只因为合作是自我利益最大化的一种必要手段。
比如在爱情中的博弈原则应该是:善意而不是恶意地对待恋人;宽容而不是尖刻地对待恋人,关键是能够彼此宽容,既宽容对方的缺点;强硬而不是软弱地对待恋人,就是要在我永远爱你的善意的前提下,做到有爱必报,有恨也必报,以眼还眼,以牙还牙,以其人之道,还治其人之身。
比如对于恋人与其他异性的亲热行为,要有极其强烈的敏感与斩钉截铁的回报。简单明了而不是山环水绕地对待恋人,在博弈中过分复杂的策略使得对手难于理解,无所适从,因而难以建立稳定的合作关系,明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。
在生活中一样可以运用这种方法。当一个人伤害了你的时候,你知道即便报复了他也并不能消除已对你形成的伤害。如果你还希望两个人的关系能够继续,那么最好是宽恕他。但是,若他知道即便伤害了你也会获得宽恕的时候,他就可能一直有意无意地不停伤害你。
就像我们在一些影片中看到某些心地善良却遇人不淑的女子。那些女子一次又一次原谅胡作非为的丈夫,希望用真情感动他回心转意;但结果丈夫反而得寸进尺,因为他知道无论如何只要一些花言巧语扮可怜就会获得宽恕。
所以有时候,人们会对伤害选择报复。当别人打你一拳,你若打回一拳,这本身并不能减轻你已挨那一拳的疼痛,而且用力打回一拳通常也得不到快感。那为什么还会回击呢?原因在于,你知道打不还手只会让对手更加猖狂,而选择回击是遏制对方进一步侵犯的方式。
所以,有些时候宽大为怀不一定好,有些时候毫无回旋余地也不见佳。这就是奇妙的人类互动世界。




