博弈的最佳策略方法,策略思维即时博弈里面的囚徒困境与无限重复下的优势策略
博弈的最佳策略方法,策略思维即时博弈里面的囚徒困境与无限重复下的优势策略这种即时博弈,最为出名的就是“囚徒困境”,所有的即时博弈模型,近乎都是从这一原型之下推导而出。在即时制的事件之中,我们不得不在毫不知晓对方决定的情况下采取行动,等到彼此发现对方做了什么,再想做什么改变已经太迟了。第一次你接起电话,这是一个回合制事件;第二次你拨号的时候,这时候“打电话”这件事情,变成了你们两人的即时制事件。在回合制事件之中,对方或者你先选择打电话,然后另一方接起来。但是在即时制的情况下,两人都面临两种选择——拨过去或者是等待对方拨过来。这种时候总是会出现那种诡异的“神同步”:当你想打过去的时候,对方也想着要打过来;当你想着等对方打过来的时候,对方也在等待……
电话铃声响了,你接起来。
但是,“这该死的运营商!”网络断开了,电话连接中断,你想也没想就直接重拨过去。
“对不起,您拨打的电话正在通话中,请稍后再拨!sorry,the number you have dialed is busy……”
你忍不住骂出一声“shit!”。
第一次你接起电话,这是一个回合制事件;第二次你拨号的时候,这时候“打电话”这件事情,变成了你们两人的即时制事件。
在回合制事件之中,对方或者你先选择打电话,然后另一方接起来。但是在即时制的情况下,两人都面临两种选择——拨过去或者是等待对方拨过来。
这种时候总是会出现那种诡异的“神同步”:当你想打过去的时候,对方也想着要打过来;当你想着等对方打过来的时候,对方也在等待……
在即时制的事件之中,我们不得不在毫不知晓对方决定的情况下采取行动,等到彼此发现对方做了什么,再想做什么改变已经太迟了。
这种即时博弈,最为出名的就是“囚徒困境”,所有的即时博弈模型,近乎都是从这一原型之下推导而出。
一、囚徒困境
我们先简单介绍一个标准的囚徒困境模型。
警察抓住两个囚犯,现在要单独审问两个囚犯。并且因为某些法则,如果两个囚犯拒绝认罪,那么警方只能把两人各关两年。
如果一人坦白,另一方死不认罪的话,那么坦白的人将获得嘉许,当场释放。而嘴硬到底的那一人,则会被判刑五年。
如果两人都坦白的话,两人都将判刑三年。
我们将两个囚犯分别简化成A跟B,画出博弈论在分析即时博弈常用的博弈矩阵。如下:
其中,每个格子里面左下角是A的结果,右上角是B的结果。
二、优势策略
通过上面那张表单,我们可以看到,对A而言,认罪有两个结果:-3和0。而同时,不认罪的两个结果分别对应的是-5跟-1。
其中-3优于-5,0优于-1。
在这种情况下,我们将结果总是比较好的那一列所对应的策略,称之为优势策略。
我们简单理解一下这个优势策略的含义:不管对方怎么选择,优势策略的结果都要好过于其他策略。在上例之中,对A而言,B认罪的话,自己认罪得到-3,自己不认罪得到的是-5,认罪好过于抵赖;B如果不认罪,自己认罪得到的是0,不认罪得到的是-1,还是认罪得到的结果更好。
而另外的处于明显劣势地位的策略,称之为劣势策略。
我们划出一根线,消去那些所谓的劣势策略,得到这么一张图:
此时我们看到即时博弈里面有三个框之中都出现了删除的实线,最后只留下唯一一个框:两人同时认罪的框。
也就是说,这两个囚徒在追求自己最佳策略的时候,往往会得到两人双双入狱判刑的结局,这就是博弈论里面最为基础的囚徒困境。
三、纳什均衡
回到最开始我们提出的打电话的例子,我们假设电话打通双方收益都是1,打电话打不通两方的收益都是0。
画出博弈矩阵图:
有意思,你仔细观察,发现无论是对A还是对B,都没有一个优势策略:(0 1)的组合,跟(1 0)的组合比起来,显然是毫无优势。
这种情况下,我们没有办法消去所谓的“劣势策略”,整个矩阵还是四个情况摆在我们的眼前。
但是从两个人的整体上来看,两个(1 1)相对起(0 0)就是“双方的优势策略组合”,这两个结果下谁改变都对自己没好处。比如说A选择拨打,B选择等待,A此时改变自己的选择,从1到0,没好处,B从等待变成拨打,也会导致从1到0,也没好处。
这两种双方的优势策略组合可以称之为是纳什均衡:(拨打,等待)和(等待,拨打),就是这一博弈里面的纳什均衡。
好了,基本的概念性玩意儿到此为止。。(不能说看过一期概览连博弈论里面的一些基础定义都不清楚啊,很不想写这种乏味的概念陈述)
四、现实限制下的囚徒困境:惩罚
在前文之中的囚徒困境里面,那只是一个极度简化的模型,现实里面的情况比起模型要复杂许多。
起码我们看过那么多的香港电影、TVB剧,基本上没见过这么老实合作的“犯罪嫌疑人”,他们往往拒不认罪,为什么?
因为“惩罚”的存在。
前面我们提出优势策略的时候,0(无罪释放)相对于-1(关一年)是优势策略,但是这只是理想情况下,考虑到现实——万一放出来会被打,那无罪释放还是一个优势策略?
A此时的思考方式就成了,放出去一定会被认为是招了,那么自己的其他同伙一定会惩罚自己,那么此时,招供就不是一个优势策略。
牢狱的惩罚和出去之后同伴的打击报复,都是惩罚。如果同伴之间的惩罚来的更为严重的时候,不招供才是这种情况下的优势策略。
这也就出现了我们在电影里面经常碰上的情况,罪犯们往往宁愿蹲监狱都不大愿意招供,犯罪团伙的惩罚机制,有力的制止了其成员在被警察抓住之后选择“招供”的倾向性。
五、无限重复的囚徒困境
如果无限重复,用囚徒的例子已经不合适了。(牢底坐穿吗?)
还记得《自私的基因》概览么?放荡和羞怯的雌性个体,忠贞与薄情的雄性个体。
不过这里不用那个例子,为了简化,我们用一个银行家的例子。为了简化篇幅,直接上图:
如同上面的囚徒困境,合作是会被每个人删除掉的劣势策略。
但是如果这个游戏不是一轮位置,而是无限重复的时候,会是怎么样的局面?这个“重复博弈”更为复杂,但这个复杂性里孕育着希望。
这个时候,A跟B并不是敌人,虽然他们还是追求每个人的最大收益,但是对方不可能永远是傻瓜——选择合作,而自己选择背叛。
谁都清楚,无限的背叛下去,双方都讨不到好。
那么这就引入了一个新的词汇——信任。
我们会从彼此过去的行为中,判断对方是否值得信任,确定自己在这一轮里面打出什么样的策略,同时我们在事实上也监管着对方的行为。
我们可以信任、背叛这样循环,可以每十次信任打出一次背叛,可以……
哪种综合策略可以获得最好的收益?
六、针锋相对策略
阿克塞尔罗德(一个政治科学家)为此举办了一个实验:每个人提交自己的策略,把这些策略输入计算机,然后计算机让它们自动演化,在若干次循环之后计算每个策略的得分。
最后得分最高的是这么一个策略:针锋相对策略,又叫以牙还牙策略。(来自于心理学家和博弈学家阿纳托尔)
这个策略在第一回合会采取合作行动,之后每一步都会重复对手上一局的策略。
这一场比赛可以让我们明白一个事情:在重复的囚徒困境里面,善意和宽容是得到一个好结果的必须要素。
不过在这里,事后的研究却也认为,针锋相对策略并非是一个非常完美的策略,之所以在计算机的模拟之下能够获得最后的胜利,跟计算机的“从不犯错”有很大的关系。
这个策略有个致命的疏忽:误会。
设想一下,在现实里面使用针锋相对策略的时候,误会对方行为一次?(那么两个针锋相对者会无穷无尽的重复选择背叛下去)
针锋相对策略缺少的是一个宣布“到此为止”的方法。
具体在现实之中,作者也提出了一个比较复杂的策略,这个策略从合作开始,总共四条:
1、第一印象——第一轮就背叛的对方绝对不可接受,直接进入针锋相对策略;
2、短期——任何三轮当中出现两次背叛不可接受,转向针锋相对策略;
3、中期——过去二十轮之中出现两次背叛不可接受,转向针锋相对策略;
4、长期——过去一百轮当中出现五次背叛也是不可接受的,转向以牙还牙策略。
末、小结
总体来说今天这一篇文章还是比较多的掺杂了理论和概念,不过非常抱歉,这也是不得已而为之。
无论是囚徒困境、纳什均衡,还是无限重复的囚徒困境,这些是我们用知识去解释现实里面不得不涉及到的一些博弈论基础。
本周,将给大家带来明理系列第四期——现实世界里面的博弈缩影。
不管是在《自私的基因》里面出现的进化抉择倾向,还是当下热门的“消费升级”,甚至还有“房价问题”,这些都可以用前面提到的那几个博弈论的基础概念进行解释和预测。
读书不是为了读死书,而是为了用来构建我们的知识体系和预测机制。
明天,将给大家带来这一期概览系列的最后一篇——博弈之下的自由市场失灵。
在《国富论》之后,人们对自由市场经济里面那个“看不见的手”充满了盲目的信心,人们认为每个理性人在追求个人经济最大化的时候,同时也会让整个社会变的更好。
尽管一次次经济危机的出现让人们知道,这只看不见的手并非上帝他老人家的,但是我们依旧对其充满信心。
但是博弈之下人们的取舍,最终却总是会带来一些“并不是对所有人更好”的结局。
想要知道具体是怎么一些情况,还有为什么?那就期待明天的推送吧!
你的阅读时间就是最好的赞美。
倘若你意犹未尽,还请搜索微信公众号名字:“你的文具盒”——
关注我们,概览群书,长见识;修身明理,知是非。