首页 > 代码库 > 【转】博弈知识纲要

【转】博弈知识纲要

引言:

     有一种很有意思的游戏,就是有物体若干堆,可以是火柴棍或是围棋子等等均可。两个人轮流从堆中取物体若干,规定最后取光物体者取胜。这是我国民间很古老的一个游戏,别看这游戏极其简单,却蕴含着深刻的数学原理。下面我们来分析一下要如何才能够取胜。

(一)巴什博奕(Bash Game):

    只有一堆n个物品,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个。最后取光者得胜。
     显然,如果n=m+1,那么由于一次最多只能取m个,所以,无论先取者拿走多少个,后取者都能够一次拿走剩余的物品,后者取胜。因此我们发现了如何取胜的法则:如果n=m+1r+s,(r为任意自然数,s≤m),那么先取者要拿走s个物品,如果后取者拿走k≤m)个,那么先取者再拿走m+1-k个,结果剩下(m+1)(r-1)个,以后保持这样的取法,那么先取者肯定获胜。总之,要保持给对手留下(m+1)的倍数,就能最后获胜。
这个游戏还可以有一种变相的玩法:两个人轮流报数,每次至少报一个,最多报十个,谁能报到100者胜。


(二)威佐夫博奕(Wythoff Game):

有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜。
这种情况下是颇为复杂的。我们用(akbk)(ak ≤ bk ,k=012...,n)表示两堆物品的数量并称其为局势,如果甲面对(00),那么甲已经输了,这种局势我们称为奇异局势。前几个奇异局势是:(00)、(12)、(35)、(47)、(610)、(813)、(915)、(1118)、(1220)。
可以看出,a0=b0=0,ak是未在前面出现过的最小自然数,而 bk= ak + k,奇异局势有
如下三条性质:
1。任何自然数都包含在一个且仅有一个奇异局势中。
由于ak是未在前面出现过的最小自然数,所以有ak > ak-1 ,而 bk= ak + k > ak-1 + k-1 = bk-1 > ak-1 。所以性质1。成立。
2。任意操作都可将奇异局势变为非奇异局势。
事实上,若只改变奇异局势(akbk)的某一个分量,那么另一个分量不可能在其他奇异局势中,所以必然是非奇异局势。如果使(akbk)的两个分量同时减少,则由于其差不变,且不可能是其他奇异局势的差,因此也是非奇异局势。
3。采用适当的方法,可以将非奇异局势变为奇异局势。

假设面对的局势是(a,b),若 b = a,则同时从两堆中取走 个物体,就变为了奇异局势(00);如果a = ak b > bk,那么,取走b - bk个物体,即变为奇异局势;如果 a = ak , b < bk ,则同时从两堆中拿走 ak - ab - ak个物体,变为奇异局势( ab - ak , ab - ak+ b - ak);如果a > ak b= ak + k,则从第一堆中拿走多余的数量a - ak 即可;如果a < ak b= ak + k,分两种情况,第一种,a=aj j < k,从第二堆里面拿走 b - bj 即可;第二种,a=bj j < k,从第二堆里面拿走 b - aj 即可。

从如上性质可知,两个人如果都采用正确操作,那么面对非奇异局势,先拿者必胜;反之,则后拿者取胜。

那么任给一个局势(ab),怎样判断它是不是奇异局势呢?我们有如下公式:
ak =[k1+√5/2]bk= ak + k k=012...,n 方括号表示取整函数)
奇妙的是其中出现了黄金分割数(1+√5/2 = 1618...,因此,akbk组成的矩形近似为黄金矩形,由于2/1+√5=√5-1/2,可以先求出j=[a√5-1/2],若 a=[j1+√5/2],那么a = ajbj = aj + j,若不等于,那么a = aj+1bj+1 = aj+1+ j + 1,若都不是,那么就不是奇异局势。然后再按照上述法则进行,一定会遇到奇异局势。


(三)尼姆博奕(Nimm Game):

有三堆各若干个物品,两个人轮流从某一堆取任意多的物品,规定每次至少取一个,多者不限,最后取光者得胜。

这种情况最有意思,它与二进制有密切关系,我们用(abc)表示某种局势,首先(000)显然是奇异局势,无论谁面对奇异局势,都必然失败。第二种奇异局势是(0nn),只要与对手拿走一样多的物品,最后都将导致(000)。仔细分析一下,(123)也是奇异局势,无论对手如何拿,接下来都可以变为(0nn)的情形。

计算机算法里面有一种叫做按位模2加,也叫做异或的运算,我们用符号(+)表示这种运算。这种运算和一般加法不同的一点是1+1=0。先看(123)的按位模2加的结果:

1 =二进制01
2 =二进制10
3 =二进制11 +
———————
0 =二进制00 (注意不进位)
对于奇异局势(0nn)也一样,结果也是0
任何奇异局势(abc)都有a+b+c =0
如果我们面对的是一个非奇异局势(abc),要如何变为奇异局势呢?假设 a < b< c,我们只要将 变为 a+b,即可,因为有如下的运算结果: a+b+(a+b)=(a+a)+(b+b)=0+0=0。要将变为a+b,只要从 c中减去 c-a+b)即可。
1。(142139),14+21=2739-27=12,所以从39中拿走12个物体即可达到奇异局势(142127)。
2。(5581121),55+81=102121-102=19,所以从121中拿走19个物品就形成了奇异局势(5581102)。
3。(294558),29+45=4858-48=10,从58中拿走10个,变为(294548)。
4。我们来实际进行一盘比赛看看:
:(7,8,9)->(1,8,9)奇异局势
:(1,8,9)->(1,8,4)
:(1,8,4)->(1,5,4)奇异局势
:(1,5,4)->(1,4,4)
:(1,4,4)->(0,4,4)奇异局势
:(0,4,4)->(0,4,2)
:(0.4,2)->(0,2,2)奇异局势
:(0,2,2)->(0,2,1)
:(0,2,1)->(0,1,1)奇异局势
:(0,1,1)->(0,1,0)
:(0,1,0)->(0,0,0)奇异局势
甲胜。

Nim游戏

Nim游戏是博弈论中最经典的模型(之一?),它又有着十分简单的规则和无比优美的结论
  Nim游戏是组合游戏(Combinatorial Games)的一种,准确来说,属于“Impartial Combinatorial Games”(以下简称ICG)。满足以下条件的游戏是ICG(可能不太严谨):1、有两名选手;2、两名选手交替对游戏进行移动(move),每次一步,选手可以在(一般而言)有限的合法移动集合中任选一种进行移动;3、对于游戏的任何一种可能的局面,合法的移动集合只取决于这个局面本身,不取决于轮到哪名选手操作、以前的任何操作、骰子的点数或者其它什么因素; 4、如果轮到某名选手移动,且这个局面的合法的移动集合为空(也就是说此时无法进行移动),则这名选手负。根据这个定义,很多日常的游戏并非ICG。例如象棋就不满足条件3,因为红方只能移动红子,黑方只能移动黑子,合法的移动集合取决于轮到哪名选手操作。
  通常的Nim游戏的定义是这样的:有若干堆石子,每堆石子的数量都是有限的,合法的移动是“选择一堆石子并拿走若干颗(不能不拿)”,如果轮到某个人时所有的石子堆都已经被拿空了,则判负(因为他此刻没有任何合法的移动)。
  这游戏看上去有点复杂,先从简单情况开始研究吧。如果轮到你的时候,只剩下一堆石子,那么此时的必胜策略肯定是把这堆石子全部拿完一颗也不给对手剩,然后对手就输了。如果剩下两堆不相等的石子,必胜策略是通过取多的一堆的石子将两堆石子变得相等,以后如果对手在某一堆里拿若干颗,你就可以在另一堆中拿同样多的颗数,直至胜利。如果你面对的是两堆相等的石子,那么此时你是没有任何必胜策略的,反而对手可以遵循上面的策略保证必胜。如果是三堆石子……好像已经很难分析了,看来我们必须要借助一些其它好用的(最好是程式化的)分析方法了,或者说,我们最好能够设计出一种在有必胜策略时就能找到必胜策略的算法。
  定义P-position和N-position,其中P代表Previous,N代表Next。直观的说,上一次move的人有必胜策略的局面是P-position,也就是“后手可保证必胜”或者“先手必败”,现在轮到move的人有必胜策略的局面是N-position,也就是“先手可保证必胜”。更严谨的定义是:

1.无法进行任何移动的局面(也就是terminal position)是P-position;

2.可以移动到P-position的局面是N-position;

3.所有移动都导致N-position的局面是P-position。
  按照这个定义,如果局面不可能重现,或者说positions的集合可以进行拓扑排序,那么每个position或者是P-position或者是N-position,而且可以通过定义计算出来。
  以Nim游戏为例来进行一下计算。比如说我刚才说当只有两堆石子且两堆石子数量相等时后手有必胜策略,也就是这是一个P-position,下面我们依靠定义证明一下(3,3)是一个P是一个P是一个P-position。首先(3,3)的子局面(也就是通过合法移动可以导致的局面)有(0,3)(1,3)(2,3)(显然交换石子堆的位置不影响其性质,所以把(x,y)和(y,x)看成同一种局面),只需要计算出这三种局面的性质就可以了。 (0,3)的子局面有(0,0)、(0,1)、(0,2),其中(0,0)显然是P-position,所以(0,3)是N-position(只要找到一个是P-position的子局面就能说明是N-position)。(1,3)的后继中(1,1)是P-position(因为(1,1)的唯一子局面(0,1)是N-position),所以(1,3)也是N-position。同样可以证明(2,3)是N-position。所以(3,3)的所有子局面都是N-position,它就是P-position。通过一点简单的数学归纳,可以严格的证明“有两堆石子时的局面是P-position当且仅当这两堆石子的数目相等”。
  根据上面这个过程,可以得到一个递归的算法——对于当前的局面,递归计算它的所有子局面的性质,如果存在某个子局面是P-position,那么向这个子局面的移动就是必胜策略。当然,可能你已经敏锐地看出有大量的重叠子问题,所以可以用DP或者记忆化搜索的方法以提高效率。但问题是,利用这个算法,对于某个Nim游戏的局面(a1,a2,...,an)来说,要想判断它的性质以及找出必胜策略,需要计算O(a1*a2*...*an)个局面的性质,不管怎样记忆化都无法降低这个时间复杂度。所以我们需要更高效的判断Nim游戏的局面的性质的方法。
  直接说结论好了。(Bouton‘s Theorem)对于一个Nim游戏的局面(a1,a2,...,an),它是P-position当且仅当a1^a2^...^an=0,其中^表示异或(xor)运算。怎么样,是不是很神奇?我看到它的时候也觉得很神奇,完全没有道理的和异或运算扯上了关系。但这个定理的证明却也不复杂,基本上就是按照两种position的证明来的。
  根据定义,证明一种判断position的性质的方法的正确性,只需证明三个命题:

 1、这个判断将所有terminal position判为P-position;

2、根据这个判断被判为N-position的局面一定可以移动到某个P-position;

3、根据这个判断被判为P-position的局面无法移动到某个P-position。
  第一个命题显然,terminal position只有一个,就是全0,异或仍然是0。
  第二个命题,对于某个局面(a1,a2,...,an),若a1^a2^...^an!=0,一定存在某个合法的移动,将ai改变成ai‘后满足a1^a2^...^ai‘^...^an=0。不妨设a1^a2^...^an=k,则一定存在某个ai,它的二进制表示在k的最高位上是1(否则k的最高位那个1是怎么得到的)。这时ai^k<ai一定成立。则我们可以将ai改变成ai‘=ai^k,此时a1^a2^...^ai‘^...^an=a1^a2^...^an^k=0。
  第三个命题,对于某个局面(a1,a2,...,an),若a1^a2^...^an=0,一定不存在某个合法的移动,将ai改变成ai‘后满足a1^a2^...^ai‘^...^an=0。因为异或运算满足消去率,由a1^a2^...^an=a1^a2^...^ai‘^...^an可以得到ai=ai‘。所以将ai改变成ai‘不是一个合法的移动。证毕。
  根据这个定理,我们可以在O(n)的时间内判断一个Nim的局面的性质,且如果它是N-position,也可以在O(n)的时间内找到所有的必胜策略。Nim问题就这样基本上完美的解决了。----------------------------------------------------------------------------------------------------------------------------------------------------

【转】博弈知识纲要