付 立
在現實生活中,競爭性、對抗性的活動比比皆是,如何在這種環境中采取最優的策略擊敗對手呢?這正是對策論所研究的。對策論又叫博弈論,因為最規范的對抗性活動是下棋——博弈。
這里,“對策”可以理解為對對方策略的反應。在對抗性活動中,各方是具有利害沖突關系的,一方贏,就可能意味著另一方或多方輸。對策論研究各方采取策略及效果的規律,提供對付對方策略的最優策略,可以使自己在對抗中處于比較有利的地位。
匈牙利數學家馮·諾依曼是個在對策論研究中作出重大貢獻的人。1928年,他提出的極小極大定理是構建對策論大廈的重要基礎。
馮·諾依曼分析的是只有兩人參加的游戲,游戲中每個人可選擇的策略只有有限個,兩個人的輸贏卻是相抵的:一方贏,另一方就輸。這種二人有限零和對策,是對策類型中最簡單的一種。馮·諾依曼發現,在這樣的對策中,雖然兩個非常理智的玩家都企圖戰勝對方,但游戲仍然存在著最佳解。比如說,兩個孩子分蛋糕,每個孩子都喜歡要多的,但是一個多了,另一個就少了,這是一個二人雙策零和對策,它的解分為兩個步驟:一個孩子先把蛋糕切成兩半,再由另一個孩子挑選。在每個孩子都認為對方是貪婪的合理假設下,有沒有讓兩個孩子都滿意的解,也就是能讓兩個孩子都不感到吃虧的解呢?有,就是第一個孩子盡可能公正地切蛋糕,讓兩塊蛋糕相差極小,否則,第二個孩子會選大的那塊。這就是極小極大定理,后來推廣到有更多玩家的情況,即多人有限零和。
對于零和這種對抗性極強的活動來說,只有最佳解,沒有雙贏解。因為最多只能讓雙方都不覺得吃虧,卻不可能讓雙方都沾著便宜。戰爭中的敵對雙方即是如此。
好在現實世界中并非只有零和,在現實中,并不一定是你贏我就必然輸,它很可能是非零和的。比如說股票市場,炒股的人中有贏也有輸,但是錢的總數是隨著股票市場資本的增加而變化的,并不是贏輸相抵的。
1950年美國數學家小約翰·福布斯·納什的均衡定理,將極小極大定理推廣到了非零和的活動中。他指出,在非零和的對策中,只要參加的人數有限,而且他們可選擇的策略也是有限的,那么,就至少存在一個納什均衡點。而在納什均衡點上,沒有哪個人可以通過選擇另外一個可供選擇的策略來改善自己目前的地位,因此它正是一個最佳解。
更為重要的是納什的研究還表明,在許多情況下,最佳解雖然存在卻不一定是表面上顯而易見的那個。所謂的“囚徒困境”就是一個例子。
“囚徒困境”是說兩個共犯一案的人甲和乙被分別關押,他們可以保持沉默(合作),也可以供認事實真相(背叛),這是他們可選擇的兩個策略。選擇不同的策略會有不同的回報,而且這個回報與另一個人的選擇有關,具體地說:如果兩個人都保持沉默,則因無法定罪,兩人都會被釋放;如果兩個人都坦白了,則他們兩人都被判罪;如果其中的一個人坦白了,他將被釋放還會受到獎賞,而另一個人則要受到懲罰,被判罪并罰款。
合作還是背叛?表面上看,他們的最佳選擇是合作,但在現實中很少出現這種情況,因為每個人都有同樣的擔心:如果另一個人坦白了怎么辦。這種擔心導致他們都選擇坦白,因為據他們分析,如果坦白的話,結果會有兩個:一是對方沒說,他將被釋放還會受到獎賞;另一個是對方也坦白了,那就與同伙一起坐牢。哪個結果都比“自己保持沉默,對方卻坦白了”的結果強。所以實際發生的最佳解往往是兩個人相互背叛?,F實生活中,各國的貿易保護主義,企業之間的價格大戰等,都屬于這種情況。
要想體會納什研究的妙處,必須強化一個意識:對策是相互依賴的。對于每個局中人來說,一個對策的結果取決于所有其他局中人做什么選擇。這樣一來,在一個依次行動的對抗性活動中,一個局中人的策略原則就是要注意到別人與自己一樣都是有頭腦的,然后倒退推理、預測未來,也就是通過對“我認為他認為我認為他認為我認為……”的分析,嘗試預測各種選擇的可能結果,而他的最佳選擇正是在這樣的預測的基礎上作出的。
現在我們考慮這樣的情況:如果局中人對對方非常信任會怎樣?顯而易見,他們的最佳選擇是合作,兩個人都保持沉默,結果兩個人都能自由,達到一種雙贏的結局。
由此我們注意到,雙贏作為最佳解并不是邏輯的、數學的結果,而是綜合了心理、社會諸多因素后的結果。如果人們講究誠信,相互合作,就會給雙方帶來利益,取得雙贏。否則,單靠對策論是算不出雙贏解的。
(李哈鳴摘自《學習時報》)