郝鈺澤
摘 要:文章簡述了博弈論的意義、基本構成、分析及其邏輯,以中學生“打水和買飯”合約的博弈分析為案例,說明生活中經濟博弈無處不在。
關鍵詞:博弈論 簡述 案例 博弈分析
中圖分類號:F202.2
文獻標識碼:A
文章編號:1004-4914(2016)12-267-03
一、引言
我是一名高三年級的學生。
高中學習階段剛開始時,生活是“極度艱難”。此前,讀初中時是吃住在家里,生活父母包辦。進入高中開始住校,過集體生活,事事自己動手,怎么能不艱難呢?最難的是喝水和吃飯問題。喝水,每天必須自己提著水壺去打水;吃飯,一天三餐必須自己到食堂排隊買飯。我們這些家庭中的少爺們,在家中從不做這些事。最使人頭痛的還是打水,我們不僅沒有打水的習慣,壓根就沒有自己喝水還要去開水房打水的意識。于是你壺里沒水,就倒別人壺里的水,本宿舍的壺里都沒有水,就到隔壁去“借”水。可笑、荒唐,可很真實。這樣就出現了“打水和買飯”難的問題。矛盾產生和發展過程,就孕育著解決矛盾的辦法,這就是生活的辯證法。我們這一群體,雖然少爺氣十足,但年齡已經到了從少年向青年方向成長的階段,知識在不斷積累,思想也不斷走向成熟。人在成長之中。成長之中的我們,終于在實踐中解決了“打水和買飯”的難題。事情開始時很偶然,有兩個同學自愿結成互助伙伴,兩人約定今天你去水房打兩個人的水,我去食堂買兩個人的飯,互助合作。這樣,兩個人的時間都節省了一半,還減少了孤單感,增加了同學之間的親近感。不久,這辦法竟在全宿舍、全班推廣開來。令人沒有想到的是,往日里誰也不愿多做一點事的我們這些“少爺”們卻無一例外地堅守了承諾,踐行合作了兩年半。在這兩年半里,沒有出現一例違約事件,并且大家都愿意繼續合作下去。回想著、思考著,令我思迷。
隨著年齡的增長,知識的積累,思索問題的力度也就日趨深刻和成熟,上述令我思迷的問題,我久思不解。兩年半無一人違約,這是什么樣的魔力?我把我思索的問題,告知還在做經濟學博士的我的小姨,她說,這可以用經濟學中的博弈論解開你的“迷思”。這是很專業的知識,我哪能懂呢?于是向小姨學習,她耐心向我傳授這一知識和講解博弈論在生活中的趣用,然后她給我布置作業,用博弈論解釋“打水和買飯”過程的“迷思”。
二、博弈論及其邏輯
傳統經濟學以研究資源的最優配置為核心。但僅僅如此是不夠的,因為人是一種“社會性動物”,利益沖突是社會關系的本質。因而現代經濟學與傳統經濟學的重要區別之一,就是將人類沖突與協調納入經濟學的研究范疇,試圖對人類的經濟活動給出更加科學的解釋。這一努力的成果就是現在我們看到的博弈論。博弈論不僅深遠地影響了經濟學的研究和發展,而且對其他社會科學,甚至是自然科學都產生了重大影響。
(一)博弈論的定義
博弈是指利益存在沖突的決策個體在相互對抗(或合作)中,對抗雙方(或多方)相互依存的一系列策略和行動的過程集合。簡言之,博弈論分析的就是在人們之間的行為互相影響的條件下,每個人如何決策。
在博弈論的早期,主要是數學家們在工作,后來經濟學家們跟了上來,并且后來居上。博弈論假定人們是理性的,只追求自己利益的最大化,也就是堅持了經濟學的基本假定。博弈論在解釋經濟問題時最為成功。
(二)博弈的基本構成
任何博弈都由三個部分:一組局中人(一個局中人集合),局中人可以采取的行動,局中人可能得到的支付。
每個局中人都會選擇最佳的行動,以獲取最大的支付。而且每個局中人總是認為,其他的局中人也在設法爭取最好的成績。
(三)博弈論的分類及其邏輯
經濟學家為了分析的方便,根據信息是否完全,以及博弈是一次還是多次進行,把素有博弈分為四種:完全信息靜態博弈、完全信息動態博弈、不完全信息靜態博弈、不完全信息動態博弈。信息就是局中人做游戲的知識,這些知識對決策有影響。靜態是說同時做出決策,或者雖然不是同時,但是后行動者并不知道先行者做了怎樣的決策;動態則是行動有先有后,有時則指博弈可以多次進行。
1.完全信息靜態博弈。所謂完全信息,是指局中人對于對方的戰略和各自的支付是清楚的。最著名的一個例子就是“囚徒困境”。
甲乙兩人被捕入獄,警察為了讓他們交代罪行,把他們隔離開進行詢問,并且給他們講明了“政策”:
如果兩人都坦白犯了罪,各判8年;如果一個坦白一個抵賴,則坦白一方獲釋,抵賴的人入獄10年;如果都抵賴,則兩人同判2年。可以用圖1表示。
在這場博弈中,甲乙雙方都知道上面的支付矩陣。因為是隔離審查,互相不知情,所以是靜態的。對于甲而言,如果乙選擇坦白,甲的最佳策略是坦白;如果乙抵賴,甲的最佳策略還是坦白。所以對甲而言,無論乙如何選擇,他的最佳策略都是坦白。同理,由于乙和甲是完全對稱的,所以對乙而言,無論甲如何選擇,他的最佳策略都是坦白。這樣,各判8年,一共16年,對于他們這個集體來講,是最差的結果。完全信息靜態博弈的結果,就叫“納什均衡”。
這一結果似乎不符合亞當斯密的“看不見的手”的學說,即每個人都從自己的利益最大化出發去做事,結果對別人來說是最好的。這就是個人理性與集體理性的矛盾。矛盾的原因,在于雙方的信息不對稱,甲乙都不知道對方的選擇,或者說是靜態。如果是反復博弈,那么結果會大不相同。
2.完全信息動態博弈。所謂動態,指的是博弈的一方行動在先,另一方可以根據先做出的決策來決定、調整自己的策略。
《三國演義》中第三十回合“曹丕乘亂納甄氏,郭嘉遺計定遼東”,講述的就是一個生動的完全信息動態博弈的例子。
官渡之戰后,袁紹的兩個兒子逃亡遼東,曹操在后猛追。遼東太守公孫康問手下的人怎么辦。手下的人說,我們得先觀察一下,如果曹操追到遼東,就要先與他們袁氏弟兄聯合,趕走曹操,之后再解決袁氏弟兄;如果曹操沒有追來,則先下手為強,把袁氏弟兄當即解決掉。
這是一個完全信息的博弈,因為博弈的各方(現在是三方)都知道,或者應該知道對方的策略或支付。但是這個博弈是動態的,因為曹操的行為在先,公孫康的行為在后。
現在這樣的博弈就擺在曹操面前,曹操該怎樣決策才能保證自己的利益達到最大化。其實曹操的四大謀士之一郭嘉生病在易州,他在死前給曹操寫了一封信,信中告誡曹操,千萬不要忙著追袁氏弟兄,先讓他們與公孫康互相殘殺,這樣便可坐收漁翁之利。這一高明的戰略被曹操所采納,從而也奠定了遼東的勝利。所謂“郭嘉遺計定遼東”。郭嘉不愧是博弈論的高手。
3.不完全信息靜態博弈。所謂不完全信息靜態博弈,指的是信息是不完全的,博弈的各方都有一些信息,是自己知道而別人不知道的。在面臨不確定的情況下,就要根據概率行事,這必然會有一定的風險。
這個時候,我們就需要計算不同行動的數學期望也就是不同類型下概率與支付乘積的和。在這里概率是一個先驗的東西,憑個人的經驗和感覺。
4.不完全信息動態博弈。所謂不完全信息動態博弈,即信息是不完全的,雙方都有一些信息對方不知道,而且行動有先后。
在這里,我們假設博弈雙方已經多次打過交道,對于對手的類型已經很清楚,不像靜態博弈那樣只知道類型的概率分布。由此,做決策相對容易,并且可以有確定的結果。
三、“打水和買飯”合約的博弈分析
運用博弈論對于引言中提到的關于宿舍“打水和買飯”的問題進行相關分析,有助于解開長期合約的迷思,得到比較滿意的結果。
首先,我們假設宿舍內的二人“打水和買飯”合約只執行一次,一次合約結束,意味著博弈結束。那么,由于兩位局中人對于對方的戰略和各自的支付是清楚的,這單獨一次合約的執行,就可歸為完全信息靜態博弈的范疇。假設二人小組中的一方為甲,另一方為乙。如果每個人按照約定履行了自己的義務,不僅打了自己的水(飯)而且打了對方的水(飯),算作誠信;如果每個人沒有按照約定履行自己的義務,只打了自己的水(飯)而沒有打別人的水(飯),算作欺騙。圖2擬列出了它的支付矩陣。
在這個支付矩陣中,如果兩個人都選擇誠信,那么兩個人都可以得到5這樣一個較高的福利;如果其中一方選擇欺騙而另一方選擇誠信,那么選擇欺騙的一方由于省了一定的力獲得了較高的福利6,選擇誠信的一方則由于福利受到損害,降為0;如果雙方都選擇了欺騙,那么由于雙方利益均受到損害,同時降為2。
運用完全信息靜態博弈進行分析,這一支付矩陣的納什均衡為(欺騙,欺騙)。因為對于甲而言,如果乙選擇誠信,那么甲會選擇欺騙;如果乙選擇欺騙,那么甲會選擇欺騙。所以,對于甲而言,無論乙選擇什么,他都會選擇欺騙。同理,由于乙和甲是完全對稱的,因此對于乙而言,無論甲選擇什么,他都會選擇欺騙。這樣,在這個博弈只進行一次的情況下,(欺騙,欺騙)是納什均衡最優解。也就是說,對于懶惰的學生而言,如果這種“打水和買飯”的約定只有一次,那么對于他們每個人,選擇欺騙,即不遵守承諾,是最佳的策略。
事情的奇妙之處就在于沒有一個人不遵守合約而選擇欺騙,反而是幾個人同心協力,彼此誠信以待,極力維護了這份合約的長期執行。難道是博弈論的分析與生活中的實際不相符嗎?不是的,經過對博弈論的深入學習我了解到,合約的長期遵守與博弈的無限重復有關。
高中生活中要經歷三年的買飯、打水,這其中的次數可以說數不勝數。所以誰也無法確定第幾次買飯、打水將會是最后一次。也就是說,由于三年間買飯、打水的次數較多,因此可以看作“打水和買飯”這一合約將要被無限重復下去,誰也無法預知哪一次將是最后一次。
這里有必要介紹一下貼現因子q。對于甲而言,假設在這一次合作中,所獲得收益為R1,那么在下一期合作中,他所獲得的收益就為qR2。這里q指的是經濟學中的貼現率,即qR2表示的是未來的收益在今天的價值。如果未來存在收益序列R1,R2,R3……那么這個未來收益流的貼現值之和就為:
現在這個三年的“打水和買飯”的合約可看作是無限次重復地如圖2所示的信用困境博弈。假設每t期開始之前,t-1期此階段博弈的結果都已被觀察到。其中每一參與者的貼現因子為q,且每一參與者再重復博弈中得到的收益等于各自在所有階段博弈中所得收益的現值。可以證明:在無限次重復博弈的條件下,合作可能是穩固的。如果博弈無限次,雙方就會逐漸從互相背叛走向互相合作。因為任何一次背叛都會招致對方在下一次博弈時的報復;而雙方都采取合作態度會帶來合作收益。
在長期合約中,一次的欺騙招致下一次的報復的常見方式有三種,分別是:觸發策略、有限懲罰策略和以牙還牙策略。在這一問題上,我們假設合約的雙方采取觸發策略。
所謂觸發策略,是指如果沒有人選擇欺騙,誠信將一直進行下去;一旦有人選擇欺騙,就會觸發其后所有階段都不再相互誠信(合作)。圖3形象說明了觸發策略,(誠信,誠信)表示以前的所有歷史階段都是誠信,現階段仍然選擇誠信,如果發生欺騙將永遠選擇欺騙。
首先,假設參與者甲在t期選擇欺騙,由于乙采取觸發策略,則乙在t期以后都會選擇欺騙,參與者甲的最優反應同樣是在其后永遠選擇欺騙(選擇誠信將得0<2)。此時甲因欺
即在長期合約中,由于合約要重復很多次,沒有知道哪一次是最后一次,因此,當貼現因子,如果雙方采取觸發策略,那么(誠信,誠信)將會使其納什均衡。
四、分析的結論
上述分析解釋了為什么在無限重復多次的信用困境博弈中,納什均衡發生了偏移,由只進行一次的(欺騙,欺騙)移到了(誠信,誠信)。引言中的疑問由此得到了解答。對于大學生而言,如果這樣的“打水和買飯”合作只有一次,那么由于缺乏約束和影響,理性人的選擇將是(欺騙,欺騙),因為人們將從欺騙中得到更多的好處,此時陷入信用困境。然而如果將這種合作擴展到三年,這段時間里誰也不知道一共需要打多少次水,買多少次飯,哪一次才是最后一次,我們可以近似地將這一過程當成無限重復的信用困境博弈。在這一過程中,如果參與雙方都采用觸發策略,那么由于有了長期的約束,每一方的行動發生了改變,納什均衡點落在了(誠信,誠信),這一“打水和買飯”的合作才得以長期維持下去。每個人都理性地選擇了與他人合作,從而在高中三年里讓自己在“打水”和“買飯”這兩件事情上贏得了不少時間。
人生由一局又一局的博弈組成。在博弈中,我們每個人都想勝出并取得高分。但是用博弈論的原理再去解釋生活,往往就可以參透看似奇妙的玄機,有助于我們更加深刻地解釋事物的本質,匡正以往的似是而非。通過這次對博弈論的學習,我認識到了知識在人們生活中的重要性,更加堅定了我對于學習知識的渴望。
(作者單位:太原五中 山西太原 030002)
(責編:李雪)