☉董志勇
“博弈論”的英文是“game theory”,game的本意是游戲,博弈論直接翻譯成中文最貼切的是“游戲理論”。更確切點說,是一種競合的智力游戲。博弈論作為經濟學的一個分支,自出現以來,在學術領域和社會生活的各個方面都得到了廣泛的認可和應用。事實上,在傳統經濟學研究范式的框架下,標準博弈理論一直以“理性人”為理論基礎,通過一個個精美的數學模型搭建起公理化的完美自洽的理論體系,卻往往忽視了日常生活中人們的實際行為。
然而,心理學和行為經濟學的研究結果表明,人類在做出決策時并不總是“理性”的。在標準博弈論的基礎上,行為經濟學家從人自身的心理特質、行為特征出發,去揭示博弈中影響選擇行為的非理性情感因素。他們為了彌補傳統博弈論理性人假定的不足,經過多年理論和實證研究,提出了“行為博弈論”。
在這一章中,我們就將接觸到許多有趣的行為博弈實驗,它們充滿了邏輯與推理,需要仔細思考,才能體會到行為博弈的奇妙之處。
實驗一,博弈者A與博弈者B分配一定數額的金錢(假設是10元)。其中A出價,也就是在雙方之間分配這一利益,要求B要么接受要么拒絕,如果B接受,那么雙方就按照A提出的分配比例瓜分,如果B拒絕,那么雙方之間不會有交易行為,雙方都不會獲得任何收益。按照傳統博弈論的推導,博弈者都是理性自利的,有收益總是比沒收益好,因此只要A對B的分配大于0,理性的B都會接受。
傳統博弈論的分析結果顯然是,A獲得絕大部分利益,B只能分得蠅頭小利。然而行為博弈論的實驗表明,出價者的平均出價大致是4~5元左右。50%的B都拒絕了2元以下的出價,B認為過分低于1/2的出價太不公平,因此以拒絕的方式懲罰對方的行為,結果雙方的收益都是0元。如果A出價過低,B的拒絕實質上是一種“報復性回報”。這就是說,回應者寧愿犧牲自身的利益去懲罰那些未公平對待他們的出價者。
實驗二,兩個實驗參與者要從有4張“A”與4張“2”的撲克牌中隨機各抽4張,這樣保證參與者可以通過自己手中的牌推斷出對方的牌。參與者被告知4張“A”共值10英鎊,如果“A”少于4張,則一文不值。因此為了贏錢,參與者需要將“A”匯集起來,再對如何分配10英鎊進行討價還價。實驗結果表明,當雙方都有兩個“A”時,他們達成了明確的均分協議,但是當一個人拿了1張“A”,另一個人拿了3張“A”時,就產生了不協調,一部分參與者要求對半分,而另一部分要求報酬與持有“A”的比例相似。
行為經濟學原理:之所以出現這種不協調,是因為在討價還價中存在自利性偏向,參與者認為對于自己有利的就是公平的。在現實生活中,正是這種自利性偏向阻礙了許多協議的達成。
一個真實的法律案件為解決討價還價的問題提供了一種思路。原告因為在一場交通事故中受到傷害而向肇事者提起訴訟,要求賠償損失,賠償的數額由雙方討價還價決定,同時雙方商定協議的時間越長,訴訟費就越多。開始雙方一直爭執不下,最后發現在羅列完雙方各自在事故中所犯的錯誤后,協議達成的可能性就大大增加了,這就說明了在討價還價過程中仲裁的重要性,因為他們可以無偏見地指出案件的各個方面,包括雙方在案件中犯的錯誤,同時他們還可以提出一個妥協的解決辦法。這也為解決日常生活中的爭端提供了啟發,比如在處理國際事務時,聯合國與世界貿易組織就可以擔當仲裁人的角色,當然,最后能否達成協議還要看協議雙方達成一致的意愿。
有一個撲克牌游戲的規則是這樣的:每個玩家依次發牌,每發一輪牌必須下注,不下注的玩家自動退出游戲。在最后攤牌之前,玩家都隱藏自己的牌,最后推牌后,牌最大的玩家獲勝。在玩這種撲克牌游戲時,信息是不充分的,因為你不知道對方的底牌是什么,你需要分析對手的行動,對手小額下注究竟是牌小的表現還是故意引誘你抬高賭注?大額下注意味著大牌穩操勝券還是虛張聲勢?同時你還要防備別人對自己的試探。
在現實的討價還價中,信息往往是不充分的,比如賣者通常比買者更了解所賣商品的信息,而買者比賣者更清楚該商品對于自己的價值。因此討價還價就產生了兩個目的,既要獲得最大收益又要傳遞信息,而這兩方面有時是不能同時達到的,因此就降低了效率。
經濟學家發現交流可以增加交易的效率,但是大部分不是通過互相說出實情得到的,而是根據行為語言試探得到的。因為賣家的報價往往會高于商品的實際價值,而買家的報價往往會低于商品對于他的價值,實驗表明參與者會明顯地試探對方的保留價值,然后協調一種大家都能夠接受的價格。這同時也說明了面對面交流會比書面交流更有效。
我們考察了1974年到1997年中十個大滿貫的網球決賽結果,選手都是最頂尖的網球選手。研究考察的是選手發球在左邊和右邊的得分概率。如果對發球的方向沒有偏好,左邊和右邊的概率應該一致。研究結果證明了這一猜想。選手發球在左邊和右邊的得分概率十分相近。另外,結果也顯示,盡管是頂尖選手,他們也傾向于在前后兩次的發球中交替選擇左邊和右邊,但這種偏差的程度略小于一般人的程度。
我們再考察在足球比賽中罰球踢向左邊和右邊的進球率,結果發現,運動員不管踢左邊還是踢右邊,進球率是一致的。并且他們也沒有這次踢左邊下次就踢右邊的偏誤,但這點并不令人驚訝,因為通常球員很少被連續罰球,他們記憶中的“序列相關性”的偏誤就會降低。
行為經濟學原理:心理學家和神經科學家認為,人的大腦中有一種隨機結構。很多實驗證明,無論是要求被試以某分布概率隨機選擇策略,還是直接給被試以某種隨機任務,相對于理論上的隨機概率分布而言,都會產生以下兩個方面的偏離:人們總是過多地交替變換他們的反應,并容易忽視樣本大小。
第一種偏離基于人們對“序列相關性”的誤解,即在重復博弈中,人們總是認為前后兩次博弈的策略是有相關性的,為了增加最后取勝的可能性,前后兩次博弈采用的策略應該不同才好。比如,在“猜硬幣”游戲中,猜硬幣者上一次猜的是“正面”,下一次就很可能猜“反面”,因為他們覺得剛剛出現一次正面,下一次出現反面的概率更大些,而事實上,前后兩次硬幣的正反面沒有任何關系。另外,在“剪刀-石頭-布”的猜拳游戲中也有這種情況。如果參與者上一次出了“剪刀”,下一次就很可能不再出“剪刀”。再如,人們在買彩票時,如果某一數字序列剛剛中過獎,那么很少有人會再選擇這個序列,但事實上,這一序列和其他序列中獎的概率是相同的。
第二種偏離是人們在預測結果時,常常會錯誤地應用一些只有在樣本量很大時才會出現的性質。以最簡單的擲硬幣為例。在樣本量很大(比如擲1000次)的時候,硬幣正面出現的頻率和反面出現的頻率都應該是1/2。而當樣本量很小(比如只擲10次)時就不一定了。但人們卻仍會認為正反面出現的頻率是相等的。
選美比賽博弈是來源于凱恩斯的《就業、利息和貨幣通論》,凱恩斯把股票投資比作選美比賽,為了獲勝,參與者不會選擇自己認為最美的人,而會去猜測哪個是最能抓住別人眼球的美女。當所有人都持有同樣的想法時,選美比賽便違背了它的初衷,演變成了預測大眾看法的比賽。

行為經濟學家在課堂上經常會做這樣簡單的實驗:參與者被要求在0到10選擇一個數字,勝者是選擇的數字最接近所有參與者均值的2/3的那個人。同選美比賽類似,參與者必須預測別人所選的數字的均值,然后選擇均值的2/3。
這個實驗可以檢測參與者在進行選擇的過程中進行了多少輪的重復推理。如果每個參與者都隨機選擇,則均值是50,50的2/3是33,所以選擇33的人進行了一步占優,如果有一個參與者預測所有人都進行了一步占優,他就會進行二步占優從而選擇33×2/3=22,同樣道理,進行三步占優的人會選擇22×2/3=15……當進行了無窮多步的重復占優后,我們可以得到最終的重復占有納什均衡是0。
行為經濟學家對這個博弈進行了實驗研究,實驗對象是多組14~16周歲的德國學生,得到的實驗結果是35左右。我們自己對北京大學總裁班的CEO、證券經紀人等也進行了相同的多次實驗,得到了相似的實驗結果。另一個有趣的實驗對象群是財經雜志的讀者,在對其進行實驗時提供了大額的獎金,也得到了相似的結果,均值位于33與22之間,而且只有8%的實驗對象選擇了0。因此,在選美比賽博弈中,實驗對象一般只能進行一到兩步的重復推理。
行為經濟學原理:對于這個結論有兩種解釋,一是參與者無法進行多次的重復推理;二是參與者不相信別人能夠進行如此多重復推理。這就是西蒙所講的有限理性;人的思維能力并非無窮無盡;人具有的是有限理性;因為人是有限理性的,所以人們在行為上并不總是追求效用極大化。實際上,人會根據對環境的認知和自己有限的思維,做出讓自己滿意即可的選擇。這就是更接近血肉之軀的人的“有限理性”的觀點。
談戀愛其實也可以看作一種博弈,男女雙方從開始的簡單了解,通過多次接觸后達到信任,最后生活在一起,就是一種由淺入深的試探過程,雙方在互相接觸中看對方能否使得自己實現利益最大化。
博弈實驗小王和小花是這個故事的男女主角,他們在談戀愛的過程中都有兩種選擇:一種是“繼續”,即讓對方做出選擇,而由于雙方了解程度加深,兩人的愛情總收益在不斷增加;另一種是“甩”,即結束戀愛。這種博弈實際上是一種多階段的信任博弈,每個參與者既希望通過信任對方獲取更大的利益,又擔心因信任產生的風險。
經濟學家用實驗模擬了“蜈蚣博弈”,結果如下:

博弈從左到右進行,在第一輪交往中小王可以先做出選擇,如果他選擇“甩”,那么小王和小花分別得到0.4和0.1的愛情收益。如果小王選擇“繼續”,則輪到小花做出選擇,她選擇“甩”,那么小王和小花分別得到0.2和0.8的愛情收益。可以看到兩人愛情收益的總和是第一輪的兩倍,但是小王得到的比第一輪少,小花得到的比第一輪多。顯然,被甩的人受的傷害比較大。如果小王和小花每次都選擇“繼續”,他們一起走到最后收獲圓滿愛情,將獲得6.4和1.6的最高收益。但是當我們用倒推法就會發現這樣圓滿的結局很難達到,在第四輪時,小花的最優策略是選擇“甩”,因為繼續下去收益不會增長。因此對于小王來說,如果在預料到小花在第四輪一定會選擇“甩”,那么他在第三輪時的最優策略也應該是“甩”。這個結果就如同囚徒困境,理性的選擇并不能達到最優解。每次行動都選擇“傳遞”雖然能夠達到帕累托最優,但是卻破壞了重復占優均衡,這說明完全自利的行為會導致合作的破裂。
以上是標準博弈理論所作的均衡分析。但是在現實生活中很少有人在戀愛的初期就選擇分手,說明戀愛過程中雙方并非完全理智,道德習慣、學識都可以影響這一過程。
我們可以用一個均衡模型來解釋“繼續”的高比例,模型中把“繼續”的原因分為兩類,一類是利他主義者從內心偏好“繼續”,另一類是普通參與者通過在某步之前“繼續”而把自己偽裝成利他主義者,目的是獲得更多收益,這部分人占了絕大多數。