決策從狹義上而言,意為選擇、確定策略,是一個動態的過程。在這一過程中,個體需要運用自己的感知覺、記憶、思維等認知能力,對情境作出判斷與選擇。美國決策研究專家黑斯蒂給決策下了一個概括而全面的定義:判斷與決策是人類(及動物或機器)根據自己的愿望(效用、個人價值、目標、結果等)和信念(預期、知識、手段等)選擇行動的過程。廣義的決策包含判斷與決策兩個部分。判斷主要研究人們推知或知覺尚不清楚事件及其結果或后果的過程。一個好的決策是在確定或不完全確定的條件下有效選擇手段以達到目的決策。博弈論中的囚徒困境下的決策選擇是一個很有代表性的決策理論,它反映了現代社會下人性的基礎以及在理性條件下人與人之間的關系。
一、囚徒困境簡介
囚徒困境也稱社會兩難情境,是博弈論中的一個經典案例,也是目前學界注意力的焦點所在。它是指有兩個嫌疑犯被警察抓到,但警方沒有掌握確切的證據,聰明的警察就分別找他們談話:“如果你們都不認罪的話,我們將讓你們都入獄一年;如果一個認罪,另一個不認罪的話,那么我們將判不認罪的那個十年的徒刑,認罪的將無罪釋放;如果兩人都認罪的話,我們將基于你們的誠實把每個人的徒刑降為五年,請你們各自權衡。”
在這種情形下,兩個疑犯都將面臨著一個具有決定意義的兩難選擇,他們需要綜合考慮所有的因素,以確定自己的最佳選擇。
二、囚徒的傳統策略
亞當·斯密(Adam Smith)曾提出了理性經濟人的假設:一是經濟人是自私自利的,即個體行為的根本目的是追求自身利益;二是經濟人的行為是理性,即他們根據處境來判斷自身的利益,從而追求個人利益盡可能最大化。在一個標準的囚徒困境中,我們可以用下列這個矩陣來表示:
罪犯B
認罪 不認罪
罪犯A 認罪 (5、5) (0、10)
不認罪 (10、0) (1、1)
可以看出兩個囚犯如果想得到最大的利益,都面臨著同樣的選擇——無論同伙選擇什么,他們最好都選擇認罪,因為,如果同伙不認罪,那么他們就無罪釋放,否則,他們起碼會被判十年徒刑。在一般情況下,假定每個囚徒都是理性的,他們的選擇通常會出現以下兩種可能情形:以A為例,第一種可能的情形是:B認罪,這時如果A也認罪,那么他們都要入獄5年;如果A不認罪,則A將被判十年,B無罪釋放,兩相比較下,對于A來說,認罪顯然是最優策略;第二種情形是:B不認罪,這時如果A認罪,那么B將被判十年,A將無罪釋放,如果A也不認罪,那么他們都將被判一年,這種情形下,A的最優策略也是認罪。由此可見,對雙方而言,每一個囚犯從個人利益出發,不考慮他人,他們都將選擇認罪。因為認罪都意味著較輕的處罰,即無論對方采取什么策略,認罪較不認罪策略,個人的收益值會更高。我們將這一策略,即無論對方如何選擇,對自己最有利的策略稱為占優策略。
在本案中,占優策略都將是認罪,可是一旦雙方都認罪(對個人來講是占優策略),等待他們的將是五年的審判;而如果雙方都不認罪(對集體來講是占優策略),那么等待他們的將是一年的牢獄之苦。也就是說,對個人最有利的認罪策略,卻不是集體的最佳策略。換句話說,對于兩個都追求個人利益最大化的理性人來說,其結果將是只能獲得不是最優而只是次之的策略。這里所揭示的正是囚徒困境中理性人所追求的個人利益最大化的困難所在。
三、囚徒困境的人性基礎
囚徒困境中個人的理性選擇卻是集體的非理性選擇,如果從另一個角度——人性的角度來分析,我們就會發現其中包含著人性惡的傾向。
首先,如果A是善的,那么會出現兩種情況,第一種情況是,A堅持不認罪也不供出B,B同樣也是堅持不認罪也不供出A,那么兩人都將只受到一年的牢獄之苦;第二種情況是,A堅持不認罪,B認罪,那么B將無罪釋放,而A要受十年的重刑,對于A來說,反正自己也有罪,坐十年牢也沒什么,如果他能這樣想的話。
其次,如果A是惡的,這里也會出現兩種情況,第一種情況是A認罪也供出B,而B不認罪,那么A將無罪釋放,B將坐十年的牢,第二種情況是A認罪也供出對方,B也認罪且供出對方,那么兩人都將受到五年的刑罰,這樣大家同時坐牢雙方心里也沒有什么不平衡的了[2]。
但這里的不同之處是,A從善的角度來說,得到了兩種不同的結果,最好的(1年)和最糟的(10年);而從惡的角度來說,也得到了兩種結果,最好的(0年)和最糟的(5年)的中等處罰。但不管怎樣,A從惡的角度較之善的角度,所獲得的利益都是最大的,那么B也將會出現上述的考慮。所以在種情況下,A、B雙方都從自己的利益角度來考慮的話,選擇惡的可能性會更大些。由此從囚徒困境中我們可以看到了人性惡的傾向。
但實際上,肯定地說雙方都會選擇惡也是不對,因為這中間還有一個雙方是否相互熟悉、相互了解的問題,如果雙方都比較熟悉,且相互了解,那么他們的選擇也許會出現一些偏轉。即如果A知道B為人講義氣,出了事絕對不會連累同伙的話,那么A有很大的可能會選擇不認罪;如果A知道B不可靠的話,那么A也許為了追求個人利益的最大化則很有可能選擇認罪;還有第三種情況那就是A、B之間相互不了解,這種情況下,他們的選擇就像賭博,但賭博的風險太大,那么在這種情況下雙方都有可能都選擇認罪。容易看出,對于每個囚徒而言,無論對方選擇什么策略,認罪都是自己的最優策略。
四、囚徒困境中的理性信任觀
信任的理性觀點最早起源于古典經濟學。從理性選擇理論出發,信任被個體視為規避風險、減少交易成本而進行的一種理性計算。他們會權衡計算背叛和合作哪一個更有利可圖,對于信任雙方而言,追求個人利益最大化是終極目標。因此在制定決策時,理性人具有完全一貫的偏好,一旦發現哪種信任決策可以帶來偏好的滿足,就會毫不猶豫的做出反應。
囚徒困境的模型盡管是一個假想,但它所提示的困境卻并非是想像的幻影。我們不僅會經歷一次簡單博弈條件下的囚徒困境,在更多的情況下,還要面對的是一種集體條件下的困境——重復的囚徒困境,即博弈的雙方并不一定是單獨的個人,也可能是兩大集團或更多的人。在這種情況下,相同的博弈者可能會不斷地重逢,即要不斷地重復面對相似的困境。在這種重復性的囚徒困境條件下,“有條件的合作策略”將可能是理性經濟人的最優策略。
重復為博弈產生了新的動力結構。在重復性囚徒困境下,理性博弈者將會考慮,如果自己拒絕合作,不斷背叛,為了減少損失對方也將會不斷地背叛。通過重復,博弈者就可能按對手以往的選擇而決定當前的選擇。例如,存在一種所謂的“一觸即發”策略,即“只要你背叛,我隨后將永遠背叛”。當雙方保持背叛的狀態時,就失去了雙方獲益的機會,而如果雙方合作,那就可能爭取到雙方獲益的結果,但合作的前提是雙方的相互信任。此外,還存在另一種所謂的“一報還一報”的策略,即以合作開始,然后模仿對方上一步選擇的策略。該策略源于信任,它以信任開始,決不首先背叛,因為時間嵌入性理論表明,今天的行為是合作還是背叛,將影響再次相遇時所受到的信任還是報復。對未來頻繁互動的預期決定了建立關系的重要,信任是使關系更持久、更穩固的最優選擇。
五、現實中的囚徒困境及其應對策略
囚徒困境在社會上也是廣泛存在的,而且情形要復雜得多。生物學家加勒特·哈丁所命名的“共有地悲劇”就是一個很好的例子。一個放牧部落使用公共牧場來放養牲畜,漸漸的,牛的數量達到了土地承載能力的極限。此刻,增加一頭牛對放牧人的效用有兩個方面——正面和負面的效用。正面效用為增加一頭牛所帶來的收益,這個收益歸增加這頭牛的放牧人。負面效用則是增加一頭牛所導致的過度放牧,這個成本完全歸屬于部落所有的放牧人來共同承擔,并且對每個放牧人來說,可以忽略不計,結果就產生了一個兩難困境——每一個人都從增加一頭牛中獲益,但是對個人利益的追求導致了一個不盡如人意的結果。
此外,如汽車尾氣與空氣清潔的關系,還有多子多福與人口膨脹,上車不排隊擠車的問題等,我們時刻都被這種選擇困境所困擾。
要想克服重復條件下的囚徒困境,就要從集體成員的主觀條件入手,使成員在新的基礎上做出最優決策,打破原有的納什均衡,建立新的有價值的納什均衡。(Nash均衡是由經濟學家納什提出,其意為,若有N個人參加博弈,那么在給定他人戰略的情況下,在每一個參與人選擇的最優戰略所形成的戰略組合中,沒有任何一個參與人有積極性選擇其他戰略,也沒有任何人有積極性打破這種均衡)為此可以采取以下措施:
1.利用強化的作用。重復條件下的囚徒困境,對決策者的一次決策的正強化或負強化,都可能影響到決策者下一次的選擇,當對決策者的一次對個人最優的策略采取負強化時,這個策略在決策者的心目中的權重將會有所降低。而當決策者采用對集體是最優、可以形成最優納什均衡的策略時,提供正強化,則會大大提高該策略在集體成員心中的權重。
由此,我們可以制定規則或提供獎懲措施,通過正強化的作用,引導決策者改變自己的原有的決策偏好,向著有利于集體利益的方向發展,打破原有利益的納什均衡,做出對集體而言的最優策略,重新建立有利于集體所有成員的新的納什均衡。
2.創造良好的文化氛圍。囚徒困境說到底其實也是一種道德困境。由于決策者只考慮到自己利益的最大化,從而做出只對自己有利的選擇。因此要解決這種道德困境,還是要從最根本的入手,改變全體成員的價值觀和主觀偏好,讓成員明白最有利于自己的選擇不是絕對的利己主義而是個人理性和集體理性相一致的選擇。
因此,對個人來言,要寬宏大度,真誠友善;對整個社會而言,要提倡容忍,友愛,團結合作。要達到這個標準,就要求全社會能形成一種良好的社會文化氛圍,人人都能從全局的利益出發,不計個人得失,能夠團結合作,共同努力,共謀發展,打破固存的、陳舊的納什均衡,使全社會建立起一種新的有利于全體成員的有價值的納什均衡。正如,我國現在所提倡的和諧社會的建設一樣,人人邁出一小步,全社會就會邁出一大步。