□ 海南大學馬克思主義學院 陳天翼 劉笑嶂
誠信是中華民族的傳統美德和基本價值標準。“人無信不立,國無信則衰”,誠信作為一種道德要求,是一切道德的基礎和根本。作為一種運籌學方法,博弈論近年來也被應用于誠信機制的分析和研究,但主要局限于研究兩方誠信博弈的情況。兩博弈方可以是同質的,如個人與個人、企業與企業之間的誠信博弈,也可以是不同質的,如個人與企業、政府與企業之間的誠信博弈。本文試圖從人際傳播的視角,使用進化博弈論工具來分析大群體成員的隨機配對反復博弈中誠信的傳播機制,呈現誠信在個體間復制的動態過程。
人際傳播是20世紀70年代在美國興起的傳播學分支,研究的是人與人之間采取行為和應對行為的過程。人際傳播的社會交換理論認為“人際傳播是處于一個關系之中的甲乙雙方借以相互提供資源或協商交換資源的符號傳遞過程”。它的特點是將經濟學的概念移植到人際傳播領域,認為人際傳播所以發生,取決于傳播雙方或多方所能獲得的報償與付出的交往代價大小的互換。它強調人際傳播是為了從他人處獲取回報,與他人交流要符合自我利益。
社會交換理論是第二次世界大戰以后發展起來的一種社會政治理論。它認為一切社會政治現象都可以通過人與人之間的物質和非物質交換來做出解釋,人們的社會活動主旨就是通過物質與非物質的交換來追求和獲得最大利潤。社會交換理論揭示了人際傳播中追求回報或報償的顯性的或潛在的動機。交換論者認為,正是這種交往的動力,推動了人與人之間建立關系,并為持續交往提供了充分的價值依據。
博弈論是現代數學的一個新分支,也是運籌學的一個重要學科。博弈論主要是研究多個個體或團隊之間在特定條件制約下的對局中,利用相關方的策略而實施對應策略的學科。
不難發現,人際傳播的社會交換理論與博弈論思想是高度契合的,因而我們認為博弈論比較適合分析人際傳播領域的問題。
由于彼此間缺乏信任,許多人傾向于采取“不誠信、或者不首先誠信”的消極策略,來防止對方可能的不誠信給自己帶來傷害。這種人與人之間筑起的不信任高墻導致社會誠信陷入“囚徒困境”。設a>b>c>d>0,兩博弈方的得益情況如表所示。

表1陷入“囚徒困境”的兩方誠信博弈
顯然,該博弈有兩個納什均衡(美國經濟學家納什提出的)即“誠信,誠信”和“不誠信,不誠信”,a>c 意味著前一個納什均衡:“博弈均衡理論”優于后一個納什均衡,b>c>d意味著單方面誠信是個體最壞的策略選擇,不誠信是個體理性的策略選擇。然而,合作博弈理論告訴我們,由于受道德、法律約束或者對重復博弈可能出現的考慮,有可能出現個體選擇誠信的情況。從另一個角度講,在大群體成員的隨機配對反復博弈中,存在博弈方調整策略的現象,這是因為在有限理性的條件下,博弈方不一定都有能力找到納什均衡,任何策略都有可能被部分博弈方采用。而博弈方的策略轉變是一個漸進的過程,并不是所有博弈方同時調整。下面我們用“復制動態與進化穩定”模型來分析在大群體成員的隨機配對反復博弈中誠信的傳播過程。
我們可以把采用不同策略的個體看作不同 “類型”的博弈方,但這種“類型”不是給定的,而是隨著個體的策略而改變的。一個博弈方的得益一方面取決于自己的類型,另一方面則取決于隨機配對遇到的對手類型。 設群體中“誠信”類型的個體比例為 x(0<x<1),其期望得益為u1,則“不誠信”類型的個體比例為1-x,其期望得益為u2,設群體平均期望得益為u。個體隨機配對進行兩方誠信博弈時,每個博弈方既可能遇到“誠信”類型的對手(概率為x),也可能遇到“不誠信”類型的對手(概率為1-x)。于是,不難計算出采用兩種策略博弈方的期望得益和群體平均期望得益分別為:

根據以上結果可以看出,除非x=(c-d)/(a-b+c-d)(此時u1=u2),否則u1和u2就有差異。只要博弈方有一定的理性,早晚會發現u1和u2的差異,得益較低的博弈方會發現改變策略對自己是有利的,并開始模仿另一種類型的博弈方。這意味著兩類博弈方的比例不是固定不變的,會隨著時間而變化,和是時間t的函數。
考察“誠信”類型博弈方的比例隨時間的動態變化過程,其變化的速度取決于兩個因素:一是比例x本身的大小,這關系到被觀察和被模仿的難易程度;二是“誠信”類型博弈方的期望得益與群體平均得益的差值,這關系到判斷差異的難易程度和對模仿激勵的大小。因而隨時間動態變化的速度可以表示為如下的復制動態方程

我們在上述復制動態方程的基礎上討論該博弈的進化穩定策略,這分為兩個步驟:首先,找出復制動態的穩定狀態,即兩種策略博弈方比例不變的狀態;然后討論這些穩定狀態的鄰域穩定性,即穩定狀態對于微小的偏離擾動所具有的穩定性。
令 F(x)=0,容易解出三個穩定狀態,分別是 x*=0、x*=1 和 x*=(c-d)/(a-b+c-d)。 由 a>b>c>d>0 可知,0<x*<1。
一個穩定狀態必須對微小擾動具有穩定性才能稱為進化穩定策略。也就是說,作為進化穩定策略的點x*,除了本身必須是均衡狀態以外,還必須具有這樣的性質:如果某些博弈方的偶然錯誤使x偏離x*,復制動態仍然會使x回復到x*。在數學上,這就是微分方程的“穩定性定理”:當時x<x*時=F(x)>0;當 x>x*時=F(x)<0。在作為進化穩定策略的點x*處 F(x)的導數(切線的斜率)為負值,即 F'(x)<0。
對求導,代入上面求得的三個穩定狀態點,注意到,可得 F'(0)=d-c<0,F'(1)=b-a<0,F'((c-d)/(a-b+c-d))=(a-b)(c-d)>0。
所以x*=0,和x*=1是該博弈的進化穩定策略,而x*=(c-d)/(a-b+c-d)不是該博弈的進化穩定策略。這些結果可以用復制動態方程的相位圖表示。

圖1 誠信傳播的復制動態相位圖
結合相位圖不難知道,當初始x的水平落在區間(0,(c-d)/(a-b+c-d)),時,復制動態會趨向于穩定狀態x*=0,也就是此時所有的博弈方都采用“不誠信”策略; 而當初始的 x 水平落在區間 〔(c-d)/(a-b+c-d),1〕,時,復制動態會趨向于穩定狀態x*=1,也就是此時所有的博弈方都采用“誠信”策略。如上表所示,雖然所有的博弈方都采用“誠信”策略帕累托優于所有的博弈方都采用“不誠信”策略,但是復制動態的穩定狀態不一定是帕累托最優的理想結果,這取決于初始狀態“誠信”類型個體的比例x是否超過閾值(c-d)/(a-b+c-d)。這意味著,要使復制動態最終實現所有個體都采用“誠信”策略,就要確保關系式 x>(c-d)/(ab+c-d)在初始狀態成立,為此,需要提高比例x的初始值,降低閾值(c-d)/(a-b+c-d)。
上述的模型分析顯示,在有限理性的大群體成員的隨機配對反復博弈中,“誠信”或者“不誠信”是可以傳播的。最終得以傳播的是“誠信”還是“不誠信”,取決于帶有偶然性的初始狀態,即初始狀態中“誠信”個體的比例是否超過一個閾值。設計盡可能讓“誠信”通過復制動態得以傳播的機制,需要從以下兩個方面著手:
1.加強誠信教育,盡可能提高初始狀態中“誠信”個體的比例。有限理性的個體在博弈的初始狀態沒有可模仿的策略,此時是否采用“誠信”策略往往取決于個體的道德習慣。加強誠信教育,培育誠信文化,有利于使更多的個體形成傾向于誠信的道德習慣。誠信教育是一個系統工程,需要全社會的共同努力。首先,黨政機關要講誠信,取信于民,言必信、行必果,才能增強群眾的信任感、歸屬感,提高公信力,對社會誠信起指導表率作用。其次,宣傳輿論部門要講誠信,真實地報道客觀情況,杜絕虛假廣告、虛假宣傳,對社會誠信起輿論引導和監督的作用。最后,要有規章制度的配合,要有重獎、重罰的措施,要在全社會樹立誠信受益、不誠信必受損的價值觀念。
2.建立誠信評價機制,盡可能降低“誠信傳播閾值”。 鑒于(c-d)/(a-b+c-d)的值對于復制動態最終結果所起的關鍵作用,我們將其稱為“誠信傳播閾值”。如果初次進行誠信博弈時群體成員采用“誠信”策略的比例落在區間[0,1]任意一點的概率相同,那么通過復制動態最終實現所有個體都采用“不誠信”策略的概率就是(c-d)/(a-b+c-d),等于“誠信傳播閾值”。 要使復制動態最終實現所有個體都采用“誠信”策略的可能性更大,需要“誠信傳播閾值”更小,這意味著應使c-d盡可能小而a-b盡可能大。由表1可知,在兩方誠信博弈中,a-b是單方面背叛誠信而引起的得益損失,c-d是模仿不誠信對手而得到的得益增量。模仿不誠信對手的現象是難以通過外力來改變的,因為此時雙方都沒有檢舉對方的激勵;而單方面背叛誠信的現象是可以監測的,只要建立雙方評價機制,受害方就可以報告對方的不誠信,進而促進監管部門通過法律或行政手段加大不誠信方的得益損失。
3.加強法律約束,盡可能提升個體選擇誠信的比例。綜上所述,受法律約束或者對重復博弈可能出現的考慮,有可能出現個體選擇誠信的情況。當理性博弈方發現和的差異,而得益較高的博弈方因誠信缺失受到法律制裁,會發現堅守策略對自己有利,就不會去模仿另一種類型的博弈方。當前,我國違法亂紀等不誠信行為在一定范圍仍屢屢發生,而只要存在不誠信可以獲利的情況,就會出現個體誠信選擇向獲利方模仿。誠信不僅是道德問題,也是法律問題。要加快誠信立法,健全失信懲戒機制,把誠信法律的引領性和規范性結合起來,通過設定相應的權利義務,使其轉化為約束的剛性規定。