博弈論可以成功解釋經濟中許多低效率現象,找出導致低效率的制度根源,從而幫助政府制訂、修改政策,完善政府行為,以提高經濟效率。政府制定什么政策、會收到什么效果,可以通過構造博弈模型進行研究。目前我國出現“市場秩序”混亂,政策執行低效問題,其實質是政府制定的政策目標和政策結果相沖突,出現“政府政策錯位”的現象。
所謂政府政策“錯位”,即政府制定的政策目標和執行的政策結果出現不一致現象,常被稱為“激勵的悖論”。這個悖論對于制定各項政策,進行管理體制改革都極有啟發意義。下面運用博弈理論,通過構造博弈模型對此做一個較為深刻的剖析。
一、“執法者——不法分子”模型的建立
首先構造下面“執法者一不法分子”博弈模型。在此模型中,博弈方有兩個:執法者和不法分子;執法者的策略集為“監管、不監管”;不法分子的策略集為“違法、不違法”。當執法者“監管”時,如果不法分子“違法”,可能會被執法者“逮住”而遭受處罰,對不法分子而言具有負效用,記為得益“-P”。這一得益可能表現為被罰款,嚴重者甚至會被判刑等。因此,政府執法者“監管”會幫助提高政府威信,假設不考慮執法者能得到的一些心理上的滿足,他并沒有其他更實際的效用,因此他的得益是零。當執法者“不監管”時,如果不法分子“不違法”,則執法者本來拿一份國家工資就該履行一份職責,不法分子本就不應違法,兩者都是應該的,兩者都沒有什么特別的得益,當然也都沒什么損失,即得益都是零。
“監管”是費時費力的,難免發生沖突,因而也不利于干群間的個人關系,因此如果不法分子“不違法”時,執法者也“不監管”,省時省力而效果又自然達到了,所以執法者能得到一份正的效益,記為S,但此時不法分子什么得益也不會有。而如果執法者“不監管”,不法分子選擇“違法”,則執法者一定程度“失察”,執行任務的完成、執行效果的實現都得打折扣,對他來講有一定程度的負效用(如黨紀處分),記為得益“-D”,此時不法分子違法(如偷稅漏稅)成功,有一定程度的正效用,記為得益“V”。最后可以得到的得益矩陣如下圖所示:

這是一個嚴格競爭博弈,博弈雙方只有競爭而沒有合作的可能。這是因為:若執法者的策略是“監管”,則不法分子的策略是“不違法”;若不法分子的策略是“不違法”,則執法者的策略是“不監管”;若執法者的策略是“不監管”,則不法分子的策略是“違法”;若不法分子的策略是“違法”,則執法者的策略又是“監管”,如此循環往復,根本沒有協調的時候。
嚴格競爭博弈一定存在納什均衡解(通俗些講,“納什均衡”是指博弈中的博弈方在策略選取時達到的這么一種狀態:假設每一個博弈方都是理性人,已經選取了某策略的任一博弈方都不愿單獨改變其策略,否則都只能是使得他的當前得益減少),但卻不可能是純策略的(“純策略”是指以絕對的態度在眾策略中進行取舍,選取某一策略則一定不取其他策略),而是混合策略的(“混合策略”跟“純策略”相反,是指以相對的態度在眾策略中進行取舍,選取任一策略都是以一定概率進行的,但總概率必須等于1)。因此,用劃線法、箭頭法的嚴格下策消去法思想是不可能得到納什均衡解的,它沒有嚴格下策。必須引進混合策略的思想,找它的混合策略解。
二、模型的求解
在沒有純策略納什均衡解的情況下,不法分子采用的混合策略必須使得執法者無論是“監管”還是“不監管”,其期望收益都是一樣的,惟其如此,不法分子才會失去改變策略的沖動。執法者采用的混合策略也必須使得不法分子無論是“違法”還是“不違法”,其期望收益都是一樣的,也惟其如此,執法者才會失去改變策略的沖動。只有當雙方都沒有改變策略的沖動時,博弈才能達到一個雙方都不愿打破的均衡局面,這時雙方的策略集合便是本博弈的納什均衡解。假設不法分子違法的概率為p(則不違法的概率為1-p),執法者不監管的概率為q(則監管的概率為1-q),則:

我們先討論不法分子選擇“違法”與“不違法”兩種策略的概率的確定。

圖2中橫軸表示不法分子選擇“違法”的策略的概率pt,它分布在0到1之間,“不違法”的概率則等于1-p1;縱軸反映對應于不法分子“違法”的不同概率,執法者選擇“不監督”策略的期望得益。設執法者的得益為R,則R與p1之間存在如下的線性關系:
R=Pt*(-D)+(1-Pt)*S=S-(S+D)t*Pt
圖中從S到-D連線的縱坐標就是在橫坐標對應的不法分子“違法”概率下,執法者選擇“不監督”的期望得益。容易說明該線與橫軸的交點pt*就是不法分子選擇“違法”概率的最佳水平,選擇“不違法”的最佳概率則為1-pt*。首先,S到-D連線上每一點的縱坐標,就是在不法分子選擇該點橫坐標表示的“違法”概率時,執法者選擇“不監督”策略的期望得益S(1-Pt)+(-D)pt。假設不法分子的“違法”概率大于pt*,此時執法者“不監督”的期望得益小于0,因此他肯定百分之百選擇“監督”,從而不法分子逃一次被抓一次有賠無賺,因此對不法分子來說大于pt*的“違法”概率是不可取的。反過來,如果不法分子“違法”的概率小于pt*,則執法者“不監督”的期望得益大于0,因此執法者天天不監督是合算的,此時即使不法分子提高一些“違法”的概率(即違法更頻繁一些),只要不大于pt*,執法者都會選擇“不監督”,因此不法分子不用害怕會被抓住。由于不法分子在保證不被抓住的前提下,“違法”概率越大收獲就越大,因此他會使“違法”的概率趨向于pt*,均衡點是不法分子以概率pt*t*和1-pt*分別選擇“違法”和“不違法”。此時執法者“不監督”與“監督”的期望得益都等于0,選擇純策略“不監督”和“監督”,或混合策略的期望得益都是相同的。不過,事實上,為了讓不法分子也沒有可乘之機,執法者也必須選擇特定概率分布的混合策略。
執法者采取“不監督”與“監督”的混合策略概率分布,也可用同樣的方法來確定。結論是圖3中的pg*和1-pg*是執法者的最佳概率選擇。
在不法分子和執法者的博弈中,不法分子分別以概率pt*和1-pt*隨機選擇“違法”與“不違法”,執法者分別以概率pt*和1-pg*隨機選擇“不監督”與“監督”時,雙方都不能通過改變策略或概率改善自己的期望得益,因此構成混合策略納什均衡,這也是該博弈惟一的納什均衡。
三、“激勵的悖論”及其啟示
不法分子與執法者之間的混合策略博弈,實質上揭示了一種“激勵的悖論”。
首先,考察政府為了抑制違法現象而加重對不法分子的懲罰時會出現的結果。對不法分子的懲罰加重會使得P增大。在圖3中,這相當于-P向下移動到-p1,如果執法者混合策略中的概率分布不變,此時不法分子“違法”的期望得益變為負值,因此不法分子會停止“違法”。但是在長期中,不法分子減少“違法”會使執法者更多地選擇“不監督”,最終執法者會將“不監督”的概率提高到pt*1,達到新的均衡,而此時不法分子“違法”的期望得益又恢復到0,他會重新選擇混合策略。由于不法分子的混合策略概率分布是由圖2決定的,并不受P值的影響,因此政府加重對不法分子的懲罰在長期中并不能抑制違法,最多只能抑制短期的違法發生率,它的主要作用是使得執法者更多地懶得監督。當然,如果將執法者可以輕松完成工作也看作增加了社會福利,那么政府加重對不法分子的懲罰還是有意義的。
同樣地,可以再討論加重對失職或者說治法不嚴的執法者的處罰會出現什么結果。加重對執法者的處罰意味著D增大到D1。此時,如果不法分子“違法”的概率不變,那么執法者“不監督”的期望得益變為負值,執法者肯定會選擇“監督”。執法者“監督”不法分子只能減少違法的概率,直到將pt*下降到pt*1,此時執法者又會恢復混合策略,達到新的混合策略均衡。這就是說,加重對執法者的處罰在短期中的效果是使執法者真正盡職,但在長期中并不能使執法者更盡職,執法者的勤勉程度并不是由D決定的。加重處罰失職執法者在長期中的真正作用,恰恰是會降低違法發生的概率。這樣,不法分子和執法者博弈的最后結果是:在其它條件不變的前提下,不法分子之所以違法,是因為對失職執法者的處罰不夠;執法者之所以不監督,則是因為對違法不法分子處罰太甚。要使不法分子不違法,得加強對執法不嚴的執法者的處罰;要使執法者少監督,裁減冗員提高效率,則要加重對違法的不法分子的處罰。
此模型所揭示出的政策目標和政策結果之間的這種罰A抑B、罰B揚A的“意外”錯位關系,也常被稱為“激勵的悖論”。這個悖論對于制定各項政策,進行管理體制改革都是極有啟發意義的。政府加重對不法分子的懲罰在短期內雖然能抑制不法行為,但在長期會使執法者增加不打擊行為,不法現象不會改善。但加重對執法者懲處力度的做法短期內會使執法者真正盡職,長期卻可起到抑制不法行為的作用。因此,嚴懲擾亂社會經濟秩序的違法分子固然必不可少,但加強對監管者的監管力度卻能使監管更有效。政府下決心要整頓經濟秩序促進市場“理性”發展,在獎懲制度的設計上,監管監管者與監管違規操縱者并舉,才是最好的選擇。
此模型還可幫助我們理解為何政府再三強調要加強監管、懲治腐敗,而經濟生活中的股市黑幕、基金丑聞、權力尋租、工程腐敗等擾亂正常經濟秩序的活動仍屢禁不止,政府政策收效甚微。一個重要的原因在于政府設計的策略機制是否真的構成“可信的威脅或承諾”,政府的相關法規及監管配套政策的方向是否正確,措施力度是否恰當構成博弈“可置信”的機制保障。
實際上,每一政策的出臺都糾纏著許多沖突對抗的利益關系,是多方面博弈的均衡結果。政府要使制定的政策有效,就必須考慮別人可能采取的各種對策,以使你的政策本身符合納什均衡的要求。市場和政府都不是完美的,政府進行戰略性的政策干預和合理性規制就是要把市場競爭處理成一場博弈。如何使這一博弈沿著預期的目標前行而不致發生偏離和扭曲正是當前我國政府機制改革應著重解決的問題。
(作者單位:江西財經大學統計學院)