黃東奇
(肇慶農村商業銀行股份有限公司,廣東 肇慶 526040)
博弈論(Game Theory,亦稱對策論或賽局理論)是研究理性決策者之間戰略互動的數學模型 (Mathematical models),是研究具有斗爭或競爭性質現象的理論和方法。博弈論既是現代數學的一個新分支,也是運籌學的一個重要學科,在社會科學(Social science)、邏輯學(Logic)、系統科學(Systems science)和計算機科學(Computer science)中也有應用。博弈論最初產生于零和游戲(Zero-sum game,也稱零和博弈),在這種游戲中,贏家的利潤來自于輸家的虧損,每個參與者的收益或損失由其他參與者的損失或收益來平衡,各方損益總和永遠為“零”。今天,博弈論適用于廣泛的行為關系,已成為人類、動物和計算機邏輯決策科學的總稱。
在經濟學中,博弈涉及均衡。均衡意即相關量處于穩定值。在供求關系中,某一商品市場如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時表明該商品的供求達到了均衡。納什均衡,是穩定的博弈結果。博弈論研究的假設包含三個約束:一是決策主體是理性的,最大化自己的利益;二是完全理性是共同知識;三是每個參與人被假定為對所處環境及其他參與者的行為形成正確信念與預期。在納什均衡點上,每一個理性的參與者都不會有單獨改變策略的沖動。納什均衡點存在性證明的前提是“博弈均衡偶”。“均衡偶”是指在二人零和博弈中,當局中人A 采取其最優策略a*,局中人B 也采取其最優策略b*,如果局中人仍采取b*,而局中人A卻采取另一種策略a,那么局中人A 的支付不會超過他采取原來的策略a*的支付。結果對局中人B 亦是如此。則有,一對策略a*(屬于策略集A)和策略b*(屬于策略集B)稱之為均衡偶,對任一策略a(屬于策略集A)和策略b(屬于策略集B),總有:偶對(a,b*)≤ 偶對(a*,b*)≤偶對(a*,b)。對于非零和博弈,則有,一對策略a*(屬于策略集A)和策略b*(屬于策略集B)稱為非零和博弈的均衡偶,對任一策略a(屬于策略集A)和策略b(屬于策略集B),總有:對局中人A 的偶對(a,b*)≤偶對(a*,b*),對局中人B 的偶對(a*,b)≤偶對(a*,b*)。
當前的二元體制下,商業銀行作為自我約束、自擔風險的金融機構,經營管理的參與者可以分兩大類型。其中管理人(Manager)作為擁有高度審批權限的行為人,具有通過權力變現追求個人利益最大化的沖動;監管人(Watchdog,包括內部監管和外部監管)作為經營安全的守護人,通過實施檢查懲罰權力對管理人的行為進行約束。
完全信息動態博弈的一個重要特征是完全信息,每個參與者都知道另一個參與者的行動,也知道另一個參與者從這個行動中獲得什么樣的利益損失。允許他們考慮到彼此的角色,更好地理解另一個參與者對他們自己利益和損失的影響。有時候,完全信息會被認為是一種缺乏競爭元素的情況,當參與者都知道對方的行動時,他們就不太可能達成共同的行為。另一個重要特征是動態性,表明參與者可以在游戲過程中改變決策,繼而可以影響其他參與者的利潤。此外,動態博弈還可以用勝負來衡量收益,參與者根據他們的行動可以獲得更多的收益。其一,在動態博弈中,有博弈方會相機選擇,即根據不同階段的情況靈活作出決策。其二,在動態博弈中,博弈方的策略選擇和博弈結果,與策略可信性密切相關。其三,策略的可信性是動態博弈分析的核心問題之一。靜態博弈中,參與人一旦選定策略(行動)后,就不會改變了。但是,在動態博弈中,參與人在博弈開始前選擇的策略(行動計劃)可能在博弈開始后進行調整,不一定按照原定的策略(行動計劃)來進行。也就是說,事前最優的策略在事中或事后不一定是最優的。
(1)完全信息假定
管理人具有完全行使管理的權力,監管人對管理人的行為具有完全具有制止的能力。在博弈過程中,參與人與管理人對各自的策略空間、預期收益都具有明確的認識,不存在不確定性。
(2)完全理性假定
管理人與監管人都能按照客觀條件的約束,作出符合其決策目標的最優化選擇。管理人與監管人的支付成本與預期收益均為外生決定。
(3)行動組合假定
管理人根據掌握的權力,結合個人預期收益作出違規或不違規的選擇;監管人針對的管理人的行動作出檢查或者不檢查的選擇,管理人與監管人的行動組合為(違規、檢查,違規、不檢查,不違規、檢查,不違規、不檢查)。
(1)管理人的預期收益函數
管理人通過實施經營管理活動獲取個人利益最大化。經營管理過程中,管理人的預期收益可以分為兩部分:一是正常的薪酬收入,用wM 代表。二是違規時獲取的超額收益,用rM 代表。薪酬收入與超額收益的大小,均與權力系數α(α >1)有關,“α >1”表示管理人權力擁有的權力系數越大,在職級薪酬收入相對固定的前提下,通過違規獲得的超額收益就越高。因此管理人的預期收益為(WM+rM)a但無論是正常履職還是違規,均要付出成本的,正常履職的付出,用lM 代表,違規被查處后接受的懲罰,用cM表示。正常履職與違規的付出成本,同樣與權力系數α(α >1)有關,“α >1”表示權力系數越大,在職級付出相對固定的前提下,給予違規處罰的力度越大,違規付出的成本也就越大,管理人的預期成本為(1M+cM)a。管理人的預期收益函數表示如下:
(2)監管人的預期收益函數
監管人通過實施檢查執紀保障經營管理依法合規開展。但由于執紀監督工作的特殊性,監管人很難通過違規行為獲得超額收益,除非與管理人形成“合謀”,即便與管理人員“合謀”,其獲得的超額收益也相對有限。因此檢查執紀過程,監管人的預期收益、主要是正常薪酬收入,用wW代表,同樣與權力系數α(α >1)有關,“α >1”表示權力系數越大,正常薪酬收入就越高。與薪酬相對固定不同,監管人的預期成本主要體現在對管理人違規行為的檢查處罰上,其成本函數為(cWn)a,其中cS為檢查處罰的工作付出,N 為檢查處罰的人數,檢查處罰的人數增加會導致監管人的勞動付出成倍增加,也與權力系數有關α(α >1)有關,“α >1”表示管理人的權力越大,監管人進行檢查處罰的勞動付出就越大。監管人的預期效用函數如下:
經營管理過程中,假定管理人與監管人同時只進行一次博弈,用p 代表管理人選擇是否違規的概率,用q 代表監管人是否實施檢查處罰的概率,管理人的期望收益函數為:
表明管理人在薪酬收入與違規收入、勞動付出與懲罰付出等條件給定的前提下,其期望收益與監管人的檢查處罰的概率密切相關。如果監管人檢查處罰的概率足夠高,管理人的期望收益會大幅下降,從而自動終止違規行為,反之亦然。
最優化的一階條件為:q*=(WM+rM)d/(lM+cM)d。
監管人的期望收益函數為:
表明監管人在薪酬收入、工作付出與檢查處罰等條件給定的前提下,其期望收益與管理人選擇是否違規的概率有重要關系。如果管理人選擇違規的概率足夠高,監管人的期望收益會大幅下降,可能會選擇“不作為”,看起來像是了“默許”違規行為。反之,如果管理人選擇違規的概率足夠小,監管人更有積極性將其消滅在萌芽狀態。
最優化的一階條件為:p*=WW/(cWn)a。
管理人與監管人混合戰略的均衡點期望支付為:E*M=0,。
(1)對均衡結果的分析
在只有一次博弈的情況下,管理人與監管人的期望支付均為0 時,管理人會以固定的概率p*=WW/(cWn)a隨機的選擇違規或不違規,監管人以固定的概率q*=(WM+rM)d/(lM+cM)d隨機的選擇檢查處罰或不檢查處罰。如果管理人的違規收益小于期望收益,理性人假定會令管理人自動終止違規行為,而監管人不需要額外的工作付出,就能實現個人效用的最大化。如果管理人的違規收益大于或遠遠大于期望收益,理性人假定會令管理人千方百計的選擇違規行為,而監管人即使付出再大的工作努力,也難以阻止管理人違規。因此得到:
命題1:當前的管理體制下,如果只進行一次博弈,管理人與監管人分別以固定的概率隨機選擇(違規,處罰),其中管理人的違規收益與期望收益的差額是決定管理人選擇是否違規的首要因素,監管人選擇是否檢查處罰對管理人選擇是否違規影響不大。
(2)對管理人違規概率選擇的分析
p 為管理人選擇是否違規的概率,0 ≤p ≤1。得出:
命題2:管理人的違規概率與監管人的薪酬收入呈負相關關系。當監管人的薪酬收入較低,管理人會認為監管人員缺少主動檢查處罰的動力,從而增加主動違規的概率,反之會相應減少管理人主動違規的概率。
命題3:管理人的違規概率與監管人的工作付出與違規人數同樣呈負相關關系。當監管人的工作付出增加或者違規人數增加,會導致管理人產生監管人工作太忙不會檢查處罰違規行為或者重任都在違規而自身違規也無所謂的“誤判”心理,從而導致管理人違規概率也相應增加,反之則會相應減少違規概率。
(3)對監管人檢查處罰概率選擇的分析
q 是信貸市場上監管者對,者檢查的概率,0 ≤q ≤1,得出:
0 ≤q*≤0
命題4:監管人檢查處罰的概率與管理人的違規收益呈正相關。在管理人薪酬收入與勞動付出給定的情況下,當管理人通過違規行為獲得的違規收益越大,其違規的動機也就越強,監管人檢查處罰的概率也就越大,反之,由于違規收益太小導致管理人違規得不償失,缺少違規的動力,監管人也就會減少檢查處罰的概率。
命題5,監管人檢查處罰的概率與管理人的違規成本呈負相關關系。在管理人薪酬收入與勞動付出給定的情況下,當管理人因為違規行為受到的檢查處罰力度越大,管理人會因“畏懼”心理主動減少違規行為,監管人檢查處罰的概率就越小,反之,如果管理人因違規行為受到的檢查處罰過小,會鼓勵違規行為,監管人就會相應地加大檢查處罰的概率。
在實際的經營管理過程中,由于違規收益的誘惑過大,管理人的違規行為更有可能體現為一個長期過程,直到被監管人檢查發現或者監管人根本檢查發現不了,導致管理人與監管人的博弈從一次性進入了重復博弈。據無名氏定理,如果參與人有足夠的耐心,滿足參與者理性的任一可行的收益都可以通過一個特定的子博弈精練納什均衡得到。令δ(δ <1)作為貼現因子(假定管理人與監管人的貼現因子相同)。
管理人在重復博弈階段的預期收益為:
監管人在重復博弈階段的預期收益為:
要使以上同時成立,應滿足:
假設在博弈初始階段,如果管理人與監管人選擇混合戰略(p,q),其中管理人的違規概率p 處于區間,監管人檢查處罰的概率q=0,則管理人就會認為違規行為不會被檢查處罰,從而選擇增加違規的概率,使自己預期收益增加,而導致監管人預期收益受損,倒逼監管人提升檢查處罰的概率,從而進一步影響管理人的行為選擇。最終結果是雙方的博弈會自動進入納什均衡點(p*,q*),然后一直維持在均衡狀態,形成特定的子博弈精練納什均衡。由此得出:
命題6:如果管理人通過違規獲取的違規收益越多,監管人可能給予就檢查處罰力度就越大,從而影響管理人將違規概率保持在一個很小的范圍之內,即不會引起監管人的關注而進行檢查懲罰,又能獲取適度的違規收益。
命題7:如果監管人承擔的監管工作較多,導致監管人對管理人的違規行為不能及時發現,也會導致管理人主動選擇增加違規的概率。
收益是決定管理人是否選擇違規的關鍵因素。在現行的制度安排下,管理人掌握了強大的資源分配權力,能夠通過違規行為獲取更高的超額收益,在監管人監管措施不到位的前提下,管理人具有強烈的違規動機,并能付諸行動,產生了行為的必然性。
監督人的監管力度是決定管理人是否選擇違規的重要因素。在現行的制度下,內部監管人員較難通過采取有力、可信的監管力度,讓管理人主動減少選擇違規行為的概率,導致監管呈現出“弱有效”的脆弱性。
上述脆弱性大概率會導致管理人的行為覆蓋整個任期,以致于違規行為在離任若干年后會被檢查發現,或者根本不會被檢查發現,致使管理人的違規行為具有長期性。
基于上述必然性、脆弱性與長期性,導致管理人的違規行為會呈現出一定的傳染性,產生了羊群效應,從而體現為違規行為的“團體化”與“連續化”。
一是健全法律制度。市場經濟是法治經濟,具有強大約束力的法律制度對違規行為能夠發揮可確定和可預見的作用[6]。通過制定相關的法律法規,對產權組織形式、融資渠道、經營機制、管理模式、運營規則、職能作用等從法律層面作出明確規定,使管理人與監管人都能從法律中明確各自的基本權利、義務和風險,形成相互制約和促進的關系,有助于形成穩定的預期和行為,最大限度降低違規行為的必然性。二是完善管理體制。雙重委托管理的實質還是屬于傳統的行政管理機制,與法治化、市場化的改革方向還有差距。加強頂層設計,實現“大系統、小法人”體制向“大系統、大法人”體制轉變,強化體制規則對管理人違規行為的有效約束。三是科學配置權力。根據《公司法》《商業銀行法》等相關法律規定,圍繞公司治理的屬性,科學配置管理人與監管人的權力,清晰劃分個人權力與集體權力的邊界,防止權力過于集中到個人手里,并按照權力運行過程強化事前、事中、事后的連續監管,防止管理人任性用權。四是強化底線思維意識。重點圍繞信貸審批、人事調整及基礎設施建設等領域,建立正負面清單制度:正面清單突出干事創業導向,鼓勵管理人做好本職工作、積極作為;負面清單根據內部檢查、外部審計等發現的違規行為明確工作禁區,劃定管理人履職紅線。
一是強化監管體系。通過外部行業管理組織加大信貸、人事、財務、基建等重點領域監督檢查力度和內部檢查審計部門定期開展各類專項審計工作,建立內外部監督機制相結合的監督體系,并增強內、外部監管部門的信息交流共享,依靠內、外部合力監督管理人員依法合規行使經營權力。二是建立“全周期管理”制度。在日常監督、專項檢查、內(外)部審計等工作中,將管理人的權力配置、使用、監督等全過程的每一個風險點進行分析和標識,并形成風險點手冊,逐一分析、考察管理人的權力配置、使用和監督的情況,有力增強對管理人違規行為的預防、發掘、跟蹤和懲治。三是加大處罰力度。法和經濟學的研究結果表明,對處罰概率的增加和處罰的提高,對所有人和一小部分最有可能犯罪的人都具有威懾效應。通過金融立法,加大對管理者違規行為的行政及經濟處罰力度,有力減少管理人通過違規行為可以獲取的預期收益。
一是建立剛性契約管理機制。建立符合市場化改革方向的契約管理機制,通過明確任職期限、到期重聘、簽訂并嚴格履行聘任協議和業績合同等契約、剛性考核和兌現等要求,強化管理人的責任、權利和義務等,重點突出考核結果不僅影響收入的“能增能減”,更要影響職務(崗位)的“能上能下”,有力發揮契約化管理對違規行為的遏制作用。二是建立起“大數據監管”機制。內外部監管部門要充分運用大數據平臺,定期對違規行為的高發領域和關鍵環節進行數據分析,并對違規行為進行精準畫像,同時建立違規行為檢查懲處的信息通報、交流、共享機制,依靠科技手段提升發現違規行為的及時性。三是提升監管人的工作能力。監管人也要根據違規行為發生的特點和變化,不斷提升監管履職能力,嫻熟掌握有關紀、法知識及經濟、金融、統計、計算機、心理等方面的知識,持續優化自身知識結構,增強及時發現違規行為的工作能力。
一是建立長期激勵機制。當前,商業銀行的薪酬激勵機制主要采用以年度獎金為主的短期激勵機制,并輔助以延期支付制度。但由于監管的脆弱性,管理人的違規收益遠大于正常的薪酬收益,不具備長期激勵作用。建議探索建立靈活性的股票或股票期權制度作為長期激勵機制,強化管理人正面預期收益,主動減少違規的動機。二是建立聲譽激勵機制。良好的市場聲譽也可以作為長期激勵機制的替代物。管理人從追求個人利益最大化的理性假定出發,通過追求良好聲譽能夠獲得更加有利于個人的長期收益,符合長期動態博弈的結果。管理人對保護聲譽的考慮,會理性選擇合規管理,以免在未來失去更多。三是建立競爭激勵機制。正面的競爭激勵機制是約束管理人違規行為的最有效的激勵機制。通過正面的競爭激勵機制,引導管理人強化自我激勵約束,主動減少違規行為,以免因違規而承擔極其高昂的機會成本。