黃海懿
阿克謝羅德總結了那些在“重復博弈”中能夠獲得較好博弈效果的策略具有五大特點:“善良的”、“可激怒的”、“寬容的”、“累積的”、“清晰的”。股改是一場參與者眾多、促使我國金融體系深度變革的博弈,在股改中各方參與者獲得“共贏”而非“共損”的博弈結果是股改要實現的重要目標
迄今為止,“重復博弈”最具有說服力的理論來自著名的“阿克謝羅德競賽”。這一競賽以“囚徒困境”為基本博弈單元,經過幾百次的重復試驗總結出成功的重復博弈應具備的幾個特點。
阿克謝羅德競賽
阿克謝羅德是一名政治科學家,在1984年的著作中他描述了借助數學和計算機化的方法所做的兩次重復博弈試驗——“阿克謝羅德競賽”。
“阿克謝羅德競賽”的規則是這樣的:參賽者以電腦程序的方式在賽前提交一個博弈策略,這一策略將被固定下來而在競賽過程中不能加以改動。策略既可以為復雜策略,也可以為非完美策略(如“兩次不合作就報復”)。競賽為循環賽,重復200次“囚徒困境博弈”,前次博弈的結果將被記錄下來從而對后次博弈產生影響。競賽中由電腦將參賽各策略予以匹配,運行結束后累計得分最高者為勝。
首次“阿克謝羅德競賽”共有15個策略參賽,其中包括阿克謝羅德自己的一個隨機程序(以50%的概率選取合作或不合作)。循環賽最后的勝利者為加拿大學者安那托爾·若珀特提交的“針鋒相對策略”。該策略的特點是:第一次對局采用合作的策略,以后每一步都跟隨對方上一步的策略,你上次若合作,我這次就合作,你上次若不合作,我這次就不合作。
競賽中排名前三位的策略有三個共同特點:一、“善良的”,即采用“合作”的博弈策略,從不首先背叛;二、對方出現背叛行為就一定要報復,不能總是合作,即“可激怒的”;三、不會因對方的背叛而進行無休止的報復,如果對方以后改為合作,則也進行合作,即“寬容的”。
為了驗證這些特點,阿克謝羅德將第一次的競賽結果公開發表后,邀請更多的人參加第二輪競賽。第二輪共有63個策略參賽,其中仍然包括阿克謝羅德自己的那個隨機程序。第二輪競賽的獲勝者仍然是“針鋒相對策略”,同時競賽中還體現出這樣的特點:
一、“善良的”:排在前15位的策略中,14個策略都是“善良”的,只有1個不善良的“哈靈頓程序”(策略為首先合作,當發現對方一直在合作,它就突然來個不合作,如果對方立刻報復它,它就恢復合作,如果對方仍然合作,它就繼續背叛)列入其中。排在最后15位的策略中,只有1個“總選擇合作的程序”是“善良”的;二、“可激怒的”、“寬容的”的特點仍然存在;三、“累積的”:“針鋒相對策略”在循環賽博弈中取勝的原因是它能夠通過合作行為獲得最高的累計分數,它得高分的情況較多而得低分的情況較少。但是“針鋒相對策略”從來不是單次試驗的最高分(其在對局中的得分從來不可能超過對方,最多打個平手),所以,如果遇到淘汰制的循環賽,它會很快被其他策略所淘汰。四、得勝的策略都是“清晰的”,即能讓對方在三五步對局內辨識出來。如“針鋒相對策略”很快就讓對手很快發現了規律,從而不得不采取“合作”的態度。而那些過于復雜的策略則由于需要實踐的次數過多、“學習”時間過長,博弈的效果并不好。
通過這兩次競賽,阿克謝羅德總結了那些在“重復博弈”中能夠獲得較好博弈效果的策略具有五大特點:“善良的”、“可激怒的”、“寬容的”、“累積的”、“清晰的”。
股改思路的調整
股改是一場參與者眾多、促使我國金融體系深度變革的博弈,在股改中各方參與者獲得“共贏”而非“共損”的博弈結果是股改要實現的重要目標。正如我們以前所分析的,財政資金積極介入但市場仍舊低迷、流通股股東持續售股,實際上這就是股改在得到“共損”結果的市場體現。
那么,我們的股改思路是否該做一些調整?如何實現“共贏”的博弈目標?當運用“重復博弈”理論進行分析時,可以得到這樣幾點啟示:
對價方案必須是“善良的”
對價方案是股改博弈的起點,它由非流通股股東先行制定,再與流通股股東進行溝通。由于這一過程存在著時間上的先后關系,所以,與“囚徒困境博弈”略有所不同,流通股股東是在了解了非流通股股東的博弈策略后再選擇自己的博弈策略,如果非流通股股東選擇了背叛,流通股股東就將直接選擇背叛。也就是說,非流通股股東的博弈策略將直接決定了博弈的方向。
在目前的股改實踐中,非流通股股東普遍利用方案的絕對制定權推出“背叛”的對價方案;在隨后的表決過程中,部分基金管理人為了“回扣”而再次“背叛”普通流通股股東,于是流通股股東在表決階段難以“背叛”地將方案否決;于是,在“股改后的股價走勢”的第三階段中,由于不存在限制條件,“被背叛的”普通流通股股東和基金管理人為求自保,紛紛利用售股的時間優勢在二級市場上“背叛”非流通股股東,從而產生市場的持續下跌。如果究其根源的話,是非流通股股東在博弈起點上的“背叛”導致了整體博弈的“背叛”走向。
如何改變這一現狀,使博弈的方向回到“合作”的軌跡上?借鑒重復博弈試驗,博弈整體效果最好的15個策略中14個是“善良的”(唯一的不善良哈靈頓程序在“千次進化試驗”中被淘汰)。也就是說,要獲得“共贏”的博弈效果,需要在股改實踐中倡導博弈者采用“合作”策略,對首先采用“背叛”策略的博弈者進行限制和打擊。具體到股改的初始階段,是非流通股股東制定的對價方案必須是“善良的”。
“善良的”的對價方案應具備這樣三個標準:一、股改的目的是解決股權分置的歷史遺留問題,因此,方案首先需要實現全流通目標;二、對價方案應達到“共贏”的博弈結果。股改后如股價穩中有升,全體博弈者將受益,即“共贏”;若股改后股價大跌,各方博弈者均受損,為“共損”。所以,這一對價方案應該具有穩定股價的安排;三、對價方案還應體現“合作”的博弈策略,雙方得到的利益均等;四、股改是非流通股股東因打破上市承諾而進行的補償,因此,應以上市發行價作為計算基準,有增發和配股的需要一并計算成本。因為這正是非流通股股東與流通股股東兩個群體之間進行交易的真實成本。至于其后數年股價上的跌幅,是流通股股東內部交易造成的,不應該成為非流通股股東減少支付的理由。同樣的,那些以往損失了現在又尚未持股的流通股股東如果希望得到補償,它們買股和增持就可以了。
博弈者的態度必須是“可激怒的”
由“重復博弈”試驗結果可以看到,只有博弈者對“背叛”行為“可激怒”,才會使背叛者畏懼“共損”而不得不“合作”。相比之下,那個“總選擇合作的”的最善良策略其博弈效果并不好。一個任何情況下都會“合作”的博弈者,又有誰會跟它“合作”呢?
在我們股改實踐中,卻存在著這樣的理解,以為投贊成票就是完全的“合作”,這是完全錯誤的。當我們一味地姑息那些“背叛”的方案,我們就是在成為那個最善良的策略,就是在走向了“共損”的博弈結果。
所以, 我們有必要調整思路,在股改中鼓勵博弈者采取“可激怒的”博弈策略。
股改政策的走向必須是“清晰的”
“重復博弈”試驗證明了排名居前的策略是“清晰的”,能夠很快讓博弈對方發現規律,減少試錯和學習的時間,這樣方能獲得較好的博弈效果。
反觀股改實踐,政策走向上較為模糊,對價方案的制定缺少標準,股改審核的權力交到了深滬兩處交易所,監管也沒能及時跟上。由于缺少相對統一的指導性思路,股改雖歷經數月,但市場仍對各操作思路爭執不休、意見分歧。如果這樣繼續“試錯”下去,又如何能獲得好的整體博弈效果呢?
追求“累積”的博弈效果
重復博弈試驗中反映了這樣的規律:“針鋒相對策略”不會在任一次單次對局中獲得最高分,最多只是打個平手,但是其整體的累計效果卻是最優的。
同樣,我們的股改追求的是協調各方利益,平穩地解決股權分置的歷史問題。所以,股改的重點不是幾十家、二三百家的局部博弈效果,更不是某些公司某些股東的個別利益,而是千次重復博弈的“累積”效果。
對博弈速度的再思考
目前股改中存在著一些未能及時解決的問題,包括如何制定合理的對價方案,倡導怎樣的博弈態度,包括如何修改對價程序以避免基金管理人的“尋租”和“背叛”,包括如何懲處改票等違法行為以及彌補流通股股東損失的利益,還包括如何對近千家質地一般、質地較差的公司進行股改,等等。
在未能解決這些問題之前,若股改的速度過快,將會增加大量試錯的案例從而影響整體博弈效果,也許前松后緊的時間安排會更穩妥一些。