徐 江
(鄭州大學管理工程學院,鄭州 45000)
伴隨快速城市化進程的是城市商品住宅價格的持續(xù)大幅快速上漲,以及城市弱勢群體的日趨龐大,動輒數(shù)十萬元甚至數(shù)百萬元的房價使這一群體的住房問題逐步成為演變了重大的社會民生問題[1,2,3]。為此,國家相繼出臺了多項政策及措施來應對和解決城市弱勢群體的住房保障問題,在住房體制改革綱領性文件的國務院(1998)《關于進一步深化城鎮(zhèn)住房制度改革加快住房建設的通知》中,提出了要加快解決城鎮(zhèn)住房困難的居民住房問題;到了2010年更是密集出臺了大量的有關保障性住房建設的指導性文件,例如,國務院(2010)緊急出臺《關于堅決遏制部分城市房價過快上漲的通知》,其中再次要求“加快保障性住房安居工程建設”;住建部等六部委(2010)聯(lián)合印發(fā)的《關于做好住房保障規(guī)劃編制的通知》要求到2012年末,需要基本解決1540萬戶低收入住房困難家庭的住房問題,力爭到“十二五”期末,人均住房建筑面積13m2以下低收入住房困難家庭基本得到保障;國家七部委(2010)聯(lián)合發(fā)布的《關于加快發(fā)展公共租賃住房的指導意見》指出要將城市中等偏下收入住房困難家庭、以及有條件地區(qū)的新就業(yè)職工和有穩(wěn)定職業(yè)并在城市居住一定年限的外來務工人員,納入公共租賃住房的供應范圍。但是,從1998年開始至今,國家雖然一直強調要建立保障性住房供應體系,卻遠遠沒有達到應有的保障效果。由于對住房保障領域中各利益主體行為互動機理的分析研究還不夠深入,住房保障政策未能充分有效地規(guī)范和制約這些利益主體的行為,是導致保障性住房建設進度緩慢、保障性住房遇冷的重要因素。本文從“有限理性”的演化博弈角度,探討了住房保障領域中政府與城市弱勢群體的非對稱博弈問題,具體分析了兩者理性程度的差異對于社會住房保障均衡收益的影響。
傳統(tǒng)博弈理論認為博弈參與人都是完全理性的。但是由于知識、信息等約束,人們在面對復雜問題時,可能有很大的理性局限(即有限理性)。“有限理性”(bounded rationality)的博弈參與人往往并不能在一開始就能做出最優(yōu)策略,通常需要通過學習和試錯等來尋找較好的策略;有限理性也意味著在博弈中至少有一部分博弈參與人不會采用完全理性博弈的均衡策略;有限理性還意味著博弈均衡可能在到達后再次偏離[4]。非對稱博弈是在“有限理性”的不同特征參與人群體之間進行的演化博弈,由于支付矩陣是非對稱的而得名。澤爾騰[5]首次探討了有限理性的博弈各方的非對稱博弈均衡問題,在引入角色限制行為的基礎上提出了極限ESS,從而將傳統(tǒng)的進化穩(wěn)定策略引入到了非對稱博弈,非對稱博弈問題也因此可解。
政府與城市弱勢群體之間關于住房保障政策的非對稱博弈問題是一類個體參與者(政府)與群體參與者(城市弱勢群體)間的非對稱博弈。它的模型參數(shù)可設定如下[6,7]:
(1)a1為在政府采取“只說不做”的住房保障政策下,城市弱勢群體進入非保障性住房市場,即“不信任并不等待”保障性住房時的收益;(2)b1為政府“只說不做”時的收益;(3)a2為政府推行“說到并做到”住房保障政策時,城市弱勢群體采取“信任并等待”策略所享受到的住房保障政策收益;(4)-b2為政府“說到并做到”時的負收益;(5)a3為當住房保障成為社會共識后,城市弱勢群體所獲取的長期無形收益;(6)b3為推行“說到并做到”的住房保障政策給政府所帶來的社會穩(wěn)定、城市競爭力等方面的長期收益;(7)-a4為政府“只說不做”時,部分城市弱勢群體仍然單方面“信任并等待”保障性住房的負收益;(8)b4為政府采取“只說不做”的住房保障政策時,因部分城市弱勢群體采取“信任并等待”策略,而使政府意外獲取社會暫時穩(wěn)定等的收益。
假設初始狀態(tài)時,城市弱勢群體群體中采取策略A(“不信任并不等待”)的比例為x,采取策略B(“信任并等待”保障性住房)的比例為1-x;針對城市弱勢群體的策略,政府采取策略M(“只說不做”)概率為y,采取策略N(“說到并做到”)概率為1-y。
根據(jù)以上設定的參數(shù),構造雙方的非對稱博弈模型如圖1示。

圖1 政府與城市弱勢群體間關于住房保障政策的非對稱博弈模型
政府與城市弱勢群體的t次重復博弈,可以用模仿動態(tài)方程[6,7](replicator dynamics equation)來模擬和分析。
由圖1,城市弱勢群體的期望收益為:
采取策略A(“不信任并不等待”)的期望收益G11=y(tǒng)a1+(1-y)(a2-a1);
采取策略B(“信任并等待”)的期望收益G12=y(a1-a4)+(1-y)(a2-a1+a3);
群體平均期望收益G1=xG11+(1-x)G12;
政府的期望收益為:
采取策略M(“只說不做”)的期望收益G21=xb1+(1-x)(b1+b4);
采取策略N(“說到并做到”)的期望收益G22=x(b3-b2-b1)+(1-x)(b3-b2);
政府的平均期望收益G2=yG21+(1-y)G22;
雙方的模仿動態(tài)方程分別為:

從模仿動態(tài)方程對城市弱勢群體的博弈策略進行分析:當y*=a3/(a3+a4)時,dx/dt≡0,即政府真正推行住房保障政策,推行力度達到啟動點y**=1-y*=a4/(a3+a4)時,城市弱勢群體中進入非保障性住房市場與信任并等待的比例處于大致均衡的狀態(tài);當y>y*時,x1=0與x2=1是兩個穩(wěn)定狀態(tài),其中,進化穩(wěn)定策略是x2=1,即當政府不能“說到并做到”時,信任并等待保障性住房的城市弱勢群體將逐步消失,進入非保障性住房市場將是群體共識;當y<y*時,x1=0與x2=1仍然是兩個穩(wěn)定狀態(tài),其中,進化穩(wěn)定策略是x2=0,即城市弱勢群體“信任并等待”的策略與政府“說到并做到”的住房保障政策良性互動,并逐漸達到帕累托最優(yōu)狀態(tài)。
政府推行住房保障政策暗含了必須以政府信用、社會穩(wěn)定、城市競爭力等的實際長期收益為重,即b3>b1+b2+b4。當 x*=(b3-b1-b2-b4)/(b1-b4)時,dy/dt≡0,即當城市弱勢群體“信任并等待”的比例達到臨界點x**=1-x*=(2b1+b2-b3)/(b1-b4)時,政府“說到并做到”的住房保障政策處于穩(wěn)定狀態(tài);其中,b3<2b1+b2,這表明政府推行住房保障政策的長期收益是有邊界的,住房保障政策不能解決所有的城市住房問題。當x>x*時,博弈的穩(wěn)定狀態(tài)是y1=0與y2=1,其中,進化穩(wěn)定策略是y2=1,即在城市弱勢群體強烈“不信任并不等待”住房保障政策情形下,住房保障政策有逐步演變?yōu)椤爸徽f不做”的可能;當x<x*時,y1=0與y2=1是博弈的穩(wěn)定狀態(tài),其中,博弈的進化穩(wěn)定策略是y2=0,即政府的“說到并做到”與城市弱勢群體的“信任并等待”良性互動,達到了帕累托最優(yōu)狀態(tài)。
雙方關于住房保障政策的非對稱博弈演化趨勢如圖2所示。該博弈的進化穩(wěn)定策略(ESS)為(1,1)和(0,0),并且最終的博弈均衡情況取決于系統(tǒng)的初始狀態(tài)。當博弈的初始狀態(tài)落在區(qū)域Ⅳ中時,系統(tǒng)將逐步收斂到帕累托劣解(1,1),即(不信任并不等待,只說不做);當博弈的初始狀態(tài)位于區(qū)域Ⅰ中時,系統(tǒng)將會逐步收斂到帕累托最優(yōu)均衡(0,0),即(信任并等待,說到并做到);當初始狀態(tài)落在區(qū)域Ⅱ、Ⅲ中時,系統(tǒng)演化的方向是不確定的,即有可能進入?yún)^(qū)域Ⅳ而收斂到(1,1),也有可能進入?yún)^(qū)域Ⅰ而最終收斂到(0,0)。其中,x*=(b3-b1-b2-b4)/(b1-b4)與 y*=a3/(a3+a4)是該博弈結構特性變化的闞值。

圖2 住房保障政策的非對稱博弈演化相位圖
從圖1和圖2中可以看到政府與城市弱勢群體關于住房保障政策的非對稱博弈仍然存在著多重Nash均衡:一個是帕累托劣均衡(A,M),即(“不信任并不等待”,“只說不做”);另一個是帕累托最優(yōu)均衡(B,N),即(“信任并等待”,“說到并做到”),在2b1+b2>b3>b1+b2+b4條件下成立。
演化博弈理論隱含了博弈雙方有限理性程度均等的假設,因此,在面臨多重Nash均衡時,與完全理性的博弈參與者類似,理性程度均等的博弈方同樣難以做出協(xié)調一致的反應。為解決這一問題,米爾格朗和羅伯茨[7]提出了承諾偏好的假設,即博弈各方不管特定的均衡是什么,都只采取某一特定的戰(zhàn)略;劉德海[8]提出:只有打破博弈雙方理性水平的均等性假設,在完全理性的博弈方通過鎖定具有帕累托最優(yōu)的Nash均衡策略帶引下,有限理性的對方在不斷試錯的重復博弈過程中才能最終收斂于具有帕累托最優(yōu)的Nash均衡,雙方也才有可能走出多重Nash均衡選擇的困境。
與典型的演化博弈問題有所不同,住房保障政策的非對稱博弈是一類一對多的非對稱博弈,具有斯坦克爾伯格博弈特征。第一,政府(個體參與者)擁有更多的博弈信息,更為了解博弈結構和博弈策略,因而能夠決策更為理性,即“高理性的”、“老練的”,符合斯坦克爾伯格領導者的條件;第二,城市弱勢群體(群體參與者)的信息和學習能力相對弱勢,更容易采取“短視的”、“幼稚的”低理性策略[9,10]。作為斯坦克爾伯格追隨者在重復博弈中通過學習、試錯可逐步達到最優(yōu)策略。
因此,可以進一步假設在博弈的初始狀態(tài),城市弱勢群體內部分別采取A策略(不信任并不等待)和“B”策略(信任并等待)的比例分布為θ(A)=x,θ(B)=(1-x)。
在重復博弈中,如果“高理性的”政府,作為博弈中的斯坦克爾伯格領導者,堅持以住房保障政策的長期收益為重,始終選擇并鎖定“有遠見的”N策略(說并做),那么他的 長 期 收 益 可 以 用u(SN)= ∑t[(b3-b2)θt(B)+(b3-b2-b1)θt(A)]δt表示,其中,δ為政府未來階段收益的貼現(xiàn)因子,其意義為政府是否具有“遠見的”,并比較注重未來階段 的 收 益 ,t為 重 復 博 弈 次 數(shù) ,θt(A)∈(0,1),θt(B)=1-θt(A)。隨著t→∞,此時δt→1,θt(A)→0。在重復博弈中,“短視的”、“幼稚的”群體參與者通過學習與試錯最終明白政府的N策略選擇,并逐步全面采取相應最優(yōu)的反應策略B(信任并等待),即θt(B)→1,城市弱勢群體的長期收益將躍升到a2-a1+a3,同時政府的長期收益u(SN)趨近b3-b2,從而實現(xiàn)帕累托最優(yōu)的穩(wěn)定Nash均衡(B,N)。
在重復博弈中,如果“高理性的”、“老練的”政府采取欺騙策略,可以實現(xiàn)更大的當期收益。即在博弈的最初階段政府選擇N策略,當“短視的”、“幼稚的”群體參與者逐漸收斂于B策略后,再將N策略轉換為M策略,這樣,政府通過誤導城市弱勢群體使博弈暫時收斂于帕累托最優(yōu)的收益(a2-a1+a3,b3-b2),然后轉換到策略M,這樣就獲得了幾乎全部的群體參與者停留在B策略所造成的當期收益, 其 中θt(B)≈1 ,θt(A)≈0。顯然,政府在先(B,N)然后(B,M)的收益大于在Nash均衡(A,M)中的收益。
在住房保障政策的非對稱博弈問題上,政府主要有“只說不做”與“說并做”二種博弈策略,城市弱勢群體可以采用的二種主要博弈策略是“信任并等待”與“不信任并不等待”保障性住房。如果政府(斯坦克爾伯格領導者)能夠選擇并鎖定“有遠見的”“說并做”策略時,在重復博弈的過程中,作為斯坦克爾伯格追隨者的城市弱勢群體通過學習與試錯,將會逐步摒棄“短視的”策略,全面采取相應的最優(yōu)策略,從而解決多重Nash均衡精煉問題,實現(xiàn)住房保障政策的社會最優(yōu)均衡。但是,為實現(xiàn)當期收益最大化,“高理性的”、“老練的”政府還存在著采取欺騙性策略的可能。依據(jù)本文提出的非對稱博弈模型,政府在制定實施住房保障政策時,應重點關注以下幾個方面:要充分發(fā)揮政府的信息與資源優(yōu)勢,堅持高理性;要以社會經濟發(fā)展的長期收益為重,避免決策的短期行為(即b3>b1+b2+b4);珍視政府信用,住房保障政策要“說到并做到”,降低對b4的期望值;要加強住房保障政策的宣傳,隨著住房保障的社會意識逐步深入人心,a3、b3會不斷增加,a4與b2也將同步下降,從而將有效減少住房保障政策的執(zhí)行成本,即降低了y**和x**,帕累托均衡收益也將提升至(a2-a1+a3,b3-b2)。同時,對于城市弱勢群體來說應做到:密切關注政治、經濟和社會等各方面的動態(tài)信息,不斷提升自身的理性水平;順應國家住房保障政策的導向,準確把握租購時機,既充分享受住房保障政策的優(yōu)惠a2,又盡量避免非理性行為,減少a4的發(fā)生。
[1]張建坤,王效容等.“蟻族”保障性住房的PPP模式設計[J].東南大學學報(哲學社會科學版),2012,(2).
[2]黃安永,朱新貴.我國保障性住房管理機制的研究與分析[J].現(xiàn)代城市研究,2010,(10).
[3]李新保障房的定位和融資[J].中國房地產金融,2012,(4).
[4]謝識予.經濟博弈論[M].上海:復旦大學出版社,2006.
[5]Selten,R.Evolutionary Stability in Extensive Two-person Games[J].Math.Soc.Sc,1983,(5).
[6]張良橋.進化穩(wěn)定均衡與納什均衡[J].經濟科學,2001,(3).
[7]Milgrom,P.,J Roberts.Predation,Reputation and Entry Deterrence[J].Econometrica,1992,(50).
[8]劉德海,徐寅峰等.個體與群體之間的一類博弈問題分析[J].系統(tǒng)工程,2004,(12).
[9]徐江,劉應宗等.建筑節(jié)能激勵政策的非對稱博弈分析[J].電子科技大學學報(社科版),2006,(3).
[10]Basu,K.Stackelberg Equilibrium in Oligopoly:an Explanation Based on Managerial Incentives[J].Economics Letters,1996,(49).