摘要:在已有的有限理性實現程度模型的基礎上,通過考慮本次決策前相似決策的經驗因素,提出與有效思考時間相對的學習累積時間,將原有模型中的時間因素的內涵進行擴展和一定的具體化。此后用兩個進化博弈的例子討論了特殊情況下不同學習累積速度的博弈方的博弈過程。
關鍵詞:有限理性;實現程度;時間因素;進化博弈
中圖分類號:F12文獻標志碼:A文章編號:1673-291X(2010)22-0008-03
引言
經濟學關于選擇行為的理性或非理性屬性的解釋,可以概括為完全理性、有限理性、非理性三大類型。完全理性即是作為傳統理性決策理論基石存在的“有序偏好+效用最大化”。非理性則不包含半點自身對信息環境的認知,純粹依靠人類與生俱來的本能反應。有限理性介于完全理性與非理性之間。總的來說,以完全理性為前提的效用最大化決策顯得精致嚴謹,但卻不符合現實。而徹頭徹尾的非理性行為相對較為少見,且無太多經濟理論意義。正因如此,從赫伯特西蒙創立有限理性學說以來,有限理性的分析運用逐漸成為經濟學研究的焦點。雖然如何將抽象的理性程度具體化一直是難點,但學術界普遍認同的是,思考決策的理性程度和效用類似,用序數而非基數來判定其高低更為合適。
一、有限理性實現程度中時間因素的擴展
1.問題的提出。這里,我們的基本前提基于何大安教授2004年以決策過程時間為主要影響因素對有限理性實現程度的劃分,即潛在有限理性(充分思考理性實現程度的最大值),即時有限理性(瞬時思考理性實現程度的最小值),實際有限理性(現實中一定時間思考所實現的理性程度)。實際有限理性的理性實現程度介于即時有限理性和潛在有限理性之間。
考慮到思考時間不能僅用自然尺度(年月日等)來衡量,還必須包含行為人在單位時間內對影響決策的不確定因素的思考和分析程度,我們可將該時間看成是一次決策前的外顯的有效思考時間。本文嘗試在上文的基礎上,將行為人該次決策之前由于做過相似決策而累積在人理性思維效率中的學習經驗因素考慮進來,與外顯的有效思考時間相對,提出內化的學習累積時間,以期能通過擴大決策過程的時間因素的內涵來完善有關有限理性實現程度的理論。
2.經驗作為內化的學習積累時間對時間因素的縱向擴展。如果只考慮一次決策前的有效思考時間,我們很難區分理性程度很低但仍含有一定理性程度的即時有限理性和不包含一絲理性認知的完全非理性。新老司機在遇到緊急情況下往往作出截然相反的決策,雖然兩者都是在極短的時間下作出的即時決策,理性程度顯然不同。這說明僅依靠有效思考時間還不足以決定行為人的有限理性實現程度。而認識理解即時有限理性中所包含的非理性所沒有的理性內容有助于我們找到影響有限理性實現程度的另一個重要因素——內化在行為人理性思維效率中的經驗。對比非理性和是有限理性,徹頭徹尾的非理性行為可以從未曾接觸外界環境的新生兒行為中窺見一斑,如果行為人作出的即時決策在其剛出生時就會作出同樣的反應,那么我們認為這樣的決策就是非理性的,控制該行為的是人類與生俱來的由大腦脊柱控制的本能反應,不含一絲理性認知。而即時有限理性行為表面上類似于完全非理性的瞬時決策,其實質包含有過往相似決策而自覺學習到的經驗。例如,手接觸到火會回縮我們認為屬于非理性行為,而看到手邊起火立刻將手移開則屬于即時有限理性行為。因為前者由于疼痛刺激神經反射完成,后者是之前的行為經驗內化在瞬時思考之中:被火燒到會痛。
事實上,行為經驗也可以與外在的有效思考時間一起歸結到時間因素中去。
如果將行為人一次決策的完整過程簡單看成是思考—決策(行為)—結果
那么試錯學習時間的提出實質是上把一次決策所包含的歷史因素囊括進來,即
……思考—決策(行為)—結果—思考—決策(行為)—結果
思考—決策(行為)—結果……
將結果—思考這一過程從上述行為人決策鏈中單獨提出并進行放大,兩者聯系的具體環節由試錯學習模仿等積累的經驗構成,即結果—對比結果與預期—學習模仿—經驗積累內化—思考。
行為經驗來自于之前相似決策過程事前事后的思考,而思考時間的長短也直接影響經驗的累積。所以,與外在的有效思考時間相對,我們可以把經驗稱為內化的學習累積時間,該時間取決于之前相似決策的有效思考時間,之前有效思考時間越長,學習累積的時間也就越長。有效思考時間與學習累積時間兩者共同構成影響有限理性實現程度的時間因素。即將時間變量t具體化為t-ta+tb,其中,ta代表有效思考時間,tb代表學習累積時間。
再進一步討論ta、tb的內在關系,顯然學習累積時間是之前所有n次相似決策的有效思考時間的函數和。
tb=fk ta(k)(1)
其中,ta(k)表示最近第k次相似決策的有效思考時間,ta=ta(0)。
二、學習累積因素影響決策理性的博弈例子
基于在有限理性和我們剛引入的學習進化假設上的共同性,我們可以引入進化博弈來分析某些有關學習累積時間對有限理性實現程度的影響。
1.政府支持下有限理性企業之間的進入決策博弈
任意兩企業的對稱靜態博弈的得益矩陣如上,其中A代表進入,B代表不進入。基于政府支持行業具有規模經濟及政策優惠的前提,可以假設兩企業都進入的收益大于都不進入的收益(Y>y);而若僅有一家進入,則該行業因為沒有足夠的規模經濟而收益為0,選擇不進入的企業在其原有行業投資獲得報酬P,但P 顯然兩個納什均衡(A,A)和(B,B)中前者無論對于政府還是企業都是最好的結果。但在如此大規模的投資下,規避風險的天性使得風險上策均衡(B,B)很大概率上成為最終結果,這相當于政府投資導向政策的失敗。現在考慮現實中進入企業的有限理性和學習模仿能力,假設博弈方企業雖然缺乏完全理性分析能力,但是馬上能對上一階段的博弈結果進行總結,即上文所述的學習累積。 假設 N個待進入企業,位置在一個圓周上均勻分布。這些企業僅僅能知道位置與其相近的相鄰兩企業的決策,并以此來調整自己的決策。 不失一般性,我們僅考察一個博弈方i的決策行為。令Xi(t)為在t時期博弈方i的鄰居中采取B策略的數量,Xi(t)∈(0,1,2)。則博弈方i選擇策略A和B的期望得益如下: πA=0+ [2-Xi(t)]Y πB= Xi(t)y+[2-Xi(t)]P 所以,當πA>πB,即#8226;xi(t)<時,i選擇進入該行業;當πA<πB,即#8226;xi(t)>時,i選擇不進入該行業。 10若Y-P>y,即1<<2,考慮Xi(t)的整數取值,則只有i的兩個鄰居都選擇不進入,i才會選擇不進入。此時,不難看出(1)當所有企業的初始選擇都是不進入時,所有企業選擇不進入是一種均衡;(2)當僅有一家企業選擇進入,且企業個數N為偶數時,所有企業的選擇隨時間t呈現進入與不進入交替的不穩定狀態;(3)類似這樣最終導致不穩定狀態的情況還有企業個數為偶數時,選擇進入的企業兩兩關于圓心對稱。除了上述三種情況以外,在企業根據鄰居選擇調整自己策略的過程下,每一個初始的企業選擇集合最終都會達到所有企業進入的均衡,且這樣的均衡是穩定的,也就是說,個別企業偏離其最佳選擇的擾動并不改變所有企業選擇進入的最終均衡結果。而顯然(1)、(2)、(3)三種小概率的例外情況并不穩定。 20若Y-P 對比1、2兩種情況,對于政府希望鼓勵企業進入某行業的政策建議如下:(1)要使企業進入該行業達到規模經濟后的得益Y足夠大;(2)在某些希望其進行升級進入新產業的企業,對其原有的生產經營加以限制,降低其原有得益P或y;(3)政府之前的產業投資導向政策要有連貫性和實效性,不然若干次投資導向政策被證明失敗后,對企業會形成不信任政府的第一印象,導致所有企業的初始選擇都是不進入政府鼓勵行業的極端情況。 1.即時有限理性下政府宏觀調控與小企業投資決策的博弈 這里我們把注意力集中在即使有限理性條件下的博弈過程。與上例不同的是,這里的小企業數量眾多且平均理性程度相對較低,其學習過程不是類似上例的一次性調整,而是表現為向優勢策略轉變的一個漸進過程。根據政策對象的應變結果,政府(假設為獨裁者)也會站在自身利益的角度調整自己的策略。雙方博弈的得益矩陣如下: 其中,t為政府稅收;c為政府宏觀調控成本;a一方面表示政府由于宏觀調控失敗而遭受的損失,另一方面表示政府由于宏觀調控成功而額外的收益;I為企業投資得益;b為企業在政府抑制的產品市場投資所遭受的額外損失;(a>c,(1-t)I 則政府選擇抑制或者不干預的期望得益u1y和u1n分別為: u1y=y(tI-c-a)+(1-y)(a-c) u1n=ytI 政府平均得益u1=xu1y+(1-x)u1n=x(a-c)+ytI-2xya 同理小企業選擇投資或者撤出的期望得益u2y和u2n分別為: u2y=x[(1-t)I-b]+(1-x)(1-t)I u2n=0 小企業平均得益u2=y{x[(1-t)I-b]+(1-x)(1-t)I}=y(1-t)I -yxb 兩個博弈方選擇策略比例的復制動態方程為: =x(u1y-u1)=x(1-x)(a-c-2ay) =y(u2y-u2)=y(1-y)[(1-t)I-bx] (1)政府選擇策略概率的漸進穩定 顯然,y>時x趨向于0;y<時x趨向于1。 即初始小企業選擇向該產品市場投資的概率大于,則政府選擇抑制政策的概率將逐漸趨于0;反過來,初始小企業選擇向該產品市場投資的概率小于,則政府選擇抑制政策的概率將逐漸趨于1。 (2)小企業選擇策略概率的漸進穩定 當x>時,與上同理,y趨向于0。當x<時,與上同理,y趨向于1。即初始政府選擇對該產品市場投資進行抑制的概率大于,則小企業選擇投資的概率趨向于0;反過來,初始政府選擇對該產品市場投資進行抑制的概率小于,則小企業選擇投資的概率趨向于1。 (3)博弈均衡的不穩定性 將政府和小企業選擇策略概率的漸進穩定綜合來看可以發現整個博弈過程沒有均衡狀態,也就是說,在理性程度極低的即時有限理性條件下,政府和小企業僅依靠學習經驗來逐漸調整自己的選擇概率會導致整個社會的不穩定,造成政策朝令夕改人民不信任政府等大量負外部性。 結束語 本文雖然將學習累積時間引入到決策過程中的時間因素中,使得這個影響有限理性實現程度最主要的方面更為完整和具體。但就實踐運用而言,無論是有限理性實現程度還是其內含的主要影響因素——決策時間都仍然是抽象的,仍無法通過數據計量的手段來具體估算。后續兩個博弈的例子也僅從最優反應動態和進化穩定分別討論特殊情況下低理性博弈方的學習累積過程,無法與(1)式中的變量或函數產生直接關聯。不過本文的貢獻在于提供了一種融合進化博弈和學習累積經驗來具體化有限理性實現程度的思路,這也是筆者以后的研究目標。 參考文獻: [1]何大安.行為經濟人有限理性的實現程度[J].中國社會科學,2004,(4). [2]何大安.理性選擇向非理性選擇轉化的行為分析[J].經濟研究,2005,(8). [3]赫伯特#8226;西蒙.西蒙選集[M].北京:首都經濟貿易大學出版社,2002:245-269. [4]貝克爾.人類行為經濟分析[M].上海:上海三聯書店,1996. [5]張維迎.博弈論與信息經濟學[M].上海:上海人民出版社,2004.