一個具有隨機擾動項的動態學習模型的構建

2010-10-21 06:25:32周敏，閆磊

統計與決策 2010年8期

周敏，閆磊

（中國礦業大學管理學院，江蘇徐州 221116）

0 前言

由于在系統的演化發展過程中存在學習決策行為的復雜性和動態性，普通的博弈論的納什均衡不能很好的解決這些問題。但是在符合學習模型的各種基本假設的條件下，我們可以構造一個具有隨機擾動項的動態學習模型，它可以把決策行為進行概率化來解決演化過程的復雜性和動態性特征。當系統的演化結果出現穩定解時，我們可以得到具有動態性和復雜性的學習模型的的穩態決策概率分布，這種非確定性納什均衡解可以看做普通博弈論中的納什均衡解的擴展。

1 動態學習模型的構建

由于企業的任何決策都是根據以前的決策行為和決策效果決定的，所以的企業的新的決策會隨著以前決策行為的結果做出調整，并且總是朝著更好的收益的方向轉移。所以說企業的連續決策是具有學習能力的，并且的動態復雜的。我們可以用一個帶有漂移的隨機分方程來表示這個決策過程。假設企業在原來的基礎上根據前一個決策的效果做出新的決策，這個新的決策行為由于受到噪音的影響會發生隨機游走產生某種變異。在任一時刻t，系統的狀態由t時刻決策的概率分布表示。這樣，如果決策狀態穩定，決策行為經過演化而得出的結果是一個在穩態下的概率分布。

企業的生產經營行為就是不斷的做出決策的行為。在構建的模型中，假設存在m個企業，他們獨立的進行連續決策，同時又受到競爭對手以及自己的決策行為和結果的影響。企業的決策行為用ωj(t)∈[c,d]表示，其中t代表決策時間，j代表決策企業。由于隨機擾動的的存在，企業的決策行為以某種概率分布的形式來表示。設Gj(ω,t)為表示企業j決策行為的概率分布函數，則其密度函數為：

設m-1維向量ωm-1(t)為與決策行為j對應的其它m-1個企業的決策，Gm-1(ωm-1,t)為相應的為m-1個企業的決策行動的概率分布。由于在學習模型中決策行為的學習能力，企業j的收益是由其自身的決策行為和其它的m-1個企業共同決定的。我們用L(s)表示去在t時刻的收益，那么：

由于任何企業都是以收益最大化為目的的，企業在決策過程中總是調整決策行為可以給自己帶來更高收益的決策方向靠攏。同時在決策過程中企業會受到各種噪音的干擾總會出現某些失誤，這可以用隨機擾動項來表示。

我們將上述的兩個過程用如下方程表達出來：

等式右邊的第一項為新決策行為對舊的決策行為的調整量。第二項為可能導致決策行為失誤的噪聲干擾，概率為ξj,wj(t)，為標準維納過程，wj(t)服從均值為0方差為dt的正態分布。因此：

考察到時間間隔，上式可化為：

其中 0(δt)為 δt的高階無窮小。

引入任意函數f(ωj)，考察該函數在δt時間間隔后的期望值：我們令 x=ξjδwj(t)的密度函數為 φ(x)，由于 E(x)≈0,E(x2)=ξj2δt，則：

上式描述了具有動態學習行為的企業連續決策行為的系統演化過程。我們可以從中得出下面的結論：

首先，右邊第一項-L[(sj(ωj)，t)]'gj(ωj，t)表明，企業的決策行為總是向著可以帶來更高收益的方向調整，并且預期收益和現在收益的差距越大調整的速度越快;決策調整速度與企業在t時刻采取行動ωj的概率密度成正比。

我們對上面的式子進一步研究。

2 結論

根據上面的模型構建和演化分析，我們得出如下的結論：

（1）(4)式是 Gi(ω，t)演化到穩態時的均衡條件。從該條件可以看出，采取決策行為ωj的概率不但受到與其他m-1個企業的決策行為相對應的收益的影響，并且表現出遞增的態勢。

（2）當參數 ξi趨于無窮大時，趨于零。由于決策行為的的選取是完全隨機的不受期望收益的影響，這表明在演化過程中，企業決策行為會受到太大的隨機擾動的影響而呈現出隨機性特征。

（3）當 ξj趨于零時，從(4)可知，由于受到的干擾較小，采取特定行動的概率中對行動的期望收益的依賴才會不斷增加。由于受到隨機因素的干擾較小，學習能力才能很快的增強。

（4）在現實的企業決策過程中，決策的擾動既不是ξj趨于無窮大，也不是ξj趨于零，而是具有一定程度噪聲的決策行為的學習過程。當整個演化達到穩態時，得出的均衡解是具有某種概率密度的穩態值，是非確定的，它可以看做確定解納什均衡的擴展值。同時在模型中可以看出降低決策行為的擾動是提高決策能力的有效方法。因此，企業在決策過程中應該通過不斷學習，來降低決策行為的的失誤和“噪音”的的擾動。

[1]陸瑾.產業組織演化研究[D].復旦大學,2005.

[2]吳彤.自組織方法論研究[M].清華大學出版社,2001.

[3]盛昭瀚,蔣德鵬.演化經濟學[M].上海三聯書店,2002.

[4]黃登仕,經濟系統的密度周期性和復雜性[M].北京大學出版社,2003.

[5]Kwasnicka H,Kwasnieki W，long-term diffusion factors of technological development:an evolutionary model and case study[J].Technologieal Foereasting and Social Change,1996，52.

[6]Potts J,The New Evolutionary Microeconomics:Complexity,Competence,and Adaptive Behavior[M].Cheltenham,Edward Elgar，2000.

[7]Silverberg G,Dosi G,Orsenigo L,Innovation,Diversity and Diffusion:a self-organization Model[J],EconomicJounral,1988，98.

[8]程紅莉.學習型企業及其組織學習機制研究[D].華中師范大學,2003.

[9]陳國權,馬萌.組織學習過程模型研究[J].管理科學學報,2000,3(3).