基于復合策略的社會學習模型

2015-12-19 09:16:26劉坤坤魏新江方愛麗

復雜系統與復雜性科學 2015年3期

劉坤坤，魏新江，方愛麗

（魯東大學數學與統計科學學院，山東煙臺264025）

0 引言

在日常生活中，人們對于各類經濟、社會、文化事件都會有自己的信念（或觀點）。由于信念（或觀點）在很大程度上影響著人們的行為與決策，因此研究信念（或觀點）的形成與演化是一個具有重要意義的課題。每個個體都可能從社會網絡中獲取其他個體的觀點，還可能接收到反映事件潛在狀態的外界信號，并在此基礎上更新自己的信念，新的信念再次融入社會網絡中，如此不斷學習、更新，推動整個群體信念的動態演化。這種個體通過交流與互動調整自己信念的過程就稱為社會學習。

社會學習理論［1］是由美國心理學家阿爾伯特·班杜拉于1976年提出的，到目前為止，已經應用到社會學之外的眾多領域。對于許多社會問題人們往往想獲取一個統一的最佳答案，在當今大數據的網絡時代，與這些問題相關的信息往往分散在巨大的社會網絡中，社會學習的目的就在于通過個體之間的相互作用使得分散的信息得以整合［2－8］，最終在這些社會問題上達成共識。

社會學習的研究一般是以具體的模型為導向，在不同的問題上所建立的模型也有所區別，比較常見的兩種模型，一是基于貝葉斯法則的社會學習，二是基于鄰居信念的社會學習。

基于貝葉斯學習的經典研究有很多，從序列社會學習模型［9－10］到社會網絡模型［11－14］，基于貝葉斯法則的學習策略在現實生活中的應用越來越廣泛。然而，在很多情況下，每個個體僅能夠知道很少的其他個體（比如朋友、同事或者家人）的觀點，甚至可能僅僅掌握自己的經驗。這種有限的觀察力，加上由整個網絡上分散信息所產生的觀點與觀點之間復雜的相互作用，使得個體無法以貝葉斯方式學習別人的觀點。另外，基于貝葉斯法則的社會學習需要掌握網絡結構的完整信息，因此計算的復雜程度相當大。實際上，人們做決策時，并不一定會理性地遵循貝葉斯法則，也有可能采取從眾或接受朋友的影響。基于鄰居信念的更新策略，初始的經典研究是DeGroot于1974年提出的模型［15］，結果發現，在適當的條件下群體信念能夠收斂到一致，但是卻不一定收斂到真實信念。人們還就基于鄰居信念的社會學習做了后續研究［16－19］。Golub和Jackson在DeGroot模型基礎上進行研究，得到進一步的結論：當網絡規模無限增長時，如果社會中不存在有影響力過大的個體，那么這種漸近一致的信念將收斂到真實信念［20］。雖然基于鄰居信念的更新策略建模比較簡單計算也不復雜，但是不能保證個體的信念一定收斂到真實信念，即使能夠收斂到真實信念也必須滿足網絡是無限增長等特定的條件，這就限制了基于鄰居信念的更新策略在社會網絡中的普遍使用。

由此可見，單獨使用基于貝葉斯法則的更新策略或者基于鄰居信念的更新策略，都存在著一定的問題，所以我們考慮在社會學習策略中將二者結合起來。2012年，Jadbabaie等［21］在研究社會網絡中個體信念更新過程中，個體的信念更新將由個體自己的信念和其鄰居的信念共同決定，其中個體自己的信念由貝葉斯法則更新，理論結果表明如果滿足網絡是強聯通的等條件，那么所有個體最終能夠達到漸近學習。他們還進一步說明，在強連通的社會網絡中，社會交流可以整合出全局的基本狀態信息，這種信息整合能夠避免使用貝葉斯法則更新帶來的計算成本，并且這個模型可以在有限規模的網絡中使用，網絡的拓撲結構和個體的影響力程度都不能阻礙社會學習，這就避免了單獨使用上述任何一種策略帶來的問題。Ali Jadbabaie等所使用的模型，要求每一時刻的信念更新時個體自己的信念必須由貝葉斯法則進行更新，個體與鄰居之間必須要交流，但是考慮實際情況社會個體不一定每次都要采取貝葉斯法則更新。本文考慮社會個體的異質性和復雜性，提出了一種復合策略。個體在更新信念的過程中，每一時刻個體依據一定的概率選擇兩種策略之一進行自己的信念更新，或者采用貝葉斯更新策略，或者根據社會網絡中鄰居信念來更新的策略，而在下一時刻，個體還要依概率選擇兩種策略之一進行信念更新，并且每個個體的策略選擇概率是不同的，這就體現了個體的多樣性和復雜性，與實際社會中個體的動力學行為相符，在此基礎上建立的模型與Ali Jadbabaie的模型相比更能體現出個體的主觀選擇性。這種基于復合策略的社會學習模型能夠更好地體現社會網絡中個體的復雜行為，更好地展現社會個體的信念學習過程。

1 模型

1.1 預備知識

社會網絡可抽象為圖G＝（N ，E），其中N＝｛1，2 ，…，n｝為社會網絡中所有個體的集合，E為個體之間相互作用構成的邊集合。個體之間相互作用的權重矩陣記為Q＝（qiij）n×n，qij代表個體i與個體j之間的相互作用權重，對?i，滿足若個體i和個體j之間有直接的相互作用，則qij＞0，就稱個體i與個體j互為鄰居，若個體i和個體j之間沒有直接相互作用，則qij＝0，個體i的所有鄰居的集合記為Ni＝｛j｜qij＞0｝。

所有可能的狀態的集合記為Θ＝｛θ1，θ2，…，θK｝，其中潛在的真實狀態θ＊∈Θ。個體i在t時刻對狀態θk的信念表示為Pi，t（θk），初始信念為 Pi，0（θk）。個體所接收到的信號集合為st＝｛s1，t，s2，t，…，sn，t｝∈S1×S2×…×Sn≡S，是根據似然函數P（st｜θ）產生，其中si，t∈Si表示個體i在t時刻觀察到的信號，Si表示個體i的信號空間。Pi（·｜θ）為P（st｜θ）的第i個邊緣分布，稱為個體i的信號結構。這里假設每個個體的信號結構都是已知的。

1.2 更新策略

1）基于貝葉斯法則的更新策略：個體i在t＋1時刻接收到信號si，t＋1，對于狀態θk的信念按照下列貝葉斯法則更新：

2）基于鄰居信念的更新策略：由于網絡中個體之間的相互影響，每一時刻，個體都會綜合鄰居的信念對自己的信念進行更新，個體i基于鄰居信念的更新策略公式為

其中，權重值qij也可理解為個體i對個體j的信任度，特別地，當i＝j時，qii為個體i的自信度。

在社會網絡中，個體并不一定完全理性，也不一定完全非理性，因此個體進行信念更新時，并不一定都采取基于貝葉斯法則的更新策略，也不一定都采用基于鄰居信念的更新策略，可能有的個體采用貝葉斯更新，有的個體采用基于鄰居信念更新，我們提出一種復合策略模型，定義一個個體策略選擇概率αi，根據個體的異質性，假定每個個體的策略選擇概率αi是不相同的，社會網絡中的個體會以概率αi選擇貝葉斯更新策略，以概率1－αi選擇基于鄰居信念的更新策略，即在t＋1時刻個體i的信念更新復合策略為

1.3 定義及命題

定義2 等價觀測狀態：若個體i在狀態θm和θn的條件下的信號結構相同，即Pi（·｜θm）＝Pi（·｜θn），則稱個體i不能識別狀態θm和θn，狀態θm和θn為個體i的等價觀測狀態。

假如所有個體對狀態空間Θ＝｛θ1，θ2，…，θK｝中某兩個狀態等價觀測，那么所有的信號失去了對這兩個狀態的辨別能力，個體也就失去了接收到信號的意義，所以本文假設不存在對所有個體來說都等價觀測的狀態。命題1 假設真實狀態為θ＊

1）策略選擇概率αi：0＜αi≤1

2）社會網絡中至少有一個個體對真實狀態的信念為正，即?i∈N，使Pi，0（θ＊）＞0

3）不存在對所有個體來說都等價觀測的狀態

在上述的條件下，按照復合策略法則（3）進行信念更新，則所有個體都能達到漸近學習。

圖1 含有5個個體的社會網絡Fig.1 A social network with 5agents

2 仿真

在仿真實驗中，設定若每個個體對于真實狀態的信念滿足Pi，t（θ＊）＞0.999 9，則認為所有個體達到了漸近學習，時刻t為達到漸近學習的時間。以圖1所示社會網絡為例，N＝｛1，2，3，4，5｝，狀態空間Θ＝｛θ1， θ2｝，假定θ1為真實狀態，每個個體所接收到的信號是相互獨立的，為簡單起見，假設個體的信號空間相同，都為Si＝｛s1，s2，s3，s4｝，個體的信號結構也相同，設為

給定每個個體的初始信念為

假設個體之間相互作用的權重在它和其鄰居之間平均分配，若個體i鄰居的數目為di，即它的度數為di，計算權重時要加上個體本身，則個體i與其鄰居相互作用的權重值如圖1個體1鄰居數為4，它的度數d1＝4，它及其鄰居相互作用的權重值q1j全部等于，在每次更新的過程中，權重值保持不變。同理得到所有個體之間的相互作用權重，從而相互作用權重矩陣Q為

為了體現個體的異質性，以及觀察策略選擇概率對于社會個體的影響，對于策略選擇概率αi選擇4種不同的取值范圍，對上述實例利用復合策略法則（3）進行信念更新，得到仿真結果如圖2所示。

圖2 在不同的策略選擇概率下，社會個體信念的演化圖Fig.2 The evolution of social individuals′beliefs under different strategy selection probabilities

從上述仿真結果可以看出：1）在滿足命題1條件下，所有個體對真實狀態的信念最終都能收斂到1，即所有個體都達到了漸近學習，從而整個社會也就達到了漸近學習；2）當策略選擇概率在不同的取值范圍時，整個社會達到漸近學習的時間不同。

為了體現策略選擇概率對于學習速率的影響，對策略選擇概率所處的范圍進行劃分，分別對處于不同取值范圍策略選擇概率下的學習時間取了500次實驗平均，結果如表1所示。

表1 策略選擇概率在不同的取值范圍下，個體達到漸近學習的時間Tab.1 Individuals′asymptotic learning time under different ranges of strategy selection probabilities

從表1可以直觀地看出，每個個體的策略選擇概率αi取值越小，即選擇基于貝葉斯法則更新策略的個體較少時，雖然最后也能達到漸近學習，但是所花的時間比較長；每個個體的策略選擇概率αi取值越大，即選擇基于貝葉斯法則更新策略的個體較多時，學習的速度是最快的。也就是說策略選擇概率與學習時間呈負相關關系。

3 結論

人類的社會學習，是在復雜的社會環境中進行的，考慮社會網絡的復雜性以及個體的異質性，我們采用復合策略去研究個體的社會學習，才與人類動力學行為相符。本文將基于貝葉斯法則的更新策略和基于鄰居信念的更新策略結合起來，讓每個個體合理選擇策略，既能發揮個體的主觀能動性，又能與外界環境相交流，研究結果發現，滿足一定條件時，社會網絡中的每個個體都能夠達到漸近學習，并且每個個體的策略選擇概率取值越大，漸近學習的速度也越快。

基于復合策略的信念更新，更加符合人們在現實生活中所進行的學習，跟單一策略相比較，得到結果更確切且更加符合人們的認知。但是還有些問題有待于繼續探討：1）本文只是選擇雙策略進行研究，是否還可以加入其他策略有待于進一步研究；2）個體之間相互作用的權重值，在每次信念更新時，是保持不變的，但在實際生活中由于每次信念更新之后，個體會對鄰居又加強了了解，所以在分配權重的時候可能會發生相應的變化，這也是下一步需要考慮的問題；3）本文仿真實驗中，假定是不存在頑固個體或者是具有較大影響力的個體，對于這些個體的存在是否能影響到社會網絡中個體達到漸近學習，以及即使達到漸近學習是否又影響到學習的速率，這也是以后將要研究的問題；4）文中采取的只是以無向網絡為例，對于含有較少個體的網絡做了初步的研究，其中社會個體是可以達到漸近學習的，進一步地，有向社會網絡中的社會學習問題也亟需探討。

［1］ Albert B.Social learning Theory［M］.London：Prentice Hall，1976.

［2］ Lee I.On the convergence of informational cascades［J］.The Journal of Economic Theory，1993，61（2）：395－411.

［3］ Tsitsiklis J N，Athans M.Convergence and asymptotic agreement in distributed decision probl－ems［C］.IEEE Transactions on Automatic Control，1984，29（8）：690－696.

［4］ Feddersen T，Pesendorfer W.Voting behavior and information aggregation in elections with private information［J］.Econometrica，1997，65（5）：1029－1058.

［5］ Foster A，Rosenzweig M.Learning by doing and learning from others：human capital and technical change in agriculture［J］.The Journal of Political Economy，1995，103（6）：1176－1209.

［6］ Celen B，Kariv S.Observational learning under imperfect information［J］.Games and Economic Behavior，2004，47（1）：72－86.

［7］ Borkar V，Varaiya P.Asymptotic agreement in distributed estimation［C］.IEEE Transactions on Automatic Control，1982，27：650－655.

［8］ Udry C，Conley T.Social learning through networks：the adoption of new agricultural technologies in ghana［J］.American Journal of Agricultural Economics，2001，83（3）：668－673.

［9］ Banerjee A.A simple model of herd behavior［J］.The Quarterly Journal of Economics，1992，107（3）：797－817.

［10］Smith L，S?rensen P.Pathological outcomes of observational learning［J］.Econometrica，2000，68（2）：371－398.

［11］Gale D，Kariv S.Bayesian learning in social networks［J］.Games and Economic Behavior，2003，45（2）：329－346.

［12］Banerjee A，Fudenberg D.Word－of－mouth learning［J］.Games and Economic Behavior，2004，46（1）：1－22

［13］Celen B，Kariv S.An experimental test of observational learning under imperfect information［J］.Economic Theory，2005，26（3）：677－699.

［14］Montrey M R，Shultz T R.Evolution of social learning strategies［C］.2010IEEE 9th International Conference on Development and learning，Ann Arbor，MI，USA，2010：95－100.

［15］DeGroot M H.Reaching a consensus［J］.Journal of the American Statistical Association，1974，69（345）：118－121.

［16］Ellision Glenn，Fudenberg D.Rules of thumb for social iearning［J］.The Journal of Political Economy，1993，101（4）：612－643.

［17］Ellision Glenn，Fudenberg D.Word－of－mouth communication and social learning［J］.Quarterly Journal of Economics，1995，110（1）：93－125.

［18］Bala V，Goyal S.Learning from neighbors［J］.Review of Economic Studies，1998，65（3）：595－621.

［19］Bala V，Goyal S.Conformism and diversity under social learning［J］.Economic Theory，2001，17（1）：101－120.

［20］Golub B，Jackson M.Naive learning in social networks and the wisdom of crowds［J］.American Economic Journal：Microeconomics，2010，2（1）：112－149.

［21］Jadbabaie A，Molavi P，Sandroni A，et al.Non－Bayesian social learning［J］.Games and Economic Behavior，2012，76（1）：210－225.