999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

復雜網絡上的演化博弈及其學習機制與演化動態綜述

2021-09-18 02:53:38王先甲
閱江學刊 2021年3期

摘要:博弈論是在完全理性假設下研究多人相互作用的選擇理論,演化博弈是在有限理性假設下研究群體在相互作用過程中基于個體學習與選擇的群體特征演化動態理論,網絡上的演化博弈是研究結構化群體的演化博弈理論。本文回顧了基于完全理性的博弈論,在對有限理性新的理解的基礎上介紹了演化博弈理論的發展歷程,著重論述了復雜網絡理論與演化博弈理論交叉衍生的復雜網絡上的演化博弈的研究現狀與發展趨勢,特別分析和總結了演化博弈中最基本、最核心的個體學習機制與群體演化動態特征,由此揭示演化博弈中從個體微觀行為到群體宏觀特征的演化機理。

關鍵詞:博弈論;演化博弈;復雜網絡;復雜網絡上的演化博弈;學習機制;演化動態

中圖分類號:F224.32? 文獻標識碼:A? 文章分類號:1674-7089(2021)03-0070-15

基金項目:國家自然科學基金項目“復雜網絡上演化博弈合作形成機理與控制策略”(71871171);國家自然科學基金重點項目“學習機制下群體博弈行為演化與管理實驗”(72031009)

作者簡介:王先甲,博士,武漢大學經濟與管理學院教授、博士生導師。

一、引 言

微觀經濟學主要研究完全理性假設基礎上的個體選擇。古典經濟學把消費者問題和生產者問題分別看成獨立的個體優化選擇問題,消費者與生產者之間通過無形的市場相互聯系。直到1959年,Debreu在著作中建立一般均衡理論,Debreu G, Theory of Value,New Haven: Yale University Press, 1959. 把消費者與生產者納入一個經濟系統內,通過他們的相互作用確定市場均衡。這種思想和分析框架與Nash建立博弈論的思想與框架幾乎完全一致。這種看起來十分完美的一般均衡理論至少存在兩個弱點:一是仍然以完全理性為前提假設;二是無法展示市場均衡的形成過程,因為它本質上是消費者和生產者同時決策形成的。雖然存在這些弱點,卻產生了一大進步,那就是經濟學界從此不太排斥用博弈論研究多個個體間的相互作用了。然而,多個個體相互作用通常是一個過程,并且每個個體無法預期作用過程的未來,這使得基于完全理性的決策失去了基礎,因為對未來的不可知性使決策者不知道怎樣進行理性選擇。因此,多個個體在相互作用過程中對未來預期未知時如何選擇就成為需要研究的重要問題。演化博弈為開展這類問題的研究提供了分析工具。演化博弈在有限理性假設下探討群體在相互作用過程中的個體行為選擇規則及群體行為演化。也就是說,在群體相互作用過程中個體是按某種規則進行選擇而不是按完全理性假設來選擇。既然群體博弈是一個過程,那么個體的行為選擇也可能是一個過程,個體會在這個過程中不斷學習以便選擇對自己更有利的行為。因此,個體選擇行為時所依據的規則本質上就是通過某種學習機制確定的。每個個體選擇自己的行為后形成群體整體的狀態(也稱系統狀態),群體狀態刻畫了群體在相互作用過程中不同時刻的特征,不同時刻狀態間的關系一般稱為狀態轉移(也稱為演化動態,有時也將演化動態理解為狀態轉移過程的極限)。當組成群體的個體間具有某種特殊聯系時,該群體被稱為結構化群體。因為網絡是描述結構化群體的基本工具,且結構關系會發生各種復雜的變化,所以在研究結構化群體的相互作用過程時,復雜網絡上的演化博弈就成為觀注的重點。本文試圖對復雜網絡上的演化博弈等相關問題的研究狀況與發展趨勢進行簡要的回顧與總結。

二、博弈論發展歷程回顧

博弈論是研究理性決策者之間競爭與合作關系的數學方法,其分析范圍較廣,幾乎包括社會科學領域所有的基本問題。Myerson R, Game Theory: Analysis of Conflict, Cambridge: Harvard University Press, 1991.實際上,競爭與合作行為一直伴隨著人類的發展。一般認為最早涉及人類博弈行為的著作是2000多年以前中國春秋時期的《孫子兵法》,Sun T, The Art of War, Translated by Cleary T, Boston & London: Shambala, 1988.記錄戰爭藝術的著作《三國演義》也是研究博弈行為的智慧結晶。但這些相對零星的研究成果只是展現了人類博弈行為的某個側面,尚未從科學意義上對人類博弈行為進行定量分析。最早采用定量方法分析人類博弈行為的研究發生在經濟學領域,Cournot、Bertrand、Edgeworth分別探討了寡頭產量競爭、寡頭價格競爭和壟斷競爭。Cournot A,Recherches sur les Principes Mathématiques de la théorie des Richesses,Paris: Hachette, 1838. Bertrand J, “Théorie mathématique de la richesse sociale”, Journal des Savants, vol.68(1883), pp.499-508. Edgeworth F, “La teoria pura del monopoli”,?Giornale degli Economisti, vol.40(1897), pp.13-31.經典兒童文學名著《愛麗絲漫游仙境》的作者Dodgson(后來更名為Lewis Carroll)也是一位數學家,他用零和博弈研究政治問題。Black D, “Lewis carroll and the theory of games”, American Economic Review, vol.59, no.2(2001), pp.206-210. Dodgson C L, The Principles of Parliamentary Representation, London: Harrison, 1884.這些工作成功地在人類特定領域的博弈行為研究中引入了定量方法,但是還不能算是正式的博弈論研究工作。Zermelo開啟了博弈論的第一個正式的研究工作,Zermelo E, “ber eine anwendung der mengenlehre auf die theorie des schachspiels”, In Hobson E W, Love A E H, eds., Proceedings of the Fifth International Congress of Mathematicians, vol.II, Cambridge: Cambridge University Press, 1913, pp.501-504.他除了建立集合論公理體系框架之外,還首次用博弈論研究了國際象棋。博弈論研究的第一個里程碑式的工作應該是由Von Neumann完成的,他于1928年比較完整地給出了零和博弈模型及其解的概念,Von Neumann J, “Zur theorie der gesellschaftsspiele”, Mathematische Annalen, vol.100, no.1(1928), pp.295-320. Von Neumann J, Morgenstern O, Theory of Games and Economic Behavior, Princeton: Princeton University Press, 1944.后來的主要研究者實際上都受到這一工作的啟發。Von Neumann和Morgenstern建立了決策理論的公理體系、零和博弈與非零和博弈的分析框架,并將其運用于經濟學研究,但是他們的理論局限于矩陣博弈。

博弈論更一般的模型和解的概念及其分析框架是由Nash建立的,他對多人相互作用關系給出了更一般的描述并提出了Nash均衡解概念。Nash的研究工作和思想在很大程度上受到Von Neumann的影響,但在適應范圍和分析框架方面又有本質的拓展,使博弈論最終成為研究多人相互作用行為的一般工具。Nash在20世紀50年代發表的關于博弈論的幾篇著名論文奠定了非合作博弈的理論基礎。Nash J F, “Bargaining problem”, Econometrica, vol.18, no.2(1950), pp.155-162. Nash J F, “Non-cooperative games”, Annals of Mathematics, vol.54, no.2(1951), pp.286-295. Nash J F, “Two-person cooperative games”, Econometrica, vol.21, no.1(1953), pp.128-140.然而,由于Nash的研究工作以完全信息為基礎,具有極強的數學理論性且不能處理經濟學中幾乎無處不在的不確定性信息問題,所以最初并未被經濟學界所接受。Harsanyi于1977年在著作中建立了一套解釋和描述多人相互作用中的不完全信息理論,Harsanyi J C, Rational Behavior and Bargaining Equilibrium in Games and Social Situations, Cambridge: Cambridge University Press, 1977.提出了Baysian Nash均衡解概念和不完全信息非合作博弈論。但是Nash和Harsanyi的研究只能處理靜態的非合作博弈,即博弈各方只能同時進行一次行為選擇,不能處理多人相互作用過程的動態博弈問題。Selten、Kreps、Wilson建立了多階段動態非合作博弈理論,Selten R, “Reexamination of the perfectness concept for equilibrium points in extensive game”, International Game Theory, vol.4, no.1(1975), pp.25-55. Kreps D, Wilson R, “Sequential equilibrium”, Economietrica,?vol.50, no.4 (1982), pp.863-894. 提出了子博弈完美Nash均衡概念和“顫抖手”精煉均衡概念。由于在非合作博弈研究中的杰出工作,Nash、Harsanyi和Selten三人在1994年被授予諾貝爾經濟學獎。

Tucker于1950年發現囚徒困境現象,Tucker A W, A Two-person Dilemma, Unpublished notes, Stanford University, 1950.為非合作博弈的研究提供了典型原型,也揭示了博弈論與決策理論的重要區別,決策理論研究單人在理性假設下的決策行為,決策主體尋求的是能使自身偏好最優的行為選擇,而在Nash的博弈論框架下理性人的行為出現了一種由囚徒困境所表征的特點,即個體理性與集體理性的沖突。實際上,囚徒困境現象在實踐中廣泛存在,Cournot的數量競爭模型也是囚徒困境。這種十分簡單的博弈模型卻導致博弈出現了幾個不同的發展方向,其中一個是合作博弈。雖然Von Neumann和Morgenstern建立了合作博弈的基本框架,但是合作博弈的研究在20世紀50年代中期到60年代中后期才有了較快的發展,這一時期經濟學界正在懷疑Nash提出的非合作博弈,因為它不能處理不完全信息而產生了可應用性問題。合作博弈按效用的可轉移性可以分為效用可轉移型和效用不可轉移型,Aumann較早研究了效用不可轉移合作博弈,Aumann R J, “The core of a cooperative game without side payment”, Transactions of the American Mathematical Society, vol.98, no.3(1961), pp.539-552.隨后關于效用不可轉移合作博弈的研究雖然并不多但依然沿用Aumann的框架。自Von Neumann和Morgenstern構建效用可轉移合作博弈的框架以來,合作博弈基于特征函數,主要研究聯盟成員如何合理有效地分配收益。圍繞合理有效地在聯盟中分配收益問題建立解概念及公理體系是合作博弈理論發展的中心。1953年Gillies引入了核(Core)作為合作博弈解的概念,Gillies D, Some Theorems on N-person Games, Princeton: Princeton University Press, 1953.這個解概念具有給出的分配方案對任何子結盟沒有誘導性的特性,但它不是單值的而是集值的。在合作博弈中集值解概念為數不少,Aumann和Mascher提出的合作博弈協商集解概念是集值的,Aumann R J, Maschler M, “The bargaining set for cooperative game”, Advances in Game Theory, vol.52(1964), pp.443-476.Peleg的內核(Kernel)解概念、Maschler的預核(Prekernel)解概念等都是集值解概念。Peleg B, Vorobev N N, Tóth L F, “On the kernel of comstant-sum simple games with homogeneous weights”, Illinois Journal of Mathematics, vol.10(1966), pp.39-48. Maschler M, Peleg B, Shapley L S, “The kernel and bargaining set for convex games” , International Journal of Game Theory, vol.1, no.1(1971), pp.73-93. 而Shapley在1953年提出了一個著名的單值解概念,Shapley L S, “A value for n-person games”, In Tucker A W, Kuhn H W, eds., Contributions to the Theory of Games,vol.II, Princeton: Princeton University Press, 1953, pp.307-317.稱為Shapley值,這個解概念可解釋為每個個體得到的收益是其所有可能的邊際貢獻的平均值,并且Shapley用一組公理完全刻畫了這個單值解概念。單值解概念還包括Schmeidler的核仁(Nucleolus)(它的表示形式雖然是集合,但由于采用字典序定義,實際上是一個單值解概念)、Tijs的τ值和平均字典值解概念。Schmeidler D, “The nucleolus of a characteristic function game”, Siam Journal on Applied Mathematiics, vol.17(1969), pp.1163-1170. Tijs S H, “Bounds for the core of a game and the τ-value” In Moeschlin O, Pallaschke D, eds.,Game Theory and Mathematical Economics, Amsterdam: North-Holland, 1981, pp.123-132. Peleg和Sudhlter是合作博弈解概念公理化分析的集大成者。Peleg B, Sudhlter P, Introduction to the Theory of Cooperative Games, Boston: Kluwer Academic Publishers, 2007.在合作博弈研究中,Shapley的研究工作被認為是開創性的,被統稱為關于穩定分配(匹配)與市場設計的研究,他與Roth一起獲得2012年諾貝爾經濟學獎。當前,博弈論幾乎在所有涉及多智能體(包括人和生物)的領域得到了發展和應用。Aumann和Hart、Young和Zamir出版了四本博弈論手冊,Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.1, Amsterdam: North-Holland, 1992. Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.2, Amsterdam: North-Holland, 1994. Aumann R J, Hart S, Handbook of Game Theory with Economic Applications, vol.3, Amsterdam: North-Holland, 2002.Young H P, Zamir S, Handbook of Game Theory with Economic Applications, vol.4, Amsterdam: North-Holland, 2015.堪稱博弈論全書,這套博弈論手冊共分80個專題對博弈論進行了較詳細的論述。

三、演化博弈論的發展歷程回顧

盡管在過去幾十年里,博弈論得到了長足發展,但仍然存在一些缺陷。第一,經典博弈論(包括合作博弈與非合作博弈)假設參與人是完全理性的。在決策理論意義下,一個決策者是理性的是指他可以選擇與自己偏好一致的最優決策(行為)。而在博弈論意義下,參與人是理性的是指參與人選擇的策略(行為)在博弈中不被嚴格占優。這個定義是一種否定表示形式,它并未告訴人們直接選擇什么。第二,以Nash均衡為基礎來定義解概念給出了多人相互關系中所有參與人共同的合理的理性預期,雖然它在本質上是所有參與人的選擇互為最優反應的結果,卻無法給出這種基于最優反應的均衡的形成過程,也不能討論均衡的穩定性。第三,多重均衡問題導致經常無法排除明顯不合理的均衡,進而影響參與人做出最終選擇。第四,對合作的理解存在分歧。合作博弈將合作理解為結盟,而非合作博弈把合作理解為參與人選擇對他人有利的策略(行為)。第五,無法反映參與人的學習過程。演化博弈雖然源于生物學,但是之所以被列入博弈論的范疇,正是因為它在一定程度上回答了上述五個問題。

(一)有限理性

完全理性假設是經典博弈論和經典經濟學理論的基石,也是它們遭受質疑的首要問題。與完全理性相對立的是有限理性。理性本質上是討論人在決策時選擇行為的依據或原則。亞當·斯密最早在其著作《國富論》中提出經濟人概念,后來被約翰·穆勒等人總結為經濟人假設,經濟人假設指出人總是做出使自己利益最大化的決策。Von Neumann和Morgenstern建立的經典決策理論中以完全理性假設作為決策者或博弈參與人的行為選擇原則,這里的完全理性假設與經濟人假設是一致的。

美國經濟學家Arrow很可能是最早提出有限理性概念的學者,Arrow K J, “Rational choice functions and ordings”, Economica, vol.26, no.102(1959), pp.121-127.他認為,人的行為是有意識理性的,但這種理性又是有限的。Simon一直是有限理性概念的倡導者,Simon H A, “A behavioral model of rational choice”, Quarterly Journal of Economics, vol.69,no.1(1955), pp.99-118.他認為,人類的認知能力在心理上存在臨界極限,決策中的推理活動需要足夠的能力來支撐,而人類只有有限能力,決策中需要大量的信息,而能獲得的信息是有限的。因此,決策者并非總是可以實現其最優決策,即決策者的決策是在有限理性下的決策。自從Simon認為有限理性是建立決策理論的基石以來,[美]赫伯特·西蒙:《現代決策理論的基石》,楊礪、徐立譯,北京:北京經濟學院出版社,1989年,第1頁。Simon H A, “Bounded rationality and organizational learning”, Organization Science, vol.2, no.1(1991), pp.125-134.不少學者總結了對各種有限理性進行解釋和描述的模型。Selten R, “Features of experimentally observed bounded rationality”, European Economic Review, vol.42, no.3(1998), pp.413-436. Arthur W B, “Designing economic agents that act like human agents:A behavioral-approach to bounded rationality”, American Economic Review, vol.81, no.2(1991), pp.353-359. Wall K D, “A model of decision-making under bounded rationality”, Journal of Economic Behavior & Organization, vol.20, no.3(1993), pp.331-352. Board R, “Polynomially bounded rationality”, Journal of Economic Theory,?vol.63, no.2(1994), pp.246-270. Samuelson L, “Bounded rationality and game theory”, Quarterly Review of Economics and Finance, vol.36, no.s1(1996), pp.17-35.大多數學者認為,決策者在決策過程中可以通過不斷學習提高有限的知識水平、有限的推理能力、有限的信息處理能力,從而使有限理性得到不斷改善。Thaler獲得2017年諾貝爾經濟學獎的工作就是通過探索有限理性展示人格特質如何系統地影響個人決策與市場。Thaler R H, Misbehaving: The Making of Behavioral Economics, New York:W. W. Norton & Co., 2015.

雖然關于有限理性的多項研究成果已經獲得了幾屆諾貝爾經濟學獎,但是人們仍然認為,對有限理性的理解僅限于局部的、定性的分析,決策論學者、博弈論學者、經濟學學者并未形成共識。人們對有限理性與完全理性有如下理解:當決策者面對決策問題時,如果決策者對當前和未來的信息結構和偏好結構具有完全知識,他將按完全理性假設確定的決策規則選擇行為,否則,他將按其他規則選擇行為。根據有限知識、有限信息、有限推理能力確定的規則做出行為選擇,稱為有限理性下的選擇。本質上,有限理性出現的原因是決策者不能完全掌握信息結構和偏好結構。決策者在有限理性假設下做出行為選擇所依據的規則應該有利于改善他的收益。這樣就可以連續統一地解釋完全理性假設和有限理性假設下的選擇行為。決策者可以通過各種途徑改善知識、信息和推理能力,從而改善有限理性,改善的標志是決策者的收益提高了。決策者面臨決策問題將以改善收益為目的,不斷增進對信息結構與偏好結構的理解,從而使理性的有限性得到改善,直到對信息結構和偏好結構完全掌握,就能夠按照完全理性確定的規則選擇行為了。

引入學習的觀點具有必然性,因為決策者會通過不斷學習改善理性的有限性并適時調整策略。如果將這種通過不斷學習更新有限理性并調整策略的特征置入群體相互關系中,那么群體成員通過隨機配對進行反復博弈、學習、調整策略,最終會顯示出個體(類型或策略)適應性。這種思路與達爾文自然選擇思想形成的生物進化理論的分析框架幾乎完全相同,人類與生物的很多行為(比如競爭與合作)具有相似性,二者的學習方式完全可能互相啟示。于是,生物學家Maynard和Price借鑒了研究生物種群群體狀態進化和穩定機制的方法來分析人類的行為,將生物進化理論的思想引入博弈論,提出了演化博弈思想和演化穩定均衡策略的概念。這種起源于生物進化理論的博弈分析方法就被稱為演化博弈論。

(二)演化博弈論的發展歷程回顧

實際上,演化博弈思想最早應該源于Fisher在1930年開展的研究工作,Fisher R A, The Genetical Theory of Natural Selection, Oxford: Clarendon Press, 1930.但遺憾的是他沒有給出演化博弈的形式化表示與分析框架。Maynard和Price首先提出了源于生物學的演化博弈,并給出其形式化表示,Maynard S J, Price G R, “The logic of animal conflict”, Nature, vol.246, no.5427(1973), pp.15-18.后經Taylor、Jonker、Selten發展而成。Taylor P D, Jonker L B, “Evolutionary stable strategies and game dynamics”, Mathematical Biosciences, vol.40, no.1(1978), pp.145-156. Selten R, “Evolutionary stability in extensive two-person games”, Mathematical Social Sciences, vol.5, no.3(1983), pp.269-363.演化博弈將生物學中的演化概念用于解釋生物或人的選擇行為是有限理性假設下基于規則的選擇過程,并將群體博弈描述成一個過程,在動態系統穩定與博弈論的Nash均衡之間建立起聯系,使得展現Nash均衡的實現過程成為可能。Weibull對1995年之前的演化博弈論研究進展進行了系統的總結。Weibull J W, Evolutionary Game Theory, Cambridge: The MIT Press, 1995.

作為研究生物認識的方法,演化博弈關注個體的行為表現特征而非生物組織內在的基因特征。于是,演化博弈形成的基礎被認為是生物特征學的三個基本原則,即個體異質性、適應性和自然選擇。表現型由基因庫的多樣性保障,表現型的成功生存可以用適應性測量,自然選擇決定了更適應的表現型比更不適應的表現型在下一代繁殖中有更多的數量。變異(突變)是由偶然因素引起的,多數突變者因表現型行為不適應環境而被淘汰,少數突變者將因新的表現型更適應環境而生存。Maynard和Price提出了演化博弈解的概念,Maynard S J, Price G R, “The logic of animal conflict”, Nature, vol.246, no.5427(1973), pp.15-18.即演化穩定均衡(策略)。演化穩定策略有如下性質:對己方而言,對手以小概率選擇變異策略時,演化穩定策略嚴格占優于變異策略。從傳統的博弈論觀點來理解就是:對己方而言,如果對手在演化穩定策略和變異策略之間隨機選擇并以很小的概率選擇該變異策略時,演化穩定策略嚴格占優于變異策略。從生物學觀點來理解就是:如果演化穩定策略種群被變異策略種群中的一小部分入侵,演化穩定策略種群在抵御該小變異種群過程中比變異種群有更強大的生存能力,表明演化穩定策略種群在抵御變異策略種群時具有穩定性。演化穩定策略還可以解釋為:對己方而言,演化穩定策略對抗任何變異策略得到的收益嚴格大于該變異策略得到的收益。

根據演化穩定策略的定義,可以證明演化穩定策略也是Nash均衡策略。由于Nash均衡策略是互為最優反應策略,所以也可以認為演化穩定策略是對任意策略的嚴格意義下的最優反應策略。由于可以將演化穩定策略理解成Nash均衡策略的一種精煉,所以它成為解決多重Nash均衡的一種方法。演化動態將演化穩定策略與生物演化(進化)巧妙地聯系起來,演化動態描述了演化過程中個體改變策略的規則,包括演化系統結構、個體特征、策略的更新規則。它反映了基于適應性和學習性選擇進化的本質。從數學上講,演化動態是系統歷史在當前時刻的動態映射。在復制(演化)動態關系下,可以證明漸近穩定點與演化穩定策略是等價的。Peters H, Game Theory: A Multi-leveled Approach, Berlin: Springer Verlag, 2008.這樣就把有限理性下某種演化動態的演化穩定策略與完全理性下的Nash均衡策略有機聯系了起來。基于這一思想,Maynard建立了演化博弈的分析框架,Maynard S J, Evolution and the Theory of Games, Cambridge: Cambridge University, 1982.可以說是演化博弈的奠基之作。演化動態是演化博弈的核心概念,演化動態可分成確定性演化動態和隨機性演化動態,一般來講,對任何確定性演化動態都可以構造相應的隨機演化動態。

四、復雜網絡上的演化博弈發展現狀與發展趨勢

(一)復雜網絡理論

復雜網絡理論是用網絡工具研究由多個基本單元通過復雜相互作用構成的復雜系統的方法。主要研究不同網絡拓撲模型及其統計特性、復雜網絡形成機制、復雜網絡上的動力學行為規律。

由于現實中存在大量的復雜相互作用關系,復雜網絡被認為是對大量真實復雜相互作用關系系統在結構關系上的拓撲抽象。復雜網絡以網絡為描述工具,于是,網絡理論自然成為研究復雜網絡的基礎。網絡理論起源于圖論,段志生:《圖論與復雜網絡》,《力學進展》,2008年第6期,第702-712頁。圖論源于數學家Euler在1736年訪問加里寧格勒時發現的七座橋散步問題。圖論是研究圖的各種性質的學問。圖是由節點的集合和連接節點的邊的集合構成的二元組,節點代表個體,邊代表個體之間的相互作用關系。網絡是被賦予某種特定意義的圖。網絡理論是研究具有特定意義的有限個體相互作用關系的工具。

最簡單的復雜網絡是規則網絡,主要包括格網絡、全局耦合網絡和最鄰近耦合網絡。Perc M, Jordan J J, Rand D G, et al, “Statistical physics of human cooperation”, Physics Reports, vol.687(2017), pp.1-51.復雜網絡的復雜性主要利用結構復雜性來刻畫,比如高聚類系數、短路徑長度的小世界現象及度分布呈現冪律特征的無標度特性等,典型的復雜網絡主要有隨機網絡、WS小世界網絡和BA無標度網絡等。

Erdos等提出了隨機網絡 (也稱ER隨機圖)的概念。Erdos P, Rényi A, “On random graphs”, Publicationes Mathematicae, vol.6, no.4(1959), pp.290-297.ER隨機網絡模型假設網絡中有N個節點,將任意兩個節點以概率p進行連接,可以生成一個由N個節點構成的平均度為p(N-1)的網絡,該網絡的節點度滿足泊松分布。Erdos 等建立了隨機網絡理論并開創了基于圖論的復雜網絡理論的系統性研究。Erdos P, Rényi A, “On the evolution of random graphs”, Publications of the Mathematical Institute of the Hungarian Academy of Science, vol.5, no.1(1960), pp.17-61.

Milgram發現了小世界現象,Milgram S, “The small world problem”, Psychology Today, vol.2, no.1(1967), pp.185-195.由他的社會調查以及“小世界實驗”可以推斷地球上任意兩個人之間的平均度為6(稱為6度分離),表明任意兩個社會成員之間總是可以通過一條相對較短的路徑實現相互連接。Watts和Strogatz發現了這種小世界現象的結構特征,Watts D J, Strogatz S H, “Collective dynamics of ‘small-world networks”, Nature, vol.393, no.6684(1998), pp.440-442.并提出了WS小世界網絡(簡稱WS模型)。這種網絡有一種看上去很復雜但遵循一定規則的結構,即對于節點數給定(N)的最鄰近耦合網絡,把網絡中任一條邊以概率p斷開并重新連接到另一個隨機挑選的節點上,但是不允許出現重復或自連接的情況,此時概率p與網絡結構有如下關系:當p=0時,該網絡仍然為最鄰近耦合網絡;當p=1時,該網絡變為特殊ER隨機網絡;當0

Barabasi和Albert發現了一種具有特殊度分布特性的網絡結構,Barabasi A L, Albert R, “Emergence of scaling in random networks”, Science, vol.286, no.5439 (1999), pp.509-512.即極少數節點的度較大而大量節點的度較小,提出用BA無標度網絡來刻畫這種特性。BA無標度網絡的生成規則為:從一個m0個初始節點的全局連通網絡開始,每次增加一個新節點,從已有節點中隨機選擇m(m≤m0)個節點與之連接,新節點與已有節點的相連概率與已有節點的度成正比,網絡生成過程中不允許重復連接。這種BA無標度網絡的主要特征是節點度滿足冪率分布且冪率函數具備標度不變性。BA無標度網絡可以用來描述不斷增長和擇優開放的現實世界。BA無標度網絡和小世界網絡一起揭示了現實世界形形色色的復雜網絡具有普遍的、非平凡的結構特性。

最近有學者認識到網絡中節點和連邊的異質性,提出了多層網絡,Boccaletti S, Bianconi G, Criado R, et al, “The structure and dynamics of multilayer networks”, Physics Reports, vol.544,?no.1(2014), pp.1-122.這類網絡主要描述節點異質、連邊異質和同類節點間是否存在連邊組合的特性。最有代表性的兩種多層網絡為多維型多層網絡和依存型多層網絡。同樣地,學術界主要關注多層網絡的拓撲性質、魯棒性等問題。復雜網絡正在成為分析各種復雜連接的結構關系及其動態變化的重要工具。武利琴、王金環、徐勇:《一種基于半張量積的多層網絡演化博弈方法》,《復雜系統與復雜性科學》,2017年第3期,第68-74頁。如果要研究演化博弈中種群(群體)的結構特性,那么自然就需要將演化博弈放置在復雜網絡上進行分析。李永立、 陳楊、 樊寧遠等:《考慮個體效用因素的社會網絡演化分析模型》,《管理科學學報》, 2018年第3期,第41-53頁。

(二)復雜網絡上的演化博弈

復雜網絡上的演化博弈從參與人之間的關系(網絡結構特性)和策略更新規則兩個方面研究種群的行為演化,特別關注合作行為的演化。王龍、伏鋒、陳小杰等:《復雜網絡上的演化博弈》,《智能系統學報》,2007年第2期,第1-10頁。蘇奇:《復雜網絡上的合作演化和博弈動力學研究》,博士學位論文,北京大學,2020年。

1.規則網絡上的演化博弈

作為一種最簡單的復雜網絡,規則網絡最早被引入空間(結構)博弈的演化研究之中,并且總是毫無例外地最先考慮最簡單的囚徒困境。囚徒困境的確是一種讓人們十分討厭而又依依不舍的博弈模式,因為人們特別關心怎樣才能克服囚徒困境,實現囚徒之間的合作。

Nowak和May首先研究了二維格子網絡上囚徒困境的演化,Nowak M A, May R M, “Evolutionary games and spatial chaos”, Nature, vol.359, no.6398(1992), pp.826-829.每個個體與鄰居進行囚徒困境博弈,在演化過程中,個體采取模仿動態更新策略,研究發現在空間網絡結構下合作者會產生聚集現象,合作類型的個體通過彼此間的合作來抵御背叛者的入侵,從而保持合作在種群中的穩定性。Szabo和Toke在二維格子網絡上研究了囚徒困境的演化,分析了鄰居數量可變情況下的種群合作行為演化,發現當背叛收益較低時,空間網絡結構會促使種群采取合作行為,但是隨著背叛收益的增加合作與背叛將出現共存現象。Szabo G, Toke C, “Evolutionary prisoners dilemma game on a square lattice”, Physical Review E, vol.58, no.1 (1998), pp.69-73.Doebeli和Knowlton發現在競爭環境下,種群中的個體在囚徒困境的演化過程中會因為空間結構的引入而產生互惠效應,這提高了合作伙伴的收益,進而促進了合作。Doebeli M, Knowlton N, “The evolution of interspecific mutualisms”, Proceedings of the National Academy of Sciences, vol.95(1998), pp.8676-8680.Hauert和Doebel發現在二維方格網絡上雪堆博弈的演化過程中空間網絡結構會抑制合作者的聚集,導致種群的合作水平可能低于均勻混合種群下的合作水平,Hauert C, Doebeli M, “Spatial structure often inhibits the evolution of cooperation in the snowdrift game”, Nature, vol.428,?no.6983(2004), pp.643-646.這與在囚徒困境演化博奕中得到的結論相反。Ohtsuki和Nowak探討了規則網絡下的隨機復制子動態模型,Ohtsuki H, Nowak M A, “The replicator equation on graphs”, Journal of Heoretical Biology, vol.243, no.1(2006), pp.86-97.分別在弱選擇強度下研究了生滅過程、滅生過程、模仿過程和成對比較四種策略更新規則的復制子動態方程,結論是滅生過程的策略更新規則更有利于囚徒困境的合作演化。

此外,一些學者還在規則網絡上討論了其他特殊博弈的演化,Szabo和Fath系統總結了在不同網絡結構和策略更新規則下囚徒困境、雪堆博弈、鷹鴿博弈等博弈模型中種群策略的演化特性。Szabo G, Fath G, “Evolutionary games on graphs”, Physics Reports, vol.446, no.4(2007), pp.97-216.Altrock等研究了強選擇強度下環形網絡結構上的扎根概率,Altrock P M, Traulsen A, Nowak M A, “Evolutionary games on cycles with strong selection”, physical Review E, vol.95,no.2(2017), 022407.這種網絡結構會在一定程度上降低突變個體的扎根概率,在滅生過程刻畫的演化動態下扎根時間更長。這些研究促使許多學者在復雜網絡上分析演化博弈時引入不同的學習規則,進而發現由學習規則引起的策略更新規則的變化的確會在一定程度上促進或阻止合作的演化。Szolnoki A, Perc M, “Conformity enhances network reciprocity in evolutionary social dilemmas”, Journal of the Royal Society Interface, vol.12, no.103(2015), pp.1-8.

2.隨機網絡上的演化博弈

Durán和Mulet在隨機網絡上討論了囚徒困境中合作行為的演化,Durán O, Mulet R, “Evolutionary prisoners dilemma in random graphs”, Physica D: Nonlinear Phenomena, vol.208, no.3(2003), pp.257-265.發現隨機網絡的連通性程度會影響合作的演化特性,連通性較低的種群達到演化穩定時的合作者比例與初始狀態相關,而連通性較高的種群達到演化穩定時的合作者比例與初始狀態無關。Vukov等在規則隨機網絡上討論了囚徒困境中合作行為的演化,Vukov J, Szabó G, Szolnoki A, “Cooperation in the noisy case: Prisoners dilemma game on two types of regular random graphs”, Physical Review E, vol.73,no.2(2006), 067102.分析了規則隨機網絡的不同拓撲結構對合作演化的影響,發現合作行為的維持與噪聲效應和相互作用拓撲結構中的圈結構有關。在較小的噪聲效應下,三角形組成的隨機網絡結構最有利于囚徒困境向合作策略演化。

3.小世界網絡上的演化博弈

Abramson最早在小世界網絡上研究了囚徒困境中合作行為的演化,Abramson G, Kuperman M, “Social games in a social network”, Physical Review E, vol.63, no.3(2001), 030901.采取確定性模仿學習策略更新規則,發現網絡平均度和重連概率在某些范圍內會促進合作,在另一些范圍會抑制合作。Kim等在有限密度定向連接特殊節點的小世界網絡上討論了囚徒困境中合作行為的演化,Kim B J, Trusina A, Holme P, et al, “Dynamic instabilities induced by asymmetric influence: Prisoners?dilemma game in small-world networks”, Physics Review E, vol.66, no.1(2002), 021907.發現合作水平與背叛策略是否占據特殊節點有很強的關系,當采取背叛策略的個體占據特殊節點時種群的合作水平會出現顯著下降,即使隨后采取背叛策略的個體離開該特殊節點,恢復種群合作水平也需要更長的時間。Santos等比較了在傳統小世界網絡與同質小世界網絡(即網絡中的每個節點具有相同數量的連接)兩種不同網絡結構上囚徒困境中合作行為演化的差異性。Santos F C, Rodrigues J F, Pacheco J M, “Epidemic spreading and cooperation dynamics on homogeneous small-world networks”, Physical Review E, vol.72, no.5(2005), 056128.類似地,Tomassini等在WS小世界網絡上研究了鷹鴿博弈中合作行為的演化,Tomassini M, Luthi L, Giacobini M, “Hawks and Doves on small-world networks”, Physical Review E, vol.73, no.2(2006), 016132.比較分析了模仿動態、比例更新和最優更新三種策略更新規則下合作行為的演化特性和差異。Chen和Wang在小世界網絡上討論了個體以愿景演化動態作為策略更新規則的演化博弈,Chen X, Wang L, “Promotion of cooperation induced by appropriate payoff aspirations in a small-world networked game”, Physical Review E, vol.77, no.2(2008), 017103.研究表明適當的愿景水平會促進種群的合作行為。

4.無標度網絡上的演化博弈

Santos等首先研究了BA無標度網絡上的演化博弈,Santos F C, Pacheco J M, Lenaerts T, “Evolutionary dynamics of social dilemmas instructured heterogeneous populations”, Proceedings of the National Academy of Sciences, vol.103, no.9(2006), pp.3490-3494.試圖揭示合作演化與無標度網絡結構化種群之間的關系,在生長機制和優先連接下,無標度網絡結構能促進合作行為的涌現,長期的合作行為會抵制短期的非合作行為。Szolnoki等研究了在BA無標度網絡上的演化博弈中個體的收益從累計收益向度平均收益連續變化時合作頻率的變化情況。Szolnoki A, Perc M, Danku Z, “Towards effective payoffs in the prisoners dilemma game on scale-free networks”, Physica A, vol.387, no.8-9(2008), pp.2075-2082.Wang等基于全局更新規則和粒子群優化算法分析了BA無標度網絡中合作演化與節點度的關系。Wang W X, Lv J, Chen G, et al, “Phase transition and hysteresis loop instructured games with global updating”,? Physical Review E, vol.77, no.2(2008), pp.568-572. Wang X J, Lv S J, “The roles of particle swarm intelligence in the prisoners dilemma based on continuous and mixed strategy systems on scale-free networks”,Applied Mathematics and Computation, vol.355(2019), pp.213-220.度較低的節點不得不變成合作者以避免最低收益行為對合作行為的維持與擴散產生重要影響。度較高的節點傾向于保持初始策略并影響度較低節點的策略更新。Perc在BA無標度網絡上研究了囚徒困境與雪堆博弈中合作行為的演化,合作演化對網絡節點的隨機刪除具有魯棒性,但刪除度較高的節點會導致網絡的異質性降低,進而降低群體合作水平。Perc M, “Evolution of cooperation on scale-free networks subject to error and attack”, New Journal of Physics, vol.11(2009), 033027.Pea等將個體模仿局部共同行為一致性特性引入策略更新規則中,發現BA無標度網絡對合作的促進作用受到抑制,網絡的中心節點更容易受度較低節點的影響。Pea J, Volken H, Pestelacci E, et al, “Conformity hinders the evolution of cooperation on scale-free networks”, Physical Review E, vol.80, no.1(2009), 016110.Yang等在研究可調節度分布無標度網絡上的演化博弈時,利用度分布冪律指數描述了網絡的異質性,發現存在可以使合作水平達到最高的冪律指數,過高的異質性會激發背叛行為,在強異質性下度較高的節點不會被合作者占領。Yang H X, Wu Z X, Du W B, “Evolutionary games on scale-free networks with tunable degree distribution”, Europhysics Letters, vol.99, no.1(2012),10006.Ichinose和Sayama分別討論了累計收益與平均收益下無標度網絡中的合作演化,累計收益促進合作的能力比平均收益更強,在給定累計收益下度較高的節點對促進合作具有關鍵作用,而在給定平均收益下度較低的節點對促進合作具有關鍵作用。Ichinose G, Sayama H, “Invasion of cooperation in scale-free networks: Accumulated versus average payoffs”, Artificial Life, vol.23, no.1(2017), pp.25-33.

五、演化博弈中的學習機制與演化動態

演化動態是演化博弈中最基本、最核心的內容。演化動態是根據系統歷史、當前狀態和基于學習機制的群體行為選擇將演化博弈的當前狀態映射到下一個時刻的狀態的規則。在有限理性假設下,演化博弈中的個體將根據所獲取的信息不斷更新自己的行為(策略),這種更新規則實際上就是學習機制,因此,基于學習機制的群體行為更新是個體在演化博弈中的合理選擇。這里從基于微分方程的學習機制與演化動態、基于隨機過程的學習機制與演化動態、基于智能算法的學習機制與演化動態、其他學習機制與演化動態四個方面進行簡要總結。Sandholm比較系統地論述了學習機制與演化動態。Sandholm W H, “Population games and deterministic evolutionary dynamics”, In Young H P, Zamir S, eds., Handbook of Game Theory with Economic Applications, vol.4, 2015, pp.703-778.

(一)基于微分方程的學習機制與演化動態

基于微分方程的學習機制中最常用的是復制動態方程,最早由Taylor和Jonker提出,Taylor P D, Jonker L B, “Evolutionary stable strategies and game dynamics”, Mathematical Biosciences, vol.40, no.1-2(1978), pp.145-156.后來Maynard、Weibull、Hofbauer和Sigmund等在相關論著中進行了深入研究。Maynard S J, Evolution and the Theory of Games, Cambridge: Cambridge University, 1982. Weibull J W, Evolutionary Game Theory, Cambridge: The MIT Press, 1995. Hofbauer J, Sigmund K, Evolutionary Games and Population Dynamics, Cambridge: Cambridge University, 1998.

這種學習機制通常采用常微分方程來描述策略的演化,意義在于描述改變策略的種群頻數變化率與其頻數成正比,與適應度大于群體平均適應度的幅度成正比,因此可以很好地刻畫博弈中種群的演化過程。復制動態方程假設種群中個體數量無限大,且混合均勻,并且沒有考慮決策環境中的不確定因素,可以視為一種無變異的自然選擇學習機制。這一機制已經廣泛地應用于演化生物學和博弈論。王軍武、余旭鵬:《考慮風險關聯的軌道交通PPP項目風險分擔演化博弈模型》,《系統工程理論與實踐》,2020年第9期,第2391-2405頁。梁秀峰、張飛漣、顏紅艷:《基于演化博弈的PPP項目績效支付機制仿真與優化》,《中國管理科學》,2020年第4期,第153-163頁。當個體策略的演化不僅與時間有關,也與空間有關時,復制動態需要用偏微分方程來描述。Hutson V C L, Vickers G T, “Travelling waves and dominance of ESSs”, Journal of Mathematical Biology, vol.30(1992), pp.457-471.Foster和Young首次將隨機性引入復制動態方程中,提出了用隨機微分方程來描述策略演化。Foster D, Young P, “Stochastic evolutionary game dynamics”, Theoretical Population Biology, vol.38, no.2(1990), pp.219-232.此外,基于微分方程的學習機制還包括最優反應動態、Logit動態等。Gilboa I, Matsui A, “Social stability and equilibrium”, Econometrica, vol.59, no.3(1991), pp.859-867. Fudenberg D, Levine D, The Theory of Learning in Games, Cambridge:The MIT press, 1998.

(二)基于隨機過程的學習機制與演化動態

基于微分方程的學習機制主要用于規模足夠大的種群,種群中有無限多個個體。但是在現實系統中, 種群規模總是有限的,并且決策環境中具有各種隨機因素,因此就出現了主要用于有限種群演化分析的隨機演化動態。可以根據策略更新的特征將演化動態分為異步更新與同步更新,異步更新包括Moran過程、模仿更新和愿景更新,同步更新主要指Wright-Fisher過程。

Nowak等首先將Moran過程引入演化博弈的策略選擇中,Nowak M A, Sasaki A, Taylor C, et al, “Emergence of cooperation and evolutionary stability in finite populations”,?Nature, vol.428, no.6983(2004), pp.646-650.提出了有限種群基于Moran過程的隨機演化博弈模型。Imhof和Nowak首次提出有限種群中的演化動態可以用頻率依賴的Wright-Fisher過程來研究,Imhof L A, Nowak M A, “Evolutionary game dynamics in a Wright-Fisher process”, Journal of Mathematical Biology, vol.52, no.5(2006), pp.667-681.將Wright-Fisher演化動態模型用于描述離散世代的生物種群演化,種群中所有個體在同一時間進行繁殖產生后代,下一個時間步從該后代種群中選擇下一代并保持種群數量不變,這是一種同步更新過程。Fermi學習機制下的演化動態是采用非線性形式的Fermi函數的模仿更新過程。Traulsen A, Hauert C, “Stochastic evolutionary game dynamics”, In Schuster H G, eds., Reviews of Nonlinear Dynamics and Complexity, vol.2,2009, pp.25-61.王先甲等對隨機演化動態進行了較為詳細的總結。王先甲、顧翠伶、趙金華等:《隨機演化動態及其合作機制研究綜述》,《系統科學與數學》,2019年第10期,第1533-1552頁。

根據后代是否采用與母體相同的策略,策略演化過程可以分為無變異演化和有變異演化。在無變異情況下,Moran演化動態、Wright-Fisher演化動態、Fermi演化動態策略更新的演化過程是具有兩個吸收狀態的馬爾科夫鏈,此時策略的扎根概率成為影響總體演化動態的重要指標,通過扎根概率可以得到某一策略最終成為總體中唯一策略的概率。Wang X J, Gu C L, Lv S J, et al, “Evolutionary game dynamics of combining the Moran and imitation processes”,? Chinese Physical B, vol.28, no.2(2019), 020203. Wang X J, Gu C L, Quan J, “Evolutionary game dynamics of the Wright-Fisher process with different selection intensities”, Journal of Theoretical Biology, vol.465, no.1(2019), pp.17-26.有限總體隨機演化動態中另一個非常重要的指標是扎根時間,Altrock P M, Traulsen A, “Fixation times in evolutionary games under weak selection”, New Journal of Physics, vol.11, no.1(2008),013012.包括平均非條件扎根時間與平均條件扎根時間。扎根概率解釋了一個合作者占領整個種群的可能性,平均條件扎根時間描述了從突變到扎根(占據種群)需要的平均時間。

在有變異情況下,策略更新過程是沒有吸收狀態的馬爾科夫過程,此時更關注策略達到均衡狀態時的平均豐度。Fudenberg D, Imhof L A, “Imitation processes with small mutations”, Journal of Economic Theory, vol.131, no.1(2006), pp.251-262.在愿景演化動態的更新過程中,在收益沒有達到期望水平時,個體將改變當前的策略,策略的更新過程是沒有吸收態的馬爾科夫過程,因而策略達到均衡狀態時的平均豐度受到關注。Wang X J, Gu C L, Zhao J H, et al, “Evolutionary game dynamics of combining the imitation and aspiration-driven update rules”, Physical Review E, vol.100, no.2(2019), 022411.模仿更新是指個體通過收益比較來決定是否模仿其他個體的策略。Nowak M A, Evolutionary Dynamics: Exploring the Equations of Life, Cambridge: Harvard University Press, 2006.如果個體的收益較小,則該個體更有可能學習更成功個體的策略。然而,并非所有個體都會參照其他個體來更新策略,人們在動物與人類行為生態學中可以普遍觀察到基于個體愿景的策略更新行為,比如螞蟻根據自己的經驗尋找食物而不是模仿其他個體。這種自我學習行為被稱為愿景更新過程,個體根據從博弈中得到的收益與其期望收益的對比來調整策略。Liu Y K, Chen X J, Wang L, et al, “Aspiration-based learning promotes cooperation in spatial prisoners dilemma games”, Europhysics Letters, vol.94, no.6(2011), 060002. 王先甲、夏可:《多人雪堆演化博弈在愿景驅動規則下的擴展平均豐度函數》,《系統工程理論與實踐》,2019年第5期,第1128-1136頁。

(三)基于智能算法的學習機制與演化動態

基于智能優化算法的學習機制主要是將遺傳算法、蟻群算法和粒子群算法等引入演化博弈,利用優化算法來指導參與人的策略選擇。由于這些算法具有很好的演化尋優特性,所以采用這種學習機制能很好地模擬參與人的學習行為。比如,Liu和 Wang結合粒子群優化算法與演化博弈的演化特性,提出了一種基于演化博弈的改進粒子群優化算法。Liu W B, Wang X J, “An evolutionary game based particle swarm optimization algorithm”, Journal of Computational and Applied Mathematics, vol.214, no.1(2008), pp.30-35.

基于神經網絡的學習機制是利用神經網絡來模擬參與人的學習和行為,通過對神經網絡進行訓練,使神經網絡具有演化學習的能力,從而指導參與人的決策。比如,Horie和Aiyoshi將神經網絡與博弈論中的納什均衡概念相結合并將其應用于聯想記憶,在神經網絡與博弈論之間建立了聯系。Horie R, Aiyoshi E, “Neural networks realization of searching models for Nash equilibrium points and their application to associative memories”, IEEE International Conference on Systems, Man, and Cybernetics, San Diego, 1998, pp.1886-1891.

(四)其他學習機制與演化動態

演化博弈中的其他學習機制與演化動態還包括強化學習、信念學習、貝葉斯學習、老練學習和經驗加權吸引力學習等,王先甲、全吉、劉偉兵:《有限理性下的演化博弈與合作機制研究》,《系統工程理論與實踐》, 2011年第S1期,第82-93頁。王先甲、夏可:《多人雪堆演化博弈在愿景驅動規則下的擴展平均豐度函數》,《系統工程理論與實踐》,2019年第5期,第1128-1136頁。這類學習機制主要參考了理性程度更高的人類的決策過程。

強化學習是將個體的學習過程視為試探評價過程,個體選擇一個動作作用于環境,環境接受該動作后狀態發生變化,同時反饋給個體一個強化信號(獎勵或懲罰),個體基于強化信號以正的概率再選擇下一個動作。全吉:《具有懲罰策略的公共物品博弈與合作演化》,《系統工程理論與實踐》,2019年第1期,第141-149頁。選擇的動作不僅影響當前的強化值,而且影響環境下一時刻的狀態以及最終的強化值,參見Fudenberg和Levine的論著。Fudenberg D, Levine D, The Theory of Learning in Games, Cambridge: The MIT press, 1998.

信念學習假設個體根據過去發生的事件來更新他們認為別人會如何行動的信念,從而根據這些信念來決策。一種廣泛被接受的模型是“虛擬行動”。在虛擬行動中,個體始終記得另一個個體之前采用每種策略的相對頻率。這些相對頻率就是對那個個體后續各期行為的信念。個體繼而根據這些信念計算各種策略的期望支付,并以較高頻率選擇能獲得較高期望支付的策略。比如,Crawford研究了重復協調博弈中信念學習過程與系統極限狀態之間的關系。Crawford V P, “Adaptive dynamics in coordination games”, Econometrica, vol.63, no.1(1995), pp.103-143.

貝葉斯學習利用參數的先驗分布和從學習過程中獲取的樣本信息計算后驗分布,使用概率來表示不確定性,通過概率規則實現學習和推理過程。貝葉斯學習的結果用隨機變量的概率分布來表示,它可以理解為人們對不同可能性的信任程度。比如,Eichberger研究了兩人博弈中個體的初始先驗分布與納什均衡之間的關系。Eichberger J, Haller H, Milne F, “Naive Bayesian learning in 2×2 matrix games”, Journal of Economic Behavior & Organization, vol.22, no.1(1993), pp.69-90.

老練學習假設個體知道自己和他人如何學習,據此可以估計學習模型中的一些參數,但可能會錯誤估計其他個體的老練程度。個體可以將過去所產生的一切信息轉化為知識,從而修正自己的行為。比如,Hyndman研究了協調博弈中老練學習對個體之間協調效率的影響。Hyndman K, Terracol A, Vaksmann J, “Learning and sophistication in coordination games”, Experimental Economics, vol.12, no.4(2009), pp.450-472.

強化學習假定個體不考慮未選策略的支付信息,而信念學習假定個體不考慮自己過去選擇的信息。實際上,當這兩種信息都可用時,個體都會加以考慮。經驗加權吸引力學習綜合了二者的主要特征,賦予接收到的支付更大的權重,同時也賦予未選策略支付一定的權重。比如,Camerer和Ho在不同博弈中對經驗加權吸引力學習進行了系統研究。Camerer C, Ho T H, “Experience-weighted attraction learning in normal form games”, Econometrica, vol.67, no.4(1999), pp.827-874.

六、結 語

在經濟生活和社會活動中,多人相互作用關系是一種常見現象。當每個個體對自己的預期完全已知時,基于完全理性假設的行為選擇是自然且合理的。但是當個體對自己的預期未知時,就會按某種規則選擇行為,這反映了個體的選擇是有限理性的。這種基于規則選擇來研究個體相互作用過程的方法就是演化博弈。在群體博弈過程中,個體會采取某種學習規則學習知識、信息等以確定自身的收益,個體通過學習可以不斷改進有限理性。個體的行為選擇規則基于其學習機制。因此,學習機制被順理成章地嵌入演化博弈,其目的是確定對個體更有利的行為選擇規則。現實社會中,群體中個體之間關系復雜,且存在一定的差異(即并非均勻混合)。利用復雜網絡來描述群體中個體之間的復雜相互作用關系,并在有限理性假設下分析個體的決策機制,可以在一定程度上減輕經典博弈論在預期收益未知情況下分析多人相互作用時面臨的挑戰,深化人類對此類問題的認識。復雜網絡上的演化博弈將成為一個非常有希望的重要研究領域。

主站蜘蛛池模板: 亚洲不卡av中文在线| 在线国产三级| 亚洲国产精品无码AV| 色九九视频| 日韩一区精品视频一区二区| 国产三级精品三级在线观看| 免费观看无遮挡www的小视频| 天天干天天色综合网| 香蕉综合在线视频91| 鲁鲁鲁爽爽爽在线视频观看| 曰韩人妻一区二区三区| 不卡网亚洲无码| 欧美一区国产| 国产在线日本| 99国产在线视频| 国产91视频观看| 欧美人在线一区二区三区| 成人在线亚洲| 伊人色在线视频| 亚洲欧美h| 久久人搡人人玩人妻精品| 97视频免费在线观看| 亚洲黄色高清| 经典三级久久| 久久9966精品国产免费| 亚洲AV无码久久精品色欲| 乱人伦99久久| 免费一级成人毛片| 国产人人射| 丁香六月激情综合| 国产精品短篇二区| 在线观看无码a∨| 国产精品久久久久久影院| 亚洲VA中文字幕| 亚洲熟妇AV日韩熟妇在线| 国产精品香蕉在线观看不卡| 波多野结衣第一页| 国产精品永久在线| 亚洲精品欧美日本中文字幕| 中文字幕自拍偷拍| 免费午夜无码18禁无码影院| jijzzizz老师出水喷水喷出| 色视频国产| 久久免费成人| 麻豆国产在线不卡一区二区| 亚洲三级色| 久久久久国产精品嫩草影院| 亚洲精品视频免费| 456亚洲人成高清在线| 欧美精品色视频| 亚洲免费毛片| 亚洲日本精品一区二区| 91色在线观看| 日韩精品欧美国产在线| 欧美日韩另类在线| 亚洲Av综合日韩精品久久久| 色欲不卡无码一区二区| 亚洲天堂啪啪| 亚洲一区二区无码视频| 日本成人不卡视频| a毛片免费观看| 国产福利拍拍拍| 污污网站在线观看| 精品无码专区亚洲| 久久无码免费束人妻| 日本国产一区在线观看| 国产小视频网站| 亚洲欧美日韩色图| 欧美日韩中文字幕在线| 国产真实乱了在线播放| 国产无码制服丝袜| 国产精品无码AV中文| 国产91在线|日本| 黄色网在线| 国产成人精品视频一区二区电影| 日韩精品资源| 亚洲中文字幕国产av| 天天躁狠狠躁| 亚洲综合亚洲国产尤物| 国产欧美亚洲精品第3页在线| 99视频精品全国免费品| 久久午夜夜伦鲁鲁片不卡|