趙小薇,夏昊翔,張 瀟(1. 大連理工大學.系統工程研究所;2. b.軟件學院,遼寧 大連 116024)
噪音水平和交互頻次對策略演化的影響
趙小薇a,b,夏昊翔a,張 瀟a
(1. 大連理工大學a.系統工程研究所;2. b.軟件學院,遼寧 大連 116024)
囚徒困境是研究合作策略演化的重要工具,重復囚徒困境下的博弈者可以通過合作實現長期利益的最大化。采用生態演化模擬實驗的方法研究在重復囚徒困境中初始環境設定的噪音水平和個體間交互頻次對博弈策略演化的影響。研究結果表明,噪聲水平和個體間交互頻次對最終系統中優勝的博弈策略有決定性作用,這說明環境的初始設定條件是影響博弈策略演化的重要因素。
囚徒困境;合作演化;噪音;策略演化
從單細胞生物到復雜的高級哺乳動物,從螞蟻社會到高等動物種群,合作現象無論在自然界還是人類社會都無處不在。但是根據達爾文的適者生存的理論,如果群體中的個體都追求自身生存利益的最大化,那么群體內甚至群體間廣泛的合作是如何形成的呢?這引發了關于“合作演化”問題的研究。過去幾十年間,在多個學科領域,如生物學,社會學、心理學,經濟學和管理學,以及復雜性科學等,合作演化問題引起了極大的學術關注[1-8]。學界圍繞親緣選擇、團隊選擇、直接互惠、間接互惠、空間互惠等可能的合作機理開展了很多研究[2]。其中,演化博弈論為研究合作演化提供了方便的數學框架。在基于演化博弈論的合作演化研究中,Axelrod和Hamilton 圍繞重復囚徒困境博弈問題所開展的博弈策略研究是一項經典的開拓性工作[1]。他們的研究表明,針對重復囚徒困境博弈,一個簡單的“一報還一報”(Tit-For-Tat,TFT)策略在很多場景下是一個極為有效的合作策略。Axelrod和Hamilton的研究成果引發了針對博弈環境下合作策略的很多后續研究。
重復囚徒困境博弈的一個重要研究情景是有噪音的重復囚徒困境(Noisy Iterated Prisoners’ Dilemma,NIPD)。噪音是在系統處理過程中自行產生的影響,這些影響與系統輸入無關,它阻礙或誤導個體對原本事實的理解和原本意圖的執行。在現實世界中噪音無處不在,噪音的水平反映了環境的嘈雜程度。在博弈的過程中,噪音表現為隨機意外因素,是小概率事件,個體策略會因為“意外因素”產生的隨機干擾導致原有的策略不能正確執行,即,博弈中的噪音就是個體在行使合作行為時可能會產生的背叛的結果,或者在行使背叛的行為時產生合作的結果[9]。博弈中噪音的存在對博弈人的決策產生很大影響,從而進一步影響下一輪的行動。研究表明,對無噪音條件下的重復囚徒困境博弈有效的TFT策略是一個對噪音極為敏感的策略,在有噪音的條件下,博弈群體很難通過TFT策略達成合作[10]。這一問題引發了學界對噪音環境下有效合作策略的進一步探討。在噪音的環境中,“寬容”的行為能夠促進合作。對此,人們提出新的策略,例如,在“兩報還一報”策略(Tit-for-Two-Tat,TFTT)下,參與人僅在收到兩次連續的背叛后才懲罰博弈對手。Nowak與 Sigmund提出“包容的一報還一報”策略(Generous Tit-for-Tat,GTFT),這種策略具有較小的概率能夠無視對方的背叛[11]。上述兩種策略本質上都屬于寬容策略,即以一定方式“原諒”對方的背叛。這類寬容策略易于達成合作,但缺點是易于受到欺騙性策略的欺詐。另一類在噪音的環境中改進TFT的方法是使用“悔悟”?!盎谖虻囊粓筮€一報”策略(Contrite Tit-for-Tat,CTFT)能夠在發現自己背叛對手后及時糾正錯誤,繼續單方面執行合作行為[12-13]。CTFT善于糾正自身的錯誤,但這一策略的缺點是不能及時原諒對手犯的錯誤。第三類策略稱為巴甫洛夫策略(Pavlov)或者叫做贏留輸變策略(Win Stay Lose Shift,WSLS)[14-16]。當因噪音導致對手間報復性相互背叛發生時,Pavlov策略可以在比TFT系列策略迭代更少次后恢復合作。然而,Pavlov策略因為存在參與者一直都可以從背叛對方這一行動中獲得獎勵這一缺陷,所以魯棒性不強[9]。此外在文獻[17]中還提出了另一種“靈活互惠利他策略”(Flexible reciprocity Altrisum,FRAM),在這一策略下,博弈者對背叛保持一定程度的容忍,并能夠為了長期回報而繼續采取合作的策略。采用FRAM策略的個體,其決策基于與對手長期交互的歷史,噪音帶來的意外影響不會立即打破兩個參與者之間的長期合作關系。
上述一系列策略的提出引發了如下研究課題:在混合多種策略的人群中,最終哪個或哪些策略在有噪音的重復囚徒困境博弈中會取得優勢?在文獻[9][16]和[18]中,學界對其中一些策略的表現進行了比較研究。然而,之前對策略演化的研究大都是將系統的噪音設置為常數,研究噪音水平較低的情況下(通常小于1%)合作策略的演化現象,即在多次重復囚徒困境博弈中加入極少次隨機干擾。噪音水平是單位時間內博弈策略受到干擾的頻率,該指數反映了環境的嘈雜程度,可以想見,不同的噪音水平可能影響不同策略在混合策略群體中的總體表現。當前學界對噪音水平對策略演化的影響研究不夠充分。另一方面,目前對策略演化的研究都是將系統的個體間交互頻次設置為較低的常數,忽略了交互頻次對策略演化的影響。個體間交互頻次是描述交互強度以及博弈個體間關聯緊密程度的指標,反映了個體在一定的時間尺度內相互博弈的次數,該值越大,個體間的博弈進行得越頻繁,積累的交互歷史越多,反之,個體間的博弈進行不頻繁,積累的交互歷史較少。在自然界中,有的生物種群內個體間交互頻繁,而有的交互次數稀少;在人類社會中,有些社會文化中個體間互動頻繁,而有些文化更加崇尚個體獨立性。這種交互頻次及其背后的社會關聯緊密程度必然對合作策略的演化產生影響?;谝陨峡紤],本文針對有噪音的重復囚徒困境博弈情景,采用生態演化模擬實驗的方法研究不同的噪音水平和不同的個體間交互頻次對合作策略演化的影響。
1.1 有噪音的重復囚徒困境博弈
在原始的囚徒困境博弈中,參與博弈的每個個體都采用純策略,即個體的策略選擇只有兩種:合作(cooperation,C)或背叛(defection,D)。參與博弈的個體根據自己和對手采用的策略獲得不同的收益。如果兩個個體都采取C策略,那么雙方都獲得合作的獎勵R;如果兩個個體都采用D策略,那么雙方都得到背叛的懲罰P;如果一個采用C策略,另一個采用D策略,那么背叛者獲得收益T,合作者得到S,其中T>R>P>S,且2R>T+S。對于單次囚徒困境博弈,眾所周知,背叛策略必然是博弈者的最優策略。在這一情景下,合作不可能在理性博弈者之間產生。但在博弈者事先不知道重復次數的重復囚徒困境(Iterated Prisoners’ Dilemma,IPD)博弈情景中,合作策略有可能成為有效的策略。Axelrod和Hamilton的研究表明,“一報還一報”策略(TFT)是針對這一情景的一種極為有效的策略[1,19]。TFT策略可描述為:第一步使用C策略,之后每一步都重復對手的策略。
如果在上述的重復囚徒困境博弈中加入隨機噪音的因素,就形成了有噪音的囚徒困境博弈(Noisy Iterated Prisoners’ Dilemma,NIPD)。博弈中的噪音結果是導致個體原本策略被干擾成為相反的策略,即參與博弈者在某時間點決定采用C策略,如果沒有受到隨機噪音干擾,則該博弈者實際執行的策略仍然是C,反之如果受到噪音的干擾則執行相反策略D。噪音的存在對簡單TFT策略的有效性產生了顯著的影響。在有噪音的條件下,兩個采用TFT策略的博弈者很容易由于一次對合作行為的扭曲解讀導致彼此的反復背叛。Molander的研究表明,在噪音率很低的條件下,兩個TFT博弈者的長期收益同兩個持隨機策略的博弈者的長期收益沒有顯著差異[20]。正因如此,人們針對NIPD情景分別提出了GTFT、CTFT、WLSL等策略。本文試圖通過生態演化模擬實驗對這些策略在不同噪音水平以及不同交互頻次條件下的表現進行檢查。本文的基本研究問題是:是否存在在不同噪音水平和不同交互頻次下都適合的合作策略。
1.2 生態演化實驗設定
本文使用生態演化模擬實驗來檢測持有各自不同的多種策略的群體在進行有噪音的重復囚徒困境博弈時,各種策略在不同的噪音水平下和不同的交互頻次下各自的長期表現如何。對此,本文采用與Wu與Axelrod[9]的“生態學模擬”一致的思路開展生態演化實驗研究。在實驗的初始階段,參與實驗的各種策略的持有者在整個生態群體按等比例均勻混合。演化開始后,參與者之間根據各自所持的策略彼此進行博弈。本研究采用全博弈的方式,即在每一代(每一模擬輪次)中,每一個體要與所有其他個體兩兩博弈k次,k代表了個體間博弈次數,k越大個體間交互越頻繁。博弈時個體行為受噪音影響,即個體在行使合作行為時可能會產生的背叛的結果,或者在行使背叛的行為時產生合作的結果。一代結束后,每個參與者統計各自的收益。采用相同策略的參與者的收益加和作為這一策略在這一代的適應度。為了體現“生態進化”,在下一代具有高適應度的策略種群個體數量增加,具有低適應度的策略種群個體數量減少。為了體現生態演化中的隨機突變,每代中都有極少比例的個體放棄原來的策略,從其他的策略中隨機選擇一種策略作為自己的策略,這個較小的概率為“隨機突變率(m)”。代代往復,以此類推,每一代記為g。經過這一系列的策略演化過程(選擇、博弈和突變),產生的新一代種群的數量不同于上一代,并一代代向增加整體適應度的方向發展,因為最好的策略總是具有更大的可能性被選擇去產生下一代,而適應度低的策略逐漸被淘汰,直到當某一策略的適應度達到飽和,也就是生態系統繼續演化也不會產生適應度更高的個體時,生態演化將終止。這一生態演化模擬實驗的算法如表1所示。
表1 生態演化模擬實驗的算法流程
Tab.1 Alogorithm of ecological evolution simulation

個體i持某一種初始策略;do{ 交互頻次=0; while(交互頻次 在參與模擬的初始策略的選擇上,本文分別選取原始TFT、CTFT、GTFT及FRAM策略進行混合實驗,并加入FREE-RIDER用以檢驗其他策略對抗背叛者入侵的能力,加入Random策略用于對比策略收益。Wu與Axelrod的工作[9]表明巴甫洛夫策略(WSLS策略)在這種多策略混合群體的生態模擬實驗情景下的總體表現不佳,本文的實驗中沒有加入該策略。參與模擬實驗的各種策略簡述為: 1)原始一報還一報策略(TFT)。博弈者在時間步t=1時無條件執行C策略,在t>1時復制對手t-1時的策略。 2)寬容的一報還一報策略(GTFT)。博弈者在大部分的時間執行一報還一報策略,對于對手的D策略以小概率(10%)進行寬容而不采取報復性背叛,執行C策略。 3)悔悟的一報還一報策略(CTFT)。博弈者在大部分的時間執行一報還一報策略,如發現自己在t-1階段因噪音執行了D策略,則在t階段糾正錯誤,繼續執行C策略。 4)靈活互惠利他策略(FRAM)。博弈者對于對手的背叛行為可以適度寬容,寬容等級分別為1至4級,使用FRAM1,FRAM2,FRAM3和FRAM4分別代表FRAM中寬容等級1,2,3和4[17]。 5)搭便車策略(FREE-RIDER)。博弈者在每一次博弈中都無條件執行D策略。 6)隨機策略。博弈者在每一個時間步t都以定值50%的概率采取C或者D的策略。 本文設定生態演化實驗初始時系統內有上述9種不同博弈策略,每種策略的個體數量均為30,參與博弈的個體總數為270。策略的隨機突變率m為1%,在演化實驗的每一代中,每個個體要與所有其他個體兩兩博弈k次,系統共演化g=20 000代。所有博弈者具有相同的博弈矩陣T=5,R=3,P=1,S=0。為了研究噪音水平的影響,選取3個n值:n=5%,15%和30%。當噪音水平達到50%,個體博弈兩次中就有一次受到干擾,此時所有策略均接近隨機策略,因此本研究選取50%以下3個典型值來進行研究:n=5%時,100次博弈有5次受到噪音干擾,受干擾程度較低;n=30%時,100博弈有30次受到噪音干擾,受干擾程度較高,15%居于二者中間。為了研究不同的個體間交互頻次k對合作策略演化的影響,選取從小到大3種不同的代內交互次數k=5,15和55。為了獲得穩定的仿真結果,最終的數據是50次模擬的平均,即對每一次特定初始演化設定運行50次。 圖1顯示了9種策略在交互頻次較小(k=5)時,系統在3種不同水平的噪音影響下策略隨時間演化的結果。從圖1可見,當每代個體交互頻次較低時,不同水平的噪音對不同策略人數的變化趨勢影響很大,表現為低噪音環境(n=5%)中TFT策略占優,類TFT策略(GTFT和CTFT策略)人數緊隨其后,說明TFT策略群在噪音影響較小的情況下依然是系統的最優策略,GTFT因為能夠寬容較低比例的背叛,平衡了部分噪音影響,從而成為低噪音環境中的次優策略。在低噪音環境中,FREE-RIDER策略表現極差,種群人數幾乎為0,因為這個策略能夠被TFT及類TFT策略立即發現其背叛性,因此無法生存。當n取值增大后,CTFT策略的優勢逐漸顯現,成為最優策略,TFT對噪音敏感,因此表現受噪音影響較大,GTFT策略對噪音的寬容上限低于實際噪音,因此在高噪音環境中表現要受到影響。圖1說明在每代個體交互頻次較低的系統中,噪音等級對最后占優策略有決定性影響;而根據個體之間交互歷史決定博弈行為的4種FRAM策略在k值較小的系統中不占優勢。 圖2顯示了9種策略在中等交互頻次下(k=15),系統在3種不同水平的噪音影響下策略隨時間演化的結果。從圖2可見,在每代交互頻次居中時,噪音水平對策略演化的影響較小,變化趨勢非常接近,CTFT策略最終在系統中成為占優策略。這種情況的成因在于k值居中時,每代內個體間交互的次數既不會太頻繁也不會太稀少,CTFT策略既可以通過多次與對手交互相互合作積累收益,又具有較高的抗噪能力。TFT策略對背叛行為反應過于敏感,在多輪次博弈中容易因為噪音影響進入輪流報復性背叛的困境,而GTFT策略的隨機寬容性不利于該策略在多輪次博弈中識別對手的主動背叛行為。 圖3顯示了9種策略在交互頻次較高(k=55)時,系統在3種不同水平的噪音影響下策略隨時間演化的結果。從圖3中可見,噪音水平較低和居中時,策略演化趨勢非常接近,與圖2的策略演化的情況非常類似,表現為CTFT策略最終在系統中占據大多數。當噪音水平較高時,系統最優策略發生了變化,FRAM1表現出了最高的適應度,FRAM2是次優策略,說明高噪音環境下,當個體間交互異常頻繁時,具有可控的容忍度并且能夠根據交互歷史容忍對手的非惡意背叛的個體,可以通過與對手建立長期互惠的合作關系獲利,最終成為系統的統治性策略。 對比圖1、圖2和圖3,當k值不同時,噪音等級對合作策略演化的影響有差異。當k值較小時,系統中對背叛行為反應迅速的策略占有優勢,此時噪音等級對最終系統最優策略影響較大。隨著k值增大,系統中對背叛行為具有寬容和悔悟的策略表現出優勢,噪音等級對合作策略演化的影響降低。當k值增大到50以上時,系統中對背叛行為寬容度更高的FRAM策略的優勢逐漸顯現,噪音越大,FRAM策略的優勢越明顯。同時圖1、圖2和圖3表明,噪音等級和每代交互頻次是兩個重要的系統參數,在合作策略的演化上起決定性作用。 k噪音n5%15%30%1,2FREE?RIDERFREE?RIDERFREE?RIDER3,4TFTTFTTFT5TFTCTFTCTFT6?38CTFTCTFTCTFT39?50CTFTCTFTFRAM151?89CTFTFRAM1FRAM190?100FRAM1FRAM1FRAM2 表2顯示了在不同的噪音等級設定下,交互次數k取值從1到100,系統內最終優勝策略的情況。從表2中可見,當k為1和2時博弈的贏家始終是FREE-RIDER,此時博弈本質上是“一次性博弈”,交互次數極少時,善良的策略無法識別出背叛者。當k是3和4時,TFT是系統演化后的勝出策略,TFT策略遇到FREE-RIDER時在第二步可以進行反擊,同時TFT也能夠與其他善良的策略相互合作。當k是5時,低噪音系統內TFT依然表現良好,當噪音較高時CTFT成為了系統內的最優策略,原因在于TFT的抗噪音能力較低,CTFT是帶有悔悟的TFT策略,可以在發現自己的失誤性背叛行為后及時悔悟,重新恢復合作關系。當k介于6到38時,CTFT幾乎是系統運行完畢后唯一留存的策略。當k介于39到50時,在高噪聲的系統內,FRAM1的表現超越了CTFT,成為系統最優策略,并且隨著k的增加,FRAM策略的優勢越來越明顯。FRAM是容忍程度更高的策略,當每代內交互頻次很高時,FRAM策略能夠平衡掉噪音的影響。當k增大到77以上時,FRAM2策略超越了FRAM1策略,FRAM2是比FRAM1更具有容忍程度的策略。 一個顯著的結果是,在重復囚徒困境中,在不同的代內交互頻次設定下,噪聲等級對博弈策略的演化具有影響。研究表明,GTFT,CTFT和FRAM策略都是具有抗噪能力的策略,交互頻次越高,CTFT和FRAM策略的優勢越明顯。當交互頻次較低時,高噪音環境中CTFT策略的優勢較為突出,低噪音環境中TFT策略依然是系統內的最優策略。 本文研究了在重復囚徒困境中噪聲水平和個體間交互頻次對博弈策略演化的影響。通過基于Agent的仿真實驗分別研究了在一定k值設定下的噪音等級對系統內博弈策略的影響。在實驗中發現,FRAM和CTFT策略在噪音等級高的環境中容易勝出,TFT策略在噪音等級低的環境中容易勝出。這說明噪音越大的環境越需要參與者的容忍和悔悟,而在噪音較低的環境下,迅速反擊對手的背叛行為才是最好的選擇。研究同時發現每代內個體間交互頻次對系統博弈策略演化具有影響。從實驗結果中發現,當博弈參與者交互頻繁時,FRAM系列的策略是最優策略,CTFT策略次之;當參與者交互頻次較低時,FRAM和CTFT策略在最后不會成為生態演化實驗的留存策略。在極端情況下,如交互頻次小于3時,博弈成為一次性博弈,FREE-RIDER是最優策略。個體間交互頻次體現了人群在一定時間內的相遇次數,也就是人群熟悉程度。當人群熟悉程度較高時,環境就是“熟人的村落”,那么具有容忍的策略(如FRAM策略)和具有悔悟的策略(如CTFT策略)就是人們會采取的策略。當人群熟悉程度較低時,個體間的相遇就是陌生人的游戲,那么“不合作”就成為理性人容易采取的策略。 從本研究的結論可知,環境對博弈策略的影響是巨大的。不考慮環境因素去研究合作策略是不全面的。一些研究認為博弈策略應具有學習對手策略的能力從而調整自身的策略,本文的研究表明,博弈策略還應具有感知環境因素的能力,諸如噪聲等級和人群熟悉程度等。因此,本文的一項后續工作是研究具有環境感知能力的博弈策略。 [1]Hamilton A R. The evolution of cooperation [J]. Science,1981,211(3):1390-1396. [2]Nowak M. Five rules for the evolution of cooperation [J]. Science,2006,314(5805):1560-1563. [3]Huberman B A,Glance N S. Evolutionary games and computer simulations [J]. Proceedings of the National Academy Sciences,1993,(3):7716-7718. [4]Doz Y L. The evolution of cooperation in strategic alliances: initial conditions or learning processes? [J]. Strategic Management Journal,1996,17(s1):55-83. [5]Gómez-Gardenes J,Reinares I,Arenas A,et al. Evolution of cooperation in multiplex networks [J]. Scientific Reports,2012,2:620. [6]Santos F C,Pinheiro F L,Lenaerts T,et al. The role of diversity in the evolution of cooperation [J]. Journal of Theoretical Biology,2011,299:88-96.[7]王先甲,全吉,劉偉兵. 有限理性下的演化博弈與合作機制研究 [J]. 系統工程理論與實踐,2011, 31(S1): 82-93. Wang Xianjia,Quan Ji,Liu Weibing.Research on evolutionary garne and cooperation mechanism under bounded rationality[J].System Engineering Theory & Practice,2011,31(S1):82-93. [8]楊陽,榮智海,李翔. 復雜網絡演化博弈理論研究綜述 [J]. 復雜系統與復雜性科學,2008,5(4):47-55. Yang Yang,Rong Zhihai,Li Xiang,A review of the evolution game theory of complex networks[J].Complex Systems and Complexity Science,2008,5(4):47-55. [9]Wu J,Axelrod R. How to cope with noise in the Iterated Prisoner’s Dilemma [J]. The Journal of Conflict Resolution,1995,39(1):183-189. [10] Axelrod R,Dion D. The further evolution of cooperation [J]. Science,1988,242(4884):1385-1390. [11] Nowak M,Sigmund K. Tit for tat in heterogeneous populations [J]. Nature,1992,355(6357):250-253. [12] Sugden R. The Evolution of Rights, Co-operation and Welfare[M]. Oxford: Blackwell,1986. [13] Boyd, R. Mistakes allow evolutionary stability in the repeated prisoner's dilemma game [J]. Journal of Theoretical Biology,1989,136(1):47-56.[14] Kraines D,Kraines V. Pavlov and the prisoner’s dilemma [J]. Theory and Decision,1989,26(3):47-79. [15] Kraines D,Kraines V. Learning to cooperate with pavlov an adaptive strategy for the iterated prisoner’s dilemma with noise [J]. Theory and Decision,1993,35:107-150. [16] Imhof L A,Fudenberg D,Nowak M. Tit-for-tat or Win-stay, Lose-shift? [J]. Theory of Bioloyg,2007,247(3):574-580. [17] Zhao X,Xia H,Yu H,et al. Agents’ cooperation based on long-term reciprocal altruism[C]//Proceedings of the 25th International Conference on Industrial Engineering and Other Applications of Applied Intelligent Systems,2012,689-698. [18] Nowak M,Sigmund K. A strategy of win-stay, lose-shift that outperforms tit-for-tat in the Prisoner's Dilemma game [J]. Nature,1993,364(6432):56-58. [19] Hamilton A R.The Evolution of Cooperation[M]. New York:Basic Books,1984. [20] Molander P. The optimal level of generosity in a selfish, uncertain environment [J]. The Journal of Conflict Resolution,1985,29(4):611-618. [21] Zhang G Q,Sun Q B,Wang L. Noise-induced enhancement of network reciprocity in social dilemmas [J]. Chaos Solitons & Fractals,2013,3(3):31-35. [22] Yao Y,Chen S S. Multiplicative noise enhances spatial reciprocity [J]. Physica A,2014,413:432-437. (責任編輯 耿金花) Effects of Noise and Interaction Frequency on the Evolution of Cooperative Strategies ZHAO Xiaoweia,b,XIA Haoxianga,ZHANG Xiaob (a.Institute of Systems Engineering; b.School of Software Technology,Dalian University of Technology,Dalian 116024,China) Prisoner’s dilemma is an important tool to study the adaptation of cooperative strategies. Individuals can maximize their profits by cooperating with each other. In this paper, the method of ecological simulation is adopted to study the effects of noise and interaction frequency on the evolution of cooperative strategies in the context of the Noisy Iterated Prisoner’s Dilemma (NIPD), a version of the Iterated Prisoner’s Dilemma (IPD). The results illustrate that noise and interaction frequency are important factors to the surviving strategies. prisoner’s dilemma;evolution of cooperation;noise;evolution of strategies 10.13306/j.1672-3813.2016.04.013 2015 -04 -08; 2015-09-22 國家自然科學基金(71371040);中央高校基本科研業務費專項資金(DUT15QY40) 趙小薇(1978-),女,遼寧大連人,博士研究生,講師,主要研究方向為演化博弈論、系統科學與系統工程。 F224.32; N94 A2 仿真與結果分析

3 結論
