過往策略偏向選擇機(jī)制對合作的影響研究

2020-01-14 09:50:22盛津芳沈玉鵬孫澤軍

小型微型計(jì)算機(jī)系統(tǒng) 2019年12期

關(guān)鍵詞：水平策略

盛津芳,沈玉鵬,王凱,孫澤軍

(中南大學(xué) 計(jì)算機(jī)學(xué)院，長沙 410083)

1 引言

演化博弈論為研究自私個(gè)體之間的合作行為提供了有力的理論框架[1,2],目前在生物學(xué)、經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)等諸多學(xué)科里有著非常廣泛的應(yīng)用[3-7].在經(jīng)典博弈論中,參與博弈的個(gè)體是完全理性的,個(gè)體為了最大化自身利益選擇相應(yīng)的策略.演化博弈論將經(jīng)典博弈論與生物學(xué)中的演化思想相結(jié)合,博弈個(gè)體是非完全理性的,在多次博弈過程中,通過不斷的學(xué)習(xí),來選擇最適合自身的策略.常見的博弈模型有囚徒困境博弈[8,9],雪堆博弈[10]和公共物品博弈[11]等.其中,囚徒困境模型得到了最廣泛的應(yīng)用,成為了研究合作演化的經(jīng)典模型.

在囚徒困境模型中,對于參與博弈的個(gè)體而言,通常背叛是一個(gè)比較好的策略,因?yàn)椴挥脼槠渌麄€(gè)體提供收益,并且選擇背叛可以從合作者那里獲得更高的收益.但是合作行為仍然會出現(xiàn).因此,許多機(jī)制被提了出來,用來解釋合作產(chǎn)生和維持的原因,比如直接和間接互惠[12-14],遷移[15],懲罰和獎勵(lì)[16,17]等等.同時(shí)復(fù)雜網(wǎng)絡(luò)也為描述合作演化上的拓?fù)浣Y(jié)構(gòu)提供了非常方便的框架,比如方格網(wǎng)絡(luò)[18,19],隨機(jī)網(wǎng)絡(luò),無標(biāo)度網(wǎng)絡(luò)[20]和小世界網(wǎng)絡(luò)[21]等等.在圖論中,節(jié)點(diǎn)表示參與博弈的個(gè)體,節(jié)點(diǎn)之間的連邊表示個(gè)體之間存在聯(lián)系,每個(gè)節(jié)點(diǎn)可以與相連的鄰居發(fā)生博弈.參與博弈的個(gè)體可能會有不同的特點(diǎn),而合作水平受到很多因素的影響.例如以前的研究表明有些個(gè)體的某些特點(diǎn)將會對合作水平產(chǎn)生很重大的影響,如名譽(yù)[22]、年齡結(jié)構(gòu)[23]、學(xué)習(xí)能力等等[24].

在大多數(shù)以前的研究中,都認(rèn)為參與博弈的個(gè)體沒有記憶能力.個(gè)體在更新自己的策略時(shí),僅根據(jù)當(dāng)前的情況來決定自己的策略,不考慮過往的經(jīng)驗(yàn).但在現(xiàn)實(shí)社會中,個(gè)體都擁有記憶能力,并且在做決策時(shí)過往的經(jīng)驗(yàn)會有很重要的作用.因此,過往的經(jīng)驗(yàn)對于當(dāng)前的博弈會存在一定的影響.除此之外,過往研究中個(gè)體在選擇博弈鄰居時(shí)往往通過隨機(jī)的方式來選擇本次博弈的鄰居,但是在現(xiàn)實(shí)社會中個(gè)體在進(jìn)行選擇時(shí)往往具有某種偏向性.對于一種給定的情況,個(gè)體的不同鄰居對這個(gè)個(gè)體的吸引力是不同的,因此個(gè)體在選擇鄰居進(jìn)行博弈時(shí)應(yīng)該具有某種偏向性.

文獻(xiàn)[25]研究了基于記憶的雪堆博弈.在每輪博弈時(shí),每個(gè)節(jié)點(diǎn)都根據(jù)當(dāng)前相反的策略去獲得一個(gè)對應(yīng)的虛擬收益,將虛擬收益與現(xiàn)在的實(shí)際收益進(jìn)行比較,然后將能獲得最大收益的策略存入記憶區(qū).每輪迭代結(jié)束后,所有節(jié)點(diǎn)根據(jù)自身記憶區(qū)中的過往策略決定選擇合作還是背叛,記憶區(qū)過往策略集合中合作策略越多,節(jié)點(diǎn)選擇合作策略的可能性就越高.但是該文獻(xiàn)忽視了個(gè)體以往的記憶對當(dāng)前博弈鄰居選擇的影響.文獻(xiàn)[26]研究了基于節(jié)點(diǎn)度的偏向選擇對囚徒困境博弈合作水平的影響,他們發(fā)現(xiàn)節(jié)點(diǎn)偏向選擇跟自己度差異較小的鄰居進(jìn)行博弈時(shí),合作水平被抑制,而當(dāng)節(jié)點(diǎn)偏向選擇跟自己度數(shù)差異較大的鄰居進(jìn)行博弈時(shí),合作水平被提高.但該文獻(xiàn)僅根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來考慮鄰居對當(dāng)前節(jié)點(diǎn)的吸引力,未考慮到過往經(jīng)驗(yàn)對個(gè)體的影響.

本文提出了一種基于個(gè)體記憶及個(gè)體過往策略相似度的偏向選擇機(jī)制,并研究了該偏向選擇機(jī)制對合作水平的影響.特別地,提出了記憶區(qū)長度M和偏向參數(shù)α.在實(shí)際生活中,人們的記憶能力是有限制的,記憶區(qū)長度M表示了博弈個(gè)體對以往策略記憶的能力,M越大表示博弈個(gè)體對以往策略的記憶能力越強(qiáng).同時(shí)在實(shí)際生活中存在著“物以類聚人以群分”的現(xiàn)象,由于不同的人有不同的決策風(fēng)格,比較相似的人會更容易相聚成群.但是也存在有些人更愿意去接近那些與自己做事風(fēng)格不同的人,因此提出了偏向參數(shù)α,用來表示個(gè)體偏向選擇概率與過往策略相似度的相關(guān)性.

2 模型

2.1 預(yù)備知識

在經(jīng)典的囚徒困境模型中,兩名博弈對象必須同時(shí)決定自己的策略:合作(C)或者背叛(D).如果兩個(gè)博弈對象同時(shí)選擇合作,那么兩個(gè)博弈對象都將獲得收益R.如果兩個(gè)博弈對象同時(shí)選擇背叛,則兩人都將獲得收益P.如果一個(gè)博弈對象選擇合作而另一個(gè)博弈對象選擇背叛,選擇背叛的博弈對象將獲得收益T,而選擇合作的博弈對象將獲得收益S.囚徒困境模型要同時(shí)滿足T>R>P>S和2R>T+S兩個(gè)條件才成立.對應(yīng)的收益矩陣如下:

2.2 帶偏向選擇機(jī)制的博弈模型

本文使用空間囚徒困境博弈模型,在該模型中,每個(gè)個(gè)體占據(jù)具有周期性邊界條件的L×L方格網(wǎng)絡(luò)中的一個(gè)格子.并且本文使用弱囚徒困境博弈模型[27],收益參數(shù)設(shè)置為R=1,T=b,P=S=0.b的取值范圍為1

初始化時(shí),所有節(jié)點(diǎn)按照相同的概率被初始化為合作者或背叛者.之后所有節(jié)點(diǎn)將按照隨機(jī)順序依次更新自己的策略.

在選擇博弈鄰居時(shí),節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇鄰居節(jié)點(diǎn)作為本次的博弈對象,節(jié)點(diǎn)i選擇自己的鄰居j作為博弈對象的概率由公式(1)確定:

(1)

其中,Ω表示節(jié)點(diǎn)i的鄰居集合.α表示節(jié)點(diǎn)偏向選擇概率與策略相似度的相關(guān)性.由公式(1)可知,當(dāng)α>0時(shí),節(jié)點(diǎn)偏向于選擇與自己過往策略相似度較大的鄰居,當(dāng)α進(jìn)一步增大時(shí),節(jié)點(diǎn)對與自己過往策略相似度較大的鄰居的偏向性會被進(jìn)一步增強(qiáng).當(dāng)α<0時(shí),節(jié)點(diǎn)偏向于選擇與自己過往策略相似度差異較大的鄰居.當(dāng)α=0時(shí),節(jié)點(diǎn)的所有鄰居對其吸引力相同,節(jié)點(diǎn)相當(dāng)于隨機(jī)選擇鄰居進(jìn)行博弈,此時(shí)記憶區(qū)長度M沒有起作用.S(i,j)用來表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的過往策略相似度,S(i,j)定義如公式(2)所示.

(2)

公式(2)中M為記憶區(qū)長度,表示博弈個(gè)體的記憶能力強(qiáng)弱程度.當(dāng)M=0時(shí),表示節(jié)點(diǎn)沒有記憶能力,此時(shí)節(jié)點(diǎn)之間無法計(jì)算相互之間的過往策略相似度,在選擇博弈鄰居時(shí)不具有偏向性,而是隨機(jī)選擇鄰居進(jìn)行博弈.當(dāng)M>0時(shí),節(jié)點(diǎn)擁有記憶能力.初始化時(shí)節(jié)點(diǎn)記憶區(qū)為空,節(jié)點(diǎn)第一次博弈時(shí)隨機(jī)選擇鄰居進(jìn)行博弈.當(dāng)進(jìn)行一次博弈之后,記憶區(qū)中開始存在過往策略,隨后節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇博弈鄰居.當(dāng)記憶區(qū)中存儲的過往策略數(shù)量達(dá)到所設(shè)定的記憶區(qū)長度時(shí),之后每次加入新的記憶,都將丟棄距離現(xiàn)在最遠(yuǎn)的策略記錄,以此來保證記憶區(qū)長度不超過預(yù)先的設(shè)定值.在節(jié)點(diǎn)i與節(jié)點(diǎn)j的記憶區(qū)中,如果兩節(jié)點(diǎn)的過往策略的對應(yīng)位置相同,則Δn(m)=1,否則Δn(m)=0.如當(dāng)節(jié)點(diǎn)i的記憶區(qū)為(C,D,C),節(jié)點(diǎn)j的記憶區(qū)為(C,D,D),節(jié)點(diǎn)k的記憶區(qū)為(D,C,D)時(shí),節(jié)點(diǎn)i與節(jié)點(diǎn)j的過往策略相似度為2,節(jié)點(diǎn)i與節(jié)點(diǎn)k的過往策略相似度為0.相似度公式表明了節(jié)點(diǎn)之間過往策略的相似程度.

在博弈時(shí),節(jié)點(diǎn)i將自己的策略替換為鄰居j的策略的概率由費(fèi)米準(zhǔn)則[27]確定,費(fèi)米準(zhǔn)則充分考慮了參與博弈的個(gè)體不是完全理性的這一特點(diǎn),同時(shí)費(fèi)米準(zhǔn)則體現(xiàn)了一種學(xué)習(xí)行為.在費(fèi)米準(zhǔn)則中,博弈個(gè)體根據(jù)雙方的收益來決定自己是否學(xué)習(xí)對方的策略.如果對方的收益比較高,則認(rèn)為對方的策略是一種比較成功的策略,自己將會有較大的概率學(xué)習(xí).費(fèi)米準(zhǔn)則如公式(3)所示.

(3)

在本文中,K的取值為0.1,表示參與博弈的個(gè)體具有較小程度的不理性行為.當(dāng)節(jié)點(diǎn)i的收益小于節(jié)點(diǎn)j的收益時(shí),節(jié)點(diǎn)i有較大的概率將自己的策略替換為節(jié)點(diǎn)j的策略,但同時(shí)也有較小的概率選擇不理性行為,保持自身策略不變.

2.3 演化博弈過程

每輪博弈由以下3部分組成:

1)節(jié)點(diǎn)根據(jù)偏向選擇機(jī)制選擇鄰居;

2)當(dāng)前更新節(jié)點(diǎn)與被選擇的鄰居分別計(jì)算自己的總收益;

3)根據(jù)費(fèi)米準(zhǔn)則更新當(dāng)前節(jié)點(diǎn)的策略.演化博弈的具體過程如算法1所示.

算法1.演化博弈的具體過程

步驟1.節(jié)點(diǎn)i根據(jù)偏向選擇鄰居j

步驟2.節(jié)點(diǎn)i和鄰居j計(jì)算各自的總收益

步驟3.節(jié)點(diǎn)i將當(dāng)前策略存入記憶區(qū)

步驟4.節(jié)點(diǎn)i以W(si←sj)的概率同步更新自己的策略

算法1中,步驟1根據(jù)公式(1)選擇博弈鄰居.步驟4根據(jù)公式(3)計(jì)算節(jié)點(diǎn)i更新策略的概率.

3 實(shí)驗(yàn)及結(jié)果分析

本文使用蒙特卡羅仿真來對演化博弈進(jìn)行研究,每次實(shí)驗(yàn)均由一系列蒙特卡羅時(shí)間步組成.網(wǎng)絡(luò)規(guī)模為50×50.并用合作者數(shù)量占所有博弈個(gè)體數(shù)量的比例來表示合作水平Fc.為了獲得穩(wěn)定的結(jié)果,每次實(shí)驗(yàn)均由5000蒙特卡羅時(shí)間步組成,并取最后1000次結(jié)果的平均值作為實(shí)驗(yàn)結(jié)果.

3.1 偏向選擇機(jī)制對合作水平的影響

圖1展示了在不同記憶區(qū)長度M和不同偏向參數(shù)α下合作水平Fc和背叛誘惑b的關(guān)系,將Fc作為b的函數(shù).在圖1(a)中,α=-1;在圖1(b)中,α=1;在圖1(c)中,α=4.每張圖中記憶區(qū)長度M均有四種取值.當(dāng)M=0時(shí),表示個(gè)體的記憶區(qū)長度為0,個(gè)體沒有記憶能力,此時(shí)個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈.因此,圖1(a)-圖1(c)中M=0所對應(yīng)的合作水平曲線基本相同.

圖1 合作水平Fc作為背叛誘惑b的函數(shù)Fig.1 Fraction of cooperators Fc as a function of the temptation to defect b

在圖1(a)中,當(dāng)α=-1時(shí),M=0對應(yīng)的合作水平高于其他的幾個(gè)M>0對應(yīng)的合作水平.當(dāng)M=1時(shí),合作水平達(dá)到最低值,之后隨著M的增加,合作水平也對應(yīng)有所增加,逐漸接近M=0所對應(yīng)的合作水平,但始終低于M=0所對應(yīng)的合作水平.可以看出,在選擇博弈對象時(shí),偏向選擇跟圖1 合作水平Fc作為背叛誘惑b的函數(shù)自己過往策略差異較大的鄰居會降低合作水平.雖然隨著記憶區(qū)長度的增加,合作水平會有所提高,但是無論記憶區(qū)長度如何,合作始終受到抑制.在圖1(b)中,M=0所對應(yīng)的合作水平為最低,M=1所對應(yīng)的合作水平為最高.當(dāng)M進(jìn)一步增大時(shí),如3和10,合作水平開始略微降低,但始終高于M=0所對應(yīng)的合作水平.

在圖1(c)中,與圖1(b)類似的是當(dāng)M>0時(shí),合作水平有非常明顯的提高.不同的是,M=1所對應(yīng)的合作水平并不是最高的,當(dāng)3時(shí),合作水平有進(jìn)一步的增加,當(dāng)M=10時(shí),合作水平開始降低,甚至低于M=1時(shí)的合作水平,但始終高于M=0時(shí)所對應(yīng)的合作水平.即,隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢.由此可以得出結(jié)論,當(dāng)個(gè)體擁有記憶能力以后,由于偏向選擇機(jī)制的影響,當(dāng)個(gè)體偏向于選擇和自己過往策略更相似的鄰居進(jìn)行博弈時(shí),可以促進(jìn)合作.同時(shí)對比圖1(b)和圖1(c)可以看出,當(dāng)α增大時(shí),合作水平也有所增加.并且對于不同的α>0,都存在一個(gè)記憶區(qū)長度使合作水平達(dá)到最大值.

本文根據(jù)現(xiàn)實(shí)社會的現(xiàn)象來解釋為什么個(gè)體偏向于選擇與自己過往策略比較相似的鄰居進(jìn)行博弈時(shí)能促進(jìn)合作.當(dāng)博弈雙方記憶區(qū)的過往策略相似度比較高時(shí),可以認(rèn)為這兩個(gè)個(gè)體在某些方面有一些相似性,導(dǎo)致他們在同一時(shí)刻容易做出相同的策略,那么博弈雙方當(dāng)前策略相同的可能性也比較大.因此偏向選擇機(jī)制在一定程度上能增加合作者和合作者相遇的概率,降低合作者和背叛者相遇的概率.當(dāng)合作者和合作者相遇時(shí),雙方都不會轉(zhuǎn)變?yōu)楸撑颜?仍然能互相提供收益.但是即使背叛者和背叛者相遇,背叛者也不能從背叛者那里獲得任何收益,因此基于過往策略相似度的偏向選擇機(jī)制在一定程度上有利于合作者的存活.

圖2 不同背叛誘惑下的策略分布Fig.2 Strategy distribution under different temptation

為了驗(yàn)證之前的想法,圖2中展示了基于隨機(jī)選擇和基于偏向選擇博弈鄰居兩種機(jī)制下博弈雙方的策略分布.由當(dāng)前博弈個(gè)體與博弈鄰居雙方的策略組成策略對,共有四種策略對,為別為CC,CD,DC,DD(比如,CC表示本次更新節(jié)點(diǎn)和選擇的博弈居的策略都為合作).在一次仿真后,將會產(chǎn)生許多策略對,圖中展示了在不同背叛誘惑b下,每一種策略對數(shù)量占所有策略對數(shù)量的比例情況.

從圖2(a)和圖2(b)中可以看出,相對于隨機(jī)選擇,當(dāng)個(gè)體偏向于選擇與自己過往策略更加相似的鄰居進(jìn)行博弈時(shí),合作者與合作者相遇的頻率明顯增高,而背叛者和背叛者相遇的頻率明顯下降.可見該偏向選擇機(jī)制在很大程度上增大了合作者和合作者相遇的概率,由于合作者和合作者相遇不會產(chǎn)生背叛者,因此偏向選擇與自己過往策略更加相似的鄰居進(jìn)行博弈時(shí)有利于保證合作者的存活,從而提高合作水平.

從圖2(c)和圖2(d)中可以看出,在偏向選擇機(jī)制的作用下,合作者和背叛者相遇的頻率總體情況下明顯降低.但是在某些區(qū)間里,如b∈(1.04,1.07)時(shí),基于偏向選擇機(jī)制進(jìn)行博弈時(shí)合作者和背叛者相遇的頻率反而略微高于基于隨機(jī)選擇策略下合作者和背叛者相遇的頻率.這是由于在演化博弈初始階段,合作水平處于下降的趨勢,因?yàn)榇藭r(shí)合作者和背叛者以同等概率初始化,合作者均勻分布在方格網(wǎng)絡(luò)中,相互之間無法提供收益,這并不利于合作者存活.所以演化博弈初始階段有很多合作者會轉(zhuǎn)變?yōu)楸撑颜?之后隨著迭代次數(shù)的增加,合作者形成小的合作者社區(qū),相互之間能提供收益,合作者社區(qū)開始向外擴(kuò)張,直到達(dá)到穩(wěn)定狀態(tài).

在b>1.07時(shí),由于背叛誘惑b較大,很快所有節(jié)點(diǎn)都成為了背叛者,因此合作者和背叛者相遇的次數(shù)較少.而在b∈(1.04,1.07)時(shí),考慮個(gè)體記憶區(qū)為空時(shí)的情況,由于個(gè)體之間無法比較過往策略,因此當(dāng)前博弈個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈,此時(shí)將會有一部分個(gè)體轉(zhuǎn)變?yōu)楸撑颜?這些轉(zhuǎn)變?yōu)楸撑颜叩膫€(gè)體記憶區(qū)中的過往策略為合作,這反而在一定程度上增加了之后迭代中合作者和背叛者相遇的概率.而在合作者之間形成小的合作者社區(qū)之后,合作者社區(qū)開始向外擴(kuò)張,有些背叛者以一種較小的概率遇到合作者,此時(shí)合作者由于相互之間能提供收益,所以合作者的收益將遠(yuǎn)大于背叛者,背叛者將會以一種較高的概率轉(zhuǎn)變?yōu)楹献髡?但是這些由背叛者轉(zhuǎn)變的合作者的過往策略會與背叛者更加類似,此時(shí)又進(jìn)一步增大了合作者和背叛者相遇的概率.

總體來說,偏向選擇過往策略更相似的博弈鄰居可以增加合作者和合作者相遇的概率,合作者和合作者相遇不會產(chǎn)生背叛者,同時(shí)偏向選擇機(jī)制降低合作者和背叛者相遇的概率,這在一定程度上保證了合作者的存活,由此可以提高合作水平.同時(shí)還可以看出,基于記憶及過往策略相似度的偏向選擇機(jī)制對演化博弈過程產(chǎn)生了影響.

3.2 負(fù)相關(guān)性偏向選擇對合作的影響

為了更加深入的研究負(fù)相關(guān)性的偏向選擇對合作的影響,圖3展示了使部分節(jié)點(diǎn)按負(fù)相關(guān)性偏向選擇鄰居時(shí),合作水平Fc與背叛誘惑b的關(guān)系,將Fc作為b的函數(shù),節(jié)點(diǎn)在偏向選擇鄰居時(shí),記憶區(qū)長度M有若干固定取值.使合作者偏向于選擇過往策略差異更大的鄰居,背叛者隨機(jī)選擇鄰居,結(jié)果如圖3(a)所示.使背叛者偏向于選擇過往策略差異更大的鄰居,合作者隨機(jī)選擇鄰居,結(jié)果如圖3(b)所示.當(dāng)博弈節(jié)點(diǎn)按公式(1)以負(fù)相關(guān)性偏向選擇鄰居時(shí),偏向參數(shù)α的取值均為-1.

在圖3(a)和圖3(b)中,M=0表示個(gè)體沒有記憶能力,該曲線為所有節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈時(shí),合作水平Fc和背叛誘惑b之間的關(guān)系.

在圖3(a)中,M=0所對應(yīng)的合作水平曲線最高,M=1所對應(yīng)的合作水平曲線最低,當(dāng)M增大時(shí),如圖M=3和M=10所對應(yīng)的合作水平曲線,合作水平有略微的增加,但總體來說,合作受到抑制.

圖3 負(fù)相關(guān)性偏向選擇對合作的影響Fig.3 Influence of negative preferential selection on cooperation

在圖3(b)中,M=0所對應(yīng)的合作水平曲線最低,M=1所對應(yīng)的合作水平曲線最高,合作受到較大的促進(jìn)作用,當(dāng)M進(jìn)一步增大時(shí),如圖M=3和M=10所對應(yīng)的合作水平曲線,合作受到的促進(jìn)作用有略微的減小,但合作仍然受到了促進(jìn),合作水平有所提升.

綜合上述討論,可以看出,當(dāng)節(jié)點(diǎn)偏向選擇過往策略差異更大的鄰居進(jìn)行博弈時(shí),并不一定會抑制合作.如果僅讓背叛者偏向于選擇過往策略差異較大的鄰居進(jìn)行博弈,對合作有一定的促進(jìn)作用.

3.3 偏向選擇機(jī)制對演化博弈過程的影響

之前已經(jīng)知道偏向選擇機(jī)制對博弈演化過程產(chǎn)生了影響,為了更加清晰地展現(xiàn)博弈的演化過程,圖4展示了演化博弈在不同迭代次數(shù)時(shí),合作水平的快照.其中,b=1.02,黑色表示合作者,白色表示背叛者.初始化時(shí)合作者和背叛者被均勻地分散到方格網(wǎng)絡(luò)中,即每個(gè)節(jié)點(diǎn)有同等的概率成為合作者或者背叛者.圖4(a)-圖4(e)是基于隨機(jī)選擇機(jī)制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照,圖4(f)-4(j)是基于偏向選擇機(jī)制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照.

圖4 演化博弈過程快照Fig.4 Snapshot during the evolutionary game process

觀察從圖4(a)-圖4(e)以及從圖4(f)-圖4(j)整個(gè)博弈過程中合作者的分布以及數(shù)量情況,可以看出,無論是隨機(jī)選擇博弈鄰居,還是偏向選擇博弈鄰居,合作水平都呈現(xiàn)出相同的趨勢,即合作水平首先降低,然后又增加,同時(shí)合作者從初始時(shí)的分散狀態(tài)慢慢聚集到了一起.這是由于初始化時(shí)合作者被均勻分散開,合作者之間不能互相提供收益,由于收益較低,合作者更傾向于學(xué)習(xí)擁有高收益的背叛者的策略.隨著迭代次數(shù)的增加,合作者逐漸變少,但是有些合作者已經(jīng)形成了合作者社區(qū),這些合作者之間可以互相提供收益,由于合作者相互提供相助而獲得的高收益,使其不僅能抵御外部背叛者的入侵,還使得背叛者開始學(xué)習(xí)擁有高收益的合作者的策略.因此合作者社區(qū)開始向外擴(kuò)張,合作水平開始提升.

不同的是,對比圖4(b)和圖4(c),圖4(c)中黑色區(qū)域開始擴(kuò)大,可見在隨機(jī)選擇機(jī)制下的演化博弈在t=10時(shí)合作水平達(dá)到最低,在t=50時(shí)合作者社區(qū)已經(jīng)開始向外擴(kuò)張,合作水平有所提高.而對比圖4(g)和圖4(h),圖4(h)中黑色區(qū)域有進(jìn)一步的縮小,但是黑色區(qū)域變的更加集中,在圖4(i)中黑色區(qū)域才開始擴(kuò)張.也就是說,在偏向選擇機(jī)制下的演化博弈在t=50時(shí)合作水平才達(dá)到最低.這對應(yīng)之前所說的在演化博弈初始階段,由于合作者還沒有形成小的合作者社區(qū),有些合作者容易轉(zhuǎn)變?yōu)楸撑颜?但其記憶區(qū)中的過往策略與其他的合作者比較相似,此時(shí)偏向選擇機(jī)制反而增加了合作者和背叛者相遇的概率,由此造成演化博弈初始階段合作者社區(qū)形成的更慢.可以得出結(jié)論,基于記憶區(qū)和過往策略相似度的偏向選擇機(jī)制會對演化博弈過程造成影響,使得合作者之間需要更長的時(shí)間來形成合作者社區(qū).同時(shí)可以看出,由于偏向選擇機(jī)制的作用,合作水平有明顯的提升.

3.4 記憶區(qū)長度M對合作水平的影響

圖5展示了當(dāng)偏向參數(shù)α的取值一定時(shí),記憶區(qū)長度M對合作水平Fc的影響,將Fc作為M的函數(shù).兩個(gè)圖中α均有若干個(gè)取值.圖5(a)中,b=1.01,圖5(b)中,b=1.02.

圖5 合作水平Fc作為記憶區(qū)長度M的函數(shù)Fig.5 Fc as a function of M

當(dāng)α=0時(shí),個(gè)體的所有鄰居被選擇的概率相同,此時(shí)的偏向選擇等同于隨機(jī)選擇,不同的記憶區(qū)長度并沒有對合作水平造成影響,因此在兩圖中α=0所對應(yīng)的合作水平不隨著M的變化而變化,幾乎為一條水平的直線.而對于不同的α,當(dāng)M=0時(shí),個(gè)體沒有記憶能力,此時(shí)個(gè)體也通過隨機(jī)的方式選擇鄰居進(jìn)行博弈,因此兩圖中,當(dāng)M=0時(shí),不同的α所對應(yīng)的曲線交于一點(diǎn).

當(dāng)α<0時(shí),合作水平在M=0時(shí)達(dá)到最高,此時(shí)節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈.而當(dāng)M=1時(shí),合作水平達(dá)到最低,之后隨著M的增加,合作水平緩慢提高,但始終低于M=0時(shí)對應(yīng)的合作水平.

當(dāng)α>0時(shí),隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢,存在一個(gè)M使得合作水平達(dá)到最高值.同時(shí)可以看出,對于不同的α,合作水平達(dá)到峰值時(shí)所對應(yīng)的M取值是不同的.如圖5(b)中,當(dāng)α=0時(shí),Fc在M=1處達(dá)到最大值,當(dāng)α=4時(shí),Fc在M=4處達(dá)到最大值,當(dāng)α的取值在合適的范圍內(nèi)增大時(shí),合作水平達(dá)到最大值所對應(yīng)的M也會相應(yīng)增大.

但是當(dāng)α繼續(xù)增大,如圖5(a)和圖5(b)中,α=5所對應(yīng)的曲線反而比α=4所對應(yīng)的曲線要低,合作水平有所降低.當(dāng)α大于一定值時(shí),可以認(rèn)為此時(shí)節(jié)點(diǎn)的偏向選擇不是以更高的概率選擇過往策略更相似的鄰居,而是直接選擇過往策略最相似的鄰居.因此,考慮個(gè)體直接選擇與自己過往策略最相似的鄰居時(shí)的情況,結(jié)果如圖5(a)和圖5(b)中α=+∞所對應(yīng)的曲線,該曲線處于所有曲線的下方.可以看出,博弈個(gè)體直接選擇與自己過往策略最相似的鄰居并不利于提升合作.因此得出結(jié)論,在偏向選擇與自己過往策略更相似的前提下,以較小的概率選擇其他鄰居可以提高合作水平.

3.5 偏向參數(shù)α對合作水平的影響

從圖5可以看出合作水平Fc并不隨著α線性增大,為了進(jìn)一步查看偏向參數(shù)α對合作水平Fc的影響,圖6展示了當(dāng)記憶區(qū)長度M的取值一定時(shí),偏向參數(shù)α對合作水平Fc的影響,將Fc作為α的函數(shù).兩個(gè)圖中M均有若干個(gè)取值.圖6(a)中,b=1.01,圖6(b)中,b=1.02.

圖6 合作水平Fc作為偏向參數(shù)α的函數(shù)Fig.6 Fc as a function of α

當(dāng)α=0時(shí),節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈,因此兩圖中,不同的曲線在α=0處交于同一點(diǎn).當(dāng)M=0時(shí),個(gè)體隨機(jī)選擇鄰居進(jìn)行博弈,α沒有起作用,因此兩圖中M=0所對應(yīng)的合作水平不隨著α的變化而變化,幾乎為一條水平的直線.而當(dāng)M>0時(shí),α對合作水平產(chǎn)生了影響.當(dāng)α<0時(shí),M>0所對應(yīng)的曲線均處于水平線的下方,合作被抑制.而當(dāng)α>0時(shí),合作水平首先升高又降低.當(dāng)α的取值在合適的范圍時(shí),如兩圖中α∈(0.6)時(shí),M>0所對應(yīng)的曲線均處于水平線的上方,該偏向選擇機(jī)制可以促進(jìn)合作.但當(dāng)α超過一定的范圍時(shí),如兩圖中,M=1,α=7時(shí),合作反而受到抑制.這對應(yīng)之前所獲得的結(jié)論,并不是選擇過往策略相似度最高的鄰居可以促進(jìn)合作,而是以一種比較高的概率選擇過往策略比較相似的鄰居時(shí),可以促進(jìn)合作.同時(shí)可以看出,對于不同的M>0,合作水平Fc均在α=4時(shí)達(dá)到最大值.

3.6 偏向參數(shù)α和記憶區(qū)長度M對演化博弈過程的影響

之前已經(jīng)得出結(jié)論,偏向選擇機(jī)制對演化博弈過程產(chǎn)生了影響.本文進(jìn)一步研究了M和α對演化博弈過程的影響,圖7展示了在不同的記憶區(qū)長度M和偏向參數(shù)α下合作水平Fc隨著迭代次數(shù)t的增加而變化的時(shí)序圖.圖7(a)中,b=1.02,M=3;圖7(b)中,b=1.02,α=3.在演化博弈過程中,在合作水平達(dá)到最小值時(shí),合作者社區(qū)已經(jīng)形成,隨后合作者社區(qū)開始向外擴(kuò)張,合作水平開始提升.使用Fcmin來表示演化博弈期間合作水平Fc所能達(dá)到的最小值.

從圖7(a)可以看出α=1和α=3的Fcmin來對應(yīng)的t大于α=0的Fcmin對應(yīng)的t,圖7(b)中M也呈現(xiàn)出了和α相同的規(guī)律,M=1和M=3的Fcmin對應(yīng)的t大于M=0的Fcmin對應(yīng)的t.當(dāng)M=0時(shí),節(jié)點(diǎn)沒有記憶能力,節(jié)點(diǎn)隨機(jī)選擇鄰居進(jìn)行博弈;當(dāng)α=0時(shí),節(jié)點(diǎn)的不同鄰居對節(jié)點(diǎn)的吸引力相同,節(jié)點(diǎn)也通過隨機(jī)的方式選擇鄰居進(jìn)行博弈.可以得出結(jié)論,在演化博弈過程中,節(jié)點(diǎn)偏向于選擇與自己過往策略更相似的鄰居會使合作者社區(qū)形成得更慢.

不同的是,在圖7(a)中,當(dāng)α從0增加到3時(shí),Fcmin對應(yīng)的t也顯著增加,且α=1和α=3所對應(yīng)的Fcmin的值幾乎相等.在圖7(b)中,M=1和M=3時(shí)Fcmin對應(yīng)的t相差很小,且M=1和M=3所對應(yīng)的Fcmin的值相差很大.也就是說,偏向參數(shù)α對合作者社區(qū)形成所需要的時(shí)間有較大的影響,但最終合作者社區(qū)形成時(shí),偏向參數(shù)α并不影響當(dāng)時(shí)的合作水平.而記憶區(qū)長度M與偏向參數(shù)α相反,記憶區(qū)長度M對合作者社區(qū)形成所需要的時(shí)間影響較小,但最終合作者社區(qū)形成時(shí),記憶區(qū)長度M對當(dāng)時(shí)的合作水平有較大影響.

圖7 α和M對演化博弈過程的影響Fig.7 Influence of α and M on the evolutionary game process

此外,從圖7(a)和圖7(b)中可以看出,在演化博弈達(dá)到穩(wěn)態(tài)時(shí),更大的α或更大的M對應(yīng)著更大的t,也對應(yīng)著更大的Fc.并且在圖7(a)中,不同的α對應(yīng)的Fc相差較大;在圖7(b)中,不同的M對應(yīng)的Fc相差較小.說明了當(dāng)記憶區(qū)長度M和偏向參數(shù)α在適當(dāng)?shù)膮^(qū)間內(nèi)增加時(shí),演化博弈達(dá)到穩(wěn)態(tài)所需要的時(shí)間更長,并且最終所能達(dá)到的合作水平更高,而偏向參數(shù)α對合作水平的影響要大于記憶區(qū)長度M對合作水平的影響.

4 結(jié) 論

本文提出了一種新的基于個(gè)體記憶以及個(gè)體過往策略相似度的偏向選擇機(jī)制,并且使用了囚徒困境博弈模型,在方格網(wǎng)絡(luò)上研究了該偏向選擇機(jī)制對合作的影響.結(jié)果顯示,當(dāng)偏向參數(shù)α>0且取值在合適的范圍內(nèi),即個(gè)體偏向選擇過往策略更相似的鄰居進(jìn)行博弈時(shí),合作水平有非常明顯的提高,而當(dāng)偏向參數(shù)α<0時(shí),即個(gè)體偏向選擇過往策略差異較大的鄰居進(jìn)行博弈時(shí),合作受到抑制.對于給定的α,存在M使合作水平達(dá)到最大值.同時(shí),該偏向選擇機(jī)制會增加演化博弈達(dá)到穩(wěn)態(tài)所需要的時(shí)間.并且α和M對演化博弈過程也有不同的影響.當(dāng)M一定,α變化時(shí),合作者社區(qū)形成得更慢,但并不影響合作者社區(qū)形成時(shí)的合作水平.而當(dāng)α一定,M變化時(shí),合作者社區(qū)形成所需要的時(shí)間相差不多,但當(dāng)合作者社區(qū)形成時(shí),合作水平會有很大的差別.