張可徑 曹奇英* 沈士根
1(東華大學計算機科學與技術學院 上海 201620)2(紹興文理學院計算機科學與工程系 浙江 紹興 312000)
基于演化博弈的WSNs攻防策略選擇動力學分析
張可徑1曹奇英1*沈士根2
1(東華大學計算機科學與技術學院 上海 201620)2(紹興文理學院計算機科學與工程系 浙江 紹興 312000)
針對無線傳感器網絡(WSNs)容易被惡意攻擊的問題,引入獎勵因子與懲罰因子,提出一種WSNs防御系統與惡意節點的博弈模型。通過對模型的量化分析,計算出博弈雙方的收益函數,根據復制動態原理,進行演化動力學分析。給出博弈雙方的演化穩定策略,揭示攻防雙方策略選擇的規律,為WSNs防御機制設計提供理論參考。數值實驗驗證了演化穩定策略命題的正確性和獎勵因子、懲罰因子的有效性。
無線傳感器網絡 惡意節點 演化博弈 復制動態
近年來,隨著通信技術的高速發展,無線傳感器網絡(WSNs)以其組網迅速、多跳、無需固定基礎設施等特點,在多個領域得到了廣泛的應用并成為學術界新的研究熱點。在一個無線傳感器網絡中,包含著許多傳感器節點,這些節點相互關聯構成了可以覆蓋一定區域的無線網絡。在無線傳感器網絡的監控區域中,通過節點間的數據傳輸,可以實時地感知、采集監控區域內的信息,并可以對這些信息加以處理,最后將處理結果返回給搭建好的遠程服務器。無線傳感器網絡的這些特性使其可以代替人力在惡劣的環境條件下完成工作任務,故在氣象監測、軍事等領域有著廣泛的應用。
要使得WSNs大規模應用到現實生活中來,安全問題是首先需要考慮的重要因素[1]。但由于無線傳感器通常被部署在開放、自然條件惡劣的環境中,容易遭到黑客的攻擊且不便于物理維護,這些安全問題大大限制了無線傳感器網絡的使用。姜偉等基于非合作博弈,提出一種新的網絡攻防博弈模型,并證明了該模型的可行性[2]。文獻[3]在WSNs中,針對攻防雙方提出了一種非對稱演化博弈模型,通過分析得出攻擊成本很大程度上影響著WSNs系統的安全性與穩定性。Chen等提出了一種基于演化博弈的動態激勵機制,促進節點之間相互合作,最終使節點收斂于合作狀態,以便于系統能更好的運行[4]。文獻[5]在無線傳感器網絡中提出了兩種路徑博弈,對內部節點和外部節點成本最低的路徑進行分析并計算出了它們的支付函數,最后通過實驗表明基于演化博弈理論的方案比起傳統方案更有優勢。文獻[6]提出了一種WSNs主動防御模型,使得節點可以動態地調整自己的策略,實現高效的防御。文獻[7]運用演化博弈理論,改進了現有的協議,有效地解決了負載平衡問題,成功地延長了網絡的生命周期。Farzaneh等提出了一種資源控制協議,并運用演化博弈加以分析論證,有效地節約了能源[8]。文獻[9]將演化博弈理論運用在DTNs(Delay Tolerant Networks)的防御當中,分析和促進網絡中節點的策略變化,達到防御的目的。文獻[10]運用博弈論,在無線傳感器網絡中對惡意攻擊進行建模,研究防范WSNs系統中的惡意節點和節點的自私行為。文獻[11]利用演化博弈理論,提出了一種傳感器節點自動調節保密率機制,為實現數據的保密傳輸提供了新思路。
本文運用演化博弈思想分析WSNs防御系統與惡意節點的攻防策略選擇動力學過程。同時在WSNs防御系統中引入獎勵與懲罰機制,揭示攻防雙方在動態博弈過程中獎勵、懲罰因子對惡意節點策略選擇的影響,總結其策略選擇變化規律。通過建立防御系統與惡意節點的演化博弈模型,反映雙方的收益得失,體現WSNs節點的有限理性和選擇策略的模仿性。利用復制動態理論,分析WSNs防御系統與惡意節點策略選擇的動態變化過程,找出攻防雙方的演化穩定策略。研究結果為WSNs系統安全機制的設計提供理論參考。
1.1 演化博弈論概述
演化博弈論源自于達爾文生物進化論,是將博弈理論與生物進化相結合而產生的一門新型理論,屬于博弈理論的一個分支。在博弈過程中,參與者可以根據自身的收益來動態地調整自己的策略,最終系統會達到一個平衡狀態,此時即使個別個體發生突變擾動,也不會對整體產生影響,體現的是一種動態的平衡。演化博弈理論當中包含兩個重要概念:(1) 復制動態理論;(2) 演化穩定策略。Taylor等提出了一種復制動態模型,目前此模型已經得到了廣泛應用[12]。該模型較為形象、清晰地揭示出自然界中群體行為的演化規律。將一個生物學中的物種看作一個群體,演化過程就像生物學中的優勝劣汰那樣,對一次博弈中收益較高的策略,在下一次博弈中將被更多的參與者選擇,繼續在群體中存在,反之將被淘汰。復制動態方程的本質是一個動態微分方程,它是某策略在博弈過程中被采用頻數的抽象表達,如式(1)所示:

(1)


演化博弈理論當中的納什均衡被稱為演化穩定策略 (ESS)[13],可以理解為系統處于納什均衡即能“消除變異個體”或“驅逐入侵個體”。即如果一個種群中所有個體都采用了某一策略,此時任何突變策略或外來策略都不能替代原策略,則稱此策略是演化穩定的。
1.2 WSNs的安全問題
鑒于無線傳感器節點的工作環境及自身有限的硬件資源,故WSNs的安全問題與傳統的計算機網絡有很大不同。如無線傳感器節點由于工作需要,經常被部署在一些相對開放、條件惡劣的環境中,部署成功后很難去進行物理維護與人為看守,工作過程中容易發生故障和遭到攻擊。由于無線傳感器節點自己的處理能力、存儲空間等都非常有限,導致一些成熟的安全協議難以應用其中,這就使WSNs安全面臨著更嚴峻的挑戰。
其面臨的主要安全問題包括:
(1) 節點的物理安全
無線傳感器節點通常被安置在自然條件惡劣的開放環境當中,使用過程中不易于人工維護,容易發生故障。而且處于這樣的環境中,節點很容易遭到黑客的攻擊而變成具有潛在攻擊威脅的惡意節點。
(2) 鏈路層的安全問題
鏈路層面臨的主要安全威脅是數據包在傳輸過程中被破壞,具體的攻擊方式有碰撞沖突,不公平競爭的拒絕服務攻擊等。
(3) 網絡層的安全問題
無線傳感器網絡之中的數據是直接由傳感器節點進行傳輸與轉發,沒有成熟的傳輸協議與有效的防范措施,使得在信息的傳輸過程中易被攻擊者攔截、篡改,造成損失。
2.1 模型描述

參與者“惡意節點”代表了WSNs中那些已經被攻擊者俘獲控制,具有潛在攻擊威脅的傳感器節點。“WSNs系統”實質是駐留在WSNs系統中的防御系統。圖1給出了“惡意節點”和“WSNs系統”之間的博弈過程。

圖1 參與者“惡意節點”和“WSNs系統”之間的博弈過程
為描述“WSNs惡意節點攻防博弈”的支付矩陣,記ω(ω>0)為一個傳感節點感知數據的價值,CD為WSNs系統啟動防御成本,P為WSNs系統攔截攻擊成功率,CA為惡意節點攻擊成本。當WSNs系統檢測出節點無攻擊動作時,將獎勵該節點收益αω,其中α為獎勵因子;當WSNs系統檢測到節點有攻擊動作時,將懲罰節點βω,其中β為懲罰因子。當惡意節點攻擊成功時將獲得收益ω,而WSNs系統損失ω;當WSNs系統防御成功時,由于保護了價值為ω的數據,將獲得收益ω,而惡意節點損失ω。
假設WSNs系統可以檢測到惡意節點的攻擊動作,考慮獎勵因子、懲罰因子對博弈過程的影響,若WSNs系統和惡意節點采用策略對(防御,攻擊),WSNs系統成功攔截攻擊獲得收益pω,攔截失敗損失(1-p)ω,故WSNs的支付為:
(2)
對惡意節點而言,攻擊成功獲得收益(1-p)ω,攻擊失敗損失pω,而攻擊動作被WSNs系統檢測到被懲罰βω,故惡意節點的支付為:
(3)
若WSNs系統和惡意節點采用策略對(防御,不攻擊),WSNs系統支付:
(4)
惡意節點因其正常工作,無攻擊動作而受到獎勵αω,其支付為:
(5)
若WSNs系統和惡意節點采用策略對(不防御,攻擊),WSNs系統支付:
(6)
惡意節點的支付為:
(7)
最后,若WSNs系統和惡意節點采用策略對(不防御,不攻擊),雙方的支付均為0。
根據上述分析,可得出WSNs防御系統與惡意節點的收益矩陣,如表1所示。

表1 “WSNs惡意節點攻防博弈”的支付矩陣
2.2 “WSNs惡意節點攻防博弈”動力學分析
記防御方之中選擇“防御”策略的個體占總體比例為X,攻擊方之中選擇“攻擊”策略的個體占總體比例為Y。由于是在傳感器節點有限理性這一前提下進行研究,故X、Y的值是隨時間不斷變化的,傳感節點通過學習其他節點以及自身收益的高低來調整策略,是一個不斷完善和進化的過程。
2.2.1 防御方策略選擇動力學分析
由表1,防御方選擇“防御”策略的期望收益:
E(Ud)=Y[(2P-1)ω-CD]+(1-Y)(-CD)=
(2P-1)Yω-CD
(8)
防御方選擇“不防御”策略的期望收益:
E(Und)=Y(-ω)=-Yω
(9)
防御方群體的平均期望收益:
X[(2P-1)Yω-CD]+(1-X)(-Yω)
(10)
所以,由式(1)可以得到防御方選擇“防御”策略群體比例的復制動態方程為:
X(1-X)(2PYω-CD)
(11)
2.2.2 攻擊方策略選擇動力學分析
由表1,攻擊方選擇“攻擊”策略的期望收益:
E(Ua)=X[(1-2P-β)ω-CA]+(1-X)(ω-CA)=
ω-(2P+β)Xω-CA
(12)
攻擊方選擇不攻擊策略的期望收益:
E(Una)=Xαω=αXω
(13)
攻擊方群體的平均收益:
Y[ω-(2P+β)Xω-CA]+(1-Y)αXω
(14)
所以,由式(1)可以得到攻擊方選擇“攻擊”策略群體比例的復制動態方程為:
Y(1-Y)[ω-(2P+α+β)Xω-CA]
(15)
2.3 “WSNs惡意節點攻防博弈”穩定性分析

2.3.1 WSNs系統策略選擇演化穩定性分析

根據以上的分析,分情況討論:



2.3.2 惡意節點策略選擇演化穩定性分析
類似于防御方的分析,分類討論:



實驗環境為Matlab R2012b,通過設置CD、CA、P、ω、α、β等參數不同的取值來驗證博弈過程中的演化穩定策略。由于篇幅有限,這里只驗證惡意節點策略選擇的穩定性,WSNs系統策略選擇穩定性的分析方法與惡意節點策略選擇的分析方法相同。
3.1 惡意節點策略選擇分析

(1) 當X的取值大于臨界值時,分別取X=0.90,X=0.75,X=0.60,實驗結果如圖2所示。

圖2 惡意節點策略選擇收斂曲線(1)
從圖2中可以得到,當X的取值大于臨界值0.2時,惡意節點不受數值微小變動的影響,最終都收斂到Y=0的狀態,即惡意節點都選擇“不攻擊”策略。實驗結果驗證了命題4并反映了X取值對惡意節點策略選擇收斂速度的影響,X取值越大,攻擊方收斂速度越快。
(2) 當X取值等于臨界值時,分別取臨界值附近數值0.21和0.19與其比較,實驗結果如圖3所示。

圖3 惡意節點策略選擇收斂曲線(2)
從圖3中可以得出,當X取值等于臨界值0.2時,惡意節點不能收斂于確定數值,無演化穩定策略。實驗結果驗證了命題5的正確性。
(3) 當X取值小于臨界值時,分別取X=0.15,X=0.10,X=0.05,實驗結果如圖4所示。

圖4 惡意節點策略選擇收斂曲線(3)
從圖4可以得出,當X取值小于臨界值0.2時,惡意節點不受數值微小變動的影響,最終都收斂到Y=1的狀態,即惡意節點都選擇“攻擊”策略。實驗結果驗證了命題6并反映了X取值對惡意節點策略選擇收斂速度的影響,X取值越小,惡意節點收斂速度越快。
3.2 獎勵、懲罰因子對攻擊方收斂情況的影響
設定:ω=10,P=0.5,CA=7,惡意節點選擇“攻擊”策略的初始比例Y=0.5,WSNs系統選擇“防御”策略的初始比例X=0.5。
(1) 考察獎勵因子α對惡意節點收斂情況的影響。設定β=0.3,α=0.3,α=0.2,α=0.1,實驗結果如圖5所示。

圖5 α對惡意節點收斂情況的影響
從圖5可以得出,獎勵因子α取值越小,惡意節點達到演化穩定狀態的速度越慢;反之取值越大,收斂速度越快。考慮到WSNs防御系統的成本,獎勵因子的取值通常不會太高,收斂速度的影響較小。WSNs系統可以根據對系統穩定性的需求小范圍地調整獎勵因子,以保證系統高效穩定的運行。該實驗結果與實際情況相符。
(2) 考察懲罰因子β對惡意節點收斂情況的影響。設定α=0.2,β=0.9,β=0.6,β=0.3,實驗結果如圖6所示。

圖6 β對惡意節點收斂情況的影響
從圖6可以得出,懲罰因子β取值越小,惡意節點達到演化穩定狀態的速度越慢;反之取值越大,收斂速度越快。在實際應用中,WSNs系統可以根據防御需要對懲罰因子進行調整(如所傳輸數據的重要性),故懲罰因子的可調范圍較大。該實驗結果與實際情況相符。
本文根據演化博弈理論提出了WSNs與惡意節點博弈模型,反映了攻防雙方在選擇不同策略時的收支狀況。運用復制動態方程研究博弈雙方策略選擇的變化過程,有效體現了節點的有限理性及演化博弈學習、進化的本質特點。在模型中引入獎勵因子對無攻擊動作的節點給予額外收益,引入懲罰因子對具有攻擊威脅的惡意節點進行收益的削減,使 WSNs系統可以根據不同的工作需求而動態地調整兩種因子的數值,促使系統更快速地達到穩定狀態,有助于提升 WSNs防御系統的工作效率與穩定性。最后通過數值實驗,驗證了不同參數情況下命題的正確性,為WSNs防御系統的設計提供理論參考。
[1] 裴慶祺,沈玉龍,馬建峰.無線傳感器網絡安全技術綜述[J].通信學報,2007,28(8):113-122.
[2] 姜偉,方濱興,田志宏,等.基于攻防博弈模型的網絡安全測評和最優主動防御[J].計算機學報,2009(4):817-827.
[3] 劉雪艷,張強,王彩芬.傳感器網絡安全投資的演化博弈分析[J].計算機工程,2010(12):190-192.
[4] Chen Z,Qiu Y,Liu J,et al.Incentive mechanism for selfish nodes in wireless sensor networks based on evolutionary game[J].Computers and Mathematics with Applications,2011,62(9):3378-3388.
[5] Chen Z,Qiao C,Xu L,et al.Optimizing wireless unicast and multicast sensor networks on the basis of evolutionary game theory[J].Concurrency Computation Practice and Experience,2014,26(5):1130-1141.
[6] Chen Z,Qiao C,Qiu Y,et al.Dynamics stability in wireless sensor networks active defense model[J].Journal of Computer and System Sciences,2014,80(8):1534-1548.
[7] Abd M A,Al-Rubeaai S F M,Singh B K,et al.Extending wireless sensor network lifetime with global energy balance[J].IEEE Sensors Journal,2015,15(9):5053-5063.
[8] Farzaneh N,Yaghmaee M H.An adaptive competitive resource control protocol for alleviating congestion in wireless sensor networks:an evolutionary game theory approach[J].Wireless Personal Communications,2015,82(1):123-142.
[9] Guo H,Wang X,Cheng H,et al.A routing defense mechanism using evolutionary game theory for Delay Tolerant Networks[J].Applied Soft Computing,2016,38:469-476.
[10] Abdalzaher M S,Seddik K,Elsabrouty M,et al.Game theory meets wireless sensor networks security requirements and threats mitigation:A survey[J].Sensors,2016,16(7).
[11] 沈士根,黃龍軍,屠昂燕,等.基于演化博弈的傳感節點保密率自適應調節方法[J].電信科學,2014(11):73-79.
[12] Taylor P,Jonker L.Evolutionarily stable strategies and game dynamics[J].Mathematical Biosciences,1978,40(1-2):145-156.
[13] Fudenberg D,Levine D K.The theory of learning in games[M].Cambridge:The MIT Press,1998:67-72.
DYNAMICANALYSISOFATTACKANDDEFENSESTRATEGYSELECTIONFORWSNSBASEDONEVOLUTIONARYGAME
Zhang Kejing1Cao Qiying1*Shen Shigen21
(CollegeofComputerScienceandTechnology,DonghuaUniversity,Shanghai201620,China)2(DepartmentofComputerScienceandEngineering,ShaoxingUniversity,Shaoxing312000,Zhejiang,China)
In order to solve the problem of WSNs vulnerable to malicious attacks, we put forward a game model between the WSNs defense system and malicious nodes by introducing incentive and punitive factors. Through the quantitative analysis of the model, we calculated the income function of both sides of the game, and carried out the evolutionary dynamics analysis according to the dynamic principle of replication. We gave the evolution strategy of both sides of the game, revealed the law of the choice of both sides of the offensive and defensive strategy, and provided the theoretical reference for the WSNs defense mechanism design. Numerical experiments verify the validity of the evolutionary stability strategy proposition and the effectiveness of the incentive and punitive factors.
WSNs Malicious node Evolutionary game Replicator dynamics
TP3
A
10.3969/j.issn.1000-386x.2017.09.027
2016-10-20。國家自然科學基金項目(61272034)。張可徑,碩士,主研領域:信息安全,博弈論。曹奇英,教授。沈士根,教授。