999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的無線傳感器網(wǎng)絡(luò)入侵檢測攻防博弈研究

2022-12-31 00:00:00蔡玲如朱理黃瑞崧蔡偉鴻陳銀冬
計算機應(yīng)用研究 2022年12期

收稿日期:2022-04-19;修回日期:2022-06-01" 基金項目:廣東省自然科學(xué)基金資助項目(2018A030313889);廣東省重點領(lǐng)域研發(fā)計劃資助項目(2019B010116001)

作者簡介:蔡玲如(1979-),女(通信作者),廣東汕頭人,副教授,碩導(dǎo),博士,主要研究方向為復(fù)雜系統(tǒng)建模與仿真、博弈論、人工智能(lrcai@stu.edu.cn);朱理(1997-),男,碩士研究生,主要研究方向為博弈論與網(wǎng)絡(luò)安全;黃瑞崧(1998-),男,碩士研究生,主要研究方向為博弈論與網(wǎng)絡(luò)安全;蔡偉鴻(1963-),男,教授,主要研究方向為網(wǎng)絡(luò)技術(shù)、信息安全;陳銀冬(1983-),男,副教授,主要研究方向為密碼學(xué)與信息安全.

摘 要:無線傳感器網(wǎng)絡(luò)易遭到各種內(nèi)部攻擊,入侵檢測系統(tǒng)需要消耗大量能量進(jìn)行攻擊檢測以保障網(wǎng)絡(luò)安全。針對無線傳感器網(wǎng)絡(luò)入侵檢測問題,建立惡意節(jié)點(malicious node,MN)與簇頭節(jié)點(cluster head node,CHN)的攻防博弈模型,并提出一種基于強化學(xué)習(xí)的簇頭入侵檢測算法——帶有近似策略預(yù)測的策略加權(quán)學(xué)習(xí)算法(weighted policy learner with approximate policy prediction,WPL-APP)。實驗表明,簇頭節(jié)點采用該算法對惡意節(jié)點進(jìn)行動態(tài)檢測防御,使得博弈雙方快速達(dá)到演化均衡,避免了網(wǎng)絡(luò)出現(xiàn)大量檢測能量消耗和網(wǎng)絡(luò)安全性能的波動。

關(guān)鍵詞:無線傳感器網(wǎng)絡(luò);入侵檢測;攻防博弈;強化學(xué)習(xí);演化均衡

中圖分類號:TP393.08"" 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2022)12-042-3786-05

doi:10.19734/j.issn.1001-3695.2022.04.0208

Research on attack-defense game based on reinforcement learning for

wireless sensor network intrusion detection

Cai Lingru,Zhu Li,Huang Ruisong,Cai Weihong,Chen Yindong

(Dept.of Computer Science,College of Engineering,Shantou University,Shantou Guangdong 515063,China)

Abstract:Wireless sensor network is vulnerable to various internal attacks,and intrusion detection systems need to consume a lot of energy for attack detection to ensure network security.To address the intrusion detection problem of wireless sensor network,this paper established an attack-defense game model between malicious node(MN) and cluster head node(CHN) and proposed a reinforcement learning-based cluster head intrusion detection algorithm called weighted policy learner with approximate policy prediction (WPL-APP).Experiments show that cluster head nodes use this algorithm for dynamic detection and defense against malicious nodes,which can make both sides of the game quickly reach evolutionary equilibrium and avoid large detection energy consumption and fluctuation of network security performance.

Key words:wireless sensor network;intrusion detection;attack-defense games;reinforcement learning;evolutionary equilibrium

0 引言

無線傳感器網(wǎng)絡(luò)(wireless sensor network,WSN)是由部署在監(jiān)測區(qū)域的大量傳感器節(jié)點構(gòu)成,通過無線通信的方式進(jìn)行監(jiān)測數(shù)據(jù)傳輸,形成一個自組織的多跳網(wǎng)絡(luò)系統(tǒng),被廣泛地應(yīng)用于環(huán)境監(jiān)測、軍事安全和自然災(zāi)害預(yù)警等領(lǐng)域[1]。傳感器節(jié)點有限的能量資源、無線通信傳輸方式以及監(jiān)測環(huán)境復(fù)雜且無人值守等原因,使得WSN易遭受網(wǎng)絡(luò)外部和內(nèi)部的各種攻擊,尤其內(nèi)部攻擊形式多樣且不易被發(fā)現(xiàn)[2]。入侵檢測系統(tǒng)(intrusion detection system,IDS)能夠有效檢測出網(wǎng)絡(luò)的內(nèi)部攻擊并及時進(jìn)行報警和采取管制措施,但它需要更多的能量消耗[3]。如何在能量資源受限的WSN中合理有效地使用IDS是一個非常具有挑戰(zhàn)性的任務(wù)[4]。

近年來,不少學(xué)者利用節(jié)點聚類、信任值等方法來解決入侵檢測問題。文獻(xiàn)[5]運用聚類方法將節(jié)點分為惡意節(jié)點、可疑節(jié)點和規(guī)則節(jié)點,建立一個信息不完整的惡意節(jié)點與規(guī)則節(jié)點共存的非合作博弈模型,利用獎懲機制降低惡意節(jié)點的預(yù)期收益和信任值,可疑節(jié)點為避開檢測將被迫轉(zhuǎn)發(fā)數(shù)據(jù)包,仿真結(jié)果表明該方案延長了WSN的使用壽命。文獻(xiàn)[6]提出一種基于多智能體系統(tǒng)和節(jié)點信任值的入侵檢測方案,在普通節(jié)點和簇頭節(jié)點上建立多智能體模型框架,節(jié)點智能體根據(jù)Beta分布和容忍系數(shù)的組合更新節(jié)點信任值,實現(xiàn)網(wǎng)絡(luò)入侵檢測。文獻(xiàn)[7]提出基于狀態(tài)上下文和層次信任的入侵檢測與預(yù)防機制,采用普通—簇頭和簇頭—基站兩層信任計算機制,初始化節(jié)點不同的信任權(quán)重并在狀態(tài)轉(zhuǎn)換時更新信任值,在數(shù)據(jù)聚合時過濾掉低信任值的節(jié)點數(shù)據(jù),實現(xiàn)入侵防御。但是大部分基于信任值的入侵檢測方案檢測的有效性容易受到無線信道的穩(wěn)定性、可靠性以及惡意節(jié)點的偽裝影響,導(dǎo)致檢測失敗。

近年來,基于博弈論的入侵檢測方案也引起了廣泛的關(guān)注和應(yīng)用。文獻(xiàn)[8]建立惡意、簇頭節(jié)點之間的攻防博弈模型,利用信號博弈將其構(gòu)建為多階段動態(tài)入侵檢測博弈,使得簇頭節(jié)點能夠選擇最優(yōu)防御策略,迫使惡意節(jié)點選擇合作策略,延長了網(wǎng)絡(luò)生命周期。文獻(xiàn)[9]針對WSN安全問題提出了一種基于博弈論和自回歸模型的入侵檢測模型,將自回歸理論模型改進(jìn)為非協(xié)同完全信息靜態(tài)模型,并對攻擊模式進(jìn)行預(yù)測,通過分析混合策略Nash均衡得到最優(yōu)防御策略。文獻(xiàn)[10]提出一種基于演化博弈的WSN主動防御模型,防御節(jié)點學(xué)習(xí)攻擊節(jié)點的策略,動態(tài)地調(diào)整防御策略來實現(xiàn)有效防御。文獻(xiàn)[11]在基于演化博弈主動防御模型中建立預(yù)防機制,迫使惡意節(jié)點放棄攻擊轉(zhuǎn)為合作,提高WSN的可靠性和穩(wěn)定性。文獻(xiàn)[12,13]從網(wǎng)絡(luò)攻防對抗有限理性約束條件出發(fā),構(gòu)建攻防演化博弈模型,給出演化均衡的求解方法并分析演化穩(wěn)定策略的形成機理,設(shè)計出最優(yōu)防御策略選取算法。有學(xué)者針對環(huán)境污染問題建立政府與企業(yè)的混合策略演化博弈,提出加入動態(tài)懲罰的控制策略[14],博弈能夠達(dá)到演化均衡,但WSN受到外界環(huán)境和自身拓?fù)浣Y(jié)構(gòu)的影響以及惡意節(jié)點攻擊的多樣性和隱蔽性,動態(tài)懲罰控制策略難以借鑒應(yīng)用,而博弈過程的動態(tài)性則會造成大量檢測能量消耗和網(wǎng)絡(luò)安全性能波動。

強化學(xué)習(xí)是一類學(xué)習(xí)、預(yù)測和決策的方法框架,對于許多動態(tài)、復(fù)雜的問題能夠給出最優(yōu)解,被廣泛地應(yīng)用于信息安全防御[15,16]、無線傳感器網(wǎng)絡(luò)[17,18]等領(lǐng)域并取得了不錯的成果。梯度上升(gradient ascent,GA)算法[19]是強化學(xué)習(xí)中的重要算法之一,它從理性角度出發(fā),給出一種合理調(diào)整策略使收益最大化的方法,能夠使得具有純策略Nash均衡的博弈收斂,但無法讓混合策略博弈收斂[20]。對于混合策略博弈,許多學(xué)者在GA算法的基礎(chǔ)上進(jìn)一步給出解決方法。文獻(xiàn)[21]提出WoLF原則,用兩個固定學(xué)習(xí)率改變策略的更新速度,但收斂性不夠理想;文獻(xiàn)[22]從博弈遺憾角度出發(fā),用近似的Nash均衡策略指導(dǎo)當(dāng)前策略變化,逐漸最小化遺憾值來實現(xiàn)策略的收斂,但收斂速度較慢;文獻(xiàn)[23]對策略進(jìn)行動態(tài)加權(quán),將固定學(xué)習(xí)率改進(jìn)為變化的學(xué)習(xí)率,策略收斂性得到提高;文獻(xiàn)[24]提出將對手的策略變化納入考慮范圍,預(yù)測出對手的策略變化進(jìn)而及時更新自身策略,達(dá)到策略收斂效果;文獻(xiàn)[25]使用WoLF和WoLS兩種學(xué)習(xí)機制進(jìn)行策略更新,策略收斂于Nash均衡;文獻(xiàn)[26]在建立對手模型的基礎(chǔ)上提出學(xué)習(xí)對手的學(xué)習(xí)意識(LOLA),策略的收斂性和穩(wěn)定性都有不錯的表現(xiàn);文獻(xiàn)[27]提出穩(wěn)定對手塑造(SOS),它表現(xiàn)出與LOLA相同或更好的收斂穩(wěn)定性。

許多學(xué)者對促進(jìn)博弈策略收斂提供了有效的方法,本文從策略收斂的廣泛性和穩(wěn)定性角度出發(fā),提出帶有近似策略預(yù)測的策略加權(quán)學(xué)習(xí)算法(WPL-APP),該算法能夠讓簇頭節(jié)點主動、動態(tài)地調(diào)整策略,使博弈雙方快速達(dá)到演化均衡,避免網(wǎng)絡(luò)出現(xiàn)大量檢測能量消耗和安全性能的波動。

1 無線傳感器攻防博弈

1.1 網(wǎng)絡(luò)分簇

為節(jié)約節(jié)點能量和保障數(shù)據(jù)穩(wěn)定傳輸,WSN常被分為多個相互連接的簇,每個簇由若干個成員節(jié)點和一個簇頭節(jié)點組成,成員節(jié)點將監(jiān)測數(shù)據(jù)發(fā)送給簇頭節(jié)點,簇頭節(jié)點再將信息轉(zhuǎn)發(fā)給基站[28]。其中,成員節(jié)點中可能存在惡意節(jié)點,惡意節(jié)點會對網(wǎng)絡(luò)發(fā)起內(nèi)部攻擊,如選擇性轉(zhuǎn)發(fā)攻擊、竄改攻擊等。假設(shè)WSN被劃分為k個簇,分別標(biāo)記為c1,c2,…,ck,簇頭節(jié)點具有IDS,收到成員節(jié)點的數(shù)據(jù)包可選擇檢測或不檢測,若檢測到惡意節(jié)點的攻擊,對其采取管制措施,如要求其重發(fā)數(shù)據(jù)、加入黑名單、節(jié)點隔離和重編程等。惡意節(jié)點為避免被IDS捕獲,選擇合作偽裝成正常節(jié)點發(fā)送有效數(shù)據(jù),伺機發(fā)動攻擊。對于惡意節(jié)點的偽裝,文獻(xiàn)[29]表明隔離惡意節(jié)點并不是最優(yōu)策略,利用惡意節(jié)點的偽裝合作為網(wǎng)絡(luò)帶來收益是合理有效的。本文網(wǎng)絡(luò)分簇模型如圖1所示。

1.2 攻防博弈模型

簇頭節(jié)點檢測到攻擊,對惡意節(jié)點進(jìn)行警告并要求其重發(fā)有效數(shù)據(jù),否則將采取節(jié)點隔離等措施;惡意節(jié)點被警告后選擇偽裝合作,伺機再發(fā)動攻擊。因此,惡意節(jié)點與簇頭節(jié)點之間可描述為一種演化博弈。基于此,構(gòu)建惡意節(jié)點與簇頭節(jié)點間的攻防博弈模型如定義1所述。

定義1 攻防博弈模型可表示為一個四元組(N,S,P,V),其中,N=(Nm,Nc)是博弈參與者集合,Nm表示惡意(malicious)節(jié)點,Nc表示簇頭(cluster)節(jié)點;S=(Sm,Sc)表示博弈者策略空間集合,Sm={攻擊,合作}是惡意節(jié)點的策略動作集合,Sc={檢測,不檢測}是簇頭節(jié)點的策略動作集合;P=(σm,σc)表示博弈者策略概率分布,σm=(γ,1-γ),γ表示惡意節(jié)點的攻擊概率,σc=(β,1-β),β表示簇頭節(jié)點的檢測概率;V=(Vm,Vc)表示博弈者支付函數(shù)集合,Vm是惡意節(jié)點的支付函數(shù),Vc是簇頭節(jié)點的支付函數(shù)。

假設(shè)攻防博弈中,簇頭節(jié)點轉(zhuǎn)發(fā)數(shù)據(jù)包獲得收益a2,惡意節(jié)點的數(shù)據(jù)包被轉(zhuǎn)發(fā)獲得收益a1,簇頭節(jié)點檢測數(shù)據(jù)包需耗能d2,若成功檢測到攻擊則獲得收益u2,同時惡意節(jié)點被警告且因重復(fù)發(fā)送數(shù)據(jù)包產(chǎn)生能量損耗p1;若簇頭節(jié)點不檢測且被惡意節(jié)點攻擊則產(chǎn)生損失p2,同時惡意節(jié)點獲得收益u1,當(dāng)惡意節(jié)點合作且簇頭節(jié)點檢測時,惡意節(jié)點因發(fā)送有效數(shù)據(jù)獲得潛在信任收益c1。為了使簇頭的檢測和惡意節(jié)點的攻擊有意義,各支付關(guān)系滿足a1gt;c1,u1gt;p1, a2gt;d2,u2gt;p2。入侵檢測博弈雙方支付矩陣如表1所示。

假設(shè)惡意節(jié)點和簇頭節(jié)點分別以概率γ、β進(jìn)行攻擊和檢測,則惡意節(jié)點和簇頭節(jié)點的期望效用函數(shù)可分別用Vm(σm,σc)和Vc(σm,σc)表示,如式(1)所示。

Vm(σm,σc)=γβ(a1-p1)+γ(1-β)(a1+u1)+

(1-γ)β(a1+c1)+(1-γ)(1-β)a1

Vc(σm,σc)=βγ(a2+u2-d2)+β(1-γ)(a2-d2)+

(1-β)γ(a2-p2)+(1-β)(1-γ)a2(1)

根據(jù)收益最大化方法得到惡意節(jié)點和簇頭節(jié)點唯一的混合策略Nash均衡點(γ*,β*),其中γ*=d2/(u2+p2)

β*=u1/(c1+p1+u1)。

入侵檢測博弈模型中,僅研究Nash均衡的存在性是不夠的,復(fù)雜動態(tài)的網(wǎng)絡(luò)環(huán)境變化使得博弈雙方策略選擇存在很大的不確定性。因此,如何讓簇頭節(jié)點具有一定的學(xué)習(xí)能力,從而促使博弈雙方能夠快速地達(dá)到博弈的演化均衡狀態(tài)是研究的重點。GA算法提供了一種策略調(diào)整使收益最大化的方法,簇頭節(jié)點可利用該算法不斷學(xué)習(xí)和調(diào)整策略概率獲得最大收益,實現(xiàn)高效檢測。

2 梯度上升算法

傳感器節(jié)點內(nèi)部嵌有微型操作系統(tǒng),將強化學(xué)習(xí)算法寫入系統(tǒng)內(nèi)使其具有一定的智能性,簇頭節(jié)點作為智能體不斷學(xué)習(xí)、執(zhí)行合理高效的檢測策略。

GA思想與復(fù)制動態(tài)方程基本一致,且具有一定的突變性。在GA下,節(jié)點沿梯度上升的方向不斷調(diào)整策略概率,逼近期望收益最大值,使得節(jié)點具有學(xué)習(xí)和動態(tài)調(diào)整能力,以應(yīng)對復(fù)雜多變的網(wǎng)絡(luò)環(huán)境。

博弈模型中惡意節(jié)點、簇頭節(jié)點的期望收益函數(shù)Vm、Vc對攻擊率γ、檢測率β的梯度(偏導(dǎo))如式(2)所示。

γVm(γ,β)=Vm(γ,β)γ=β(-p1-c1-u1)+u1

βVc(γ,β)=Vc(γ,β)β=γ(u2+p2)-d2(2)

節(jié)點沿計算得到的策略梯度方向調(diào)整其策略概率,逼近收益最大值,策略概率更新如式(3)所示。

γk+1=γk+λγVm(γk,βk)βk+1=βk+λβVc(γk,βk)(3)

引入步長λ∈(0,1)來控制梯度更新幅度,以確保策略概率在合適且有效的區(qū)間,即(γ∈[0,1],β∈[0,1])。實驗表明,λ太大則會錯過收益最大值點,太小則收斂速度過于緩慢。分析節(jié)點采用GA下博弈模型的穩(wěn)定性,令X=γVm(γ,β)βVc(γ,β)=f(X,t)=0,求得系統(tǒng)唯一的平衡態(tài)X1=γ*β*=d2/(u2+p2)u1/(c1+p1+u1),建立其雅可比矩陣并求解,可得

J(X1)=f(X1,t)X1γVm(γ,β)γγVm(γ,β)β

βVc(γ,β)γβVc(γ,β)β=0Δ1Δ2

-Δ1Δ20

Δ1=(p2+u2)·[p2(c1+p1)-u1u2]·(c1+p1+u1)·

[c1(d2-p2-u2)+d2(u1+p1)]lt;0Δ2=(c1+p1+u1)(p2+u2)gt;0

J(X1)的矩陣特征根中不存在負(fù)實部特征值,由Lyapunov穩(wěn)定性理論可知,基于梯度上升算法的入侵檢測博弈系統(tǒng)不具有漸進(jìn)穩(wěn)定性,該系統(tǒng)的平衡態(tài)X1即博弈的Nash均衡點為臨界穩(wěn)定狀態(tài)。

3 基于策略加權(quán)與預(yù)測算法(WPL-APP)的博弈模型

入侵檢測博弈中,采用GA進(jìn)行策略學(xué)習(xí)調(diào)整的節(jié)點難以使博弈快速達(dá)到演化穩(wěn)定均衡,節(jié)點的智能程度不夠。因此,在GA的基礎(chǔ)上,本文提出WPL-APP算法,為簇頭節(jié)點提供更高效的學(xué)習(xí)策略,使入侵檢測博弈快速達(dá)到演化均衡且收斂廣泛、穩(wěn)定。

3.1 WPL-APP算法

WPL-APP算法主要由基于Q-learning的策略梯度值計算和策略加權(quán)預(yù)測機制兩部分組成,其流程如圖2所示。

3.1.1 基于Q-learning的梯度計算

GA中,簇頭節(jié)點的梯度中包含了惡意節(jié)點的策略概率值和動作收益值(式(1)),但在實際博弈過程中,簇頭節(jié)點難以獲得惡意節(jié)點的準(zhǔn)確相關(guān)信息。本文利用Q-learning算法,通過在博弈中可獲得的信息來計算簇頭節(jié)點的策略總收益值,進(jìn)而求取節(jié)點策略梯度。Q-learning算法的Q值更新公式如下所示:

Qt+1(s,a)=Qt(s,a)+α[rt+ε×max Q(s′,a)-Qt(s,a)](4)

其中:α∈[0,1]為學(xué)習(xí)速率,表示對經(jīng)驗學(xué)習(xí)的重視程度;ε∈[0,1]為折扣因子,表示對未來狀態(tài)價值的重視程度。

簇頭節(jié)點策略梯度計算分為以下四個步驟:a)初始化簇頭節(jié)點當(dāng)前狀態(tài)s下的策略概率πc(s,a),a∈A={0,1}分別表示策略檢測和不檢測;b)節(jié)點間進(jìn)行攻防博弈,簇頭節(jié)點根據(jù)式(4)分別更新兩個策略的總收益值Qc(s,a);c)計算簇頭節(jié)點兩個策略的平均收益值c=∑a∈A πc(s,a)Qc(s,a);d)計算簇頭節(jié)點兩個策略的策略梯度δ(s,a)= Qc(s,a)-c。

簇頭節(jié)點當(dāng)前策略收益與平均收益差的正負(fù)與該策略梯度方向一致,故可用策略收益差近似代替該策略梯度值,求得當(dāng)前策略的梯度值。

3.1.2 策略加權(quán)與預(yù)測

1)策略動態(tài)加權(quán)

策略動態(tài)加權(quán)[23]可在多變的博弈過程中,通過動態(tài)地對策略概率加權(quán)學(xué)習(xí)來實現(xiàn)快速收斂。入侵檢測攻防博弈過程中,簇頭節(jié)點檢測概率跨越其檢測均衡概率時,惡意節(jié)點攻擊策略梯度方向?qū)l(fā)生改變。因此,當(dāng)簇頭節(jié)點檢測概率大于均衡概率,即檢測收益大于平均收益值時,梯度采用1-πc(s,0)加權(quán)進(jìn)行緩慢學(xué)習(xí),否則使用πc(s,0)加權(quán)進(jìn)行快速學(xué)習(xí)。策略動態(tài)加權(quán)用變化的學(xué)習(xí)率可使博弈過程達(dá)到演化均衡,節(jié)點的智能性得到提高,但若對手未使用策略動態(tài)加權(quán),博弈過程仍會存在一定幅度的波動。

2)策略預(yù)測機制

為了使算法具有更廣泛的收斂性和更好的穩(wěn)定性,引入策略預(yù)測機制[24]。假設(shè)簇頭節(jié)點獲得惡意節(jié)點當(dāng)前策略概率及策略梯度變化方向,那么簇頭節(jié)點就可以預(yù)測出惡意節(jié)點的策略,根據(jù)預(yù)測結(jié)果及時調(diào)整自身策略概率,進(jìn)行更合理的檢測。節(jié)點策略概率更新如式(5)所示。

γk+1=γk+λγVm(γk,βk+φβVc(γk,βk))βk+1=βk+λβVc(γk+φγVm(γk,βk),βk)(5)

其中:φ∈(0,∞]表示對對手策略梯度的短期預(yù)測,若預(yù)測長度太大,可能得到錯誤的預(yù)測梯度導(dǎo)致自身策略梯度調(diào)整太大,偏離了最優(yōu)策略;預(yù)測梯度太小則收斂速度緩慢[24]。根據(jù)梯度計算公式(式(2))變形式(5)可得

γk+1=γk+λ(γk+φμmβk)

βk+1=βk+λ(βk+φμcγk)(6)

其中:γk=γVm(γk,βk),βk=βVc(γk,βk),μm=-p1-c1-u1,μc=u2-d2+p2;βk表示簇頭節(jié)點自身的梯度;φμcγk是對惡意節(jié)點梯度的預(yù)測項。簇頭節(jié)點的預(yù)測項通過式(2)可表示為

φμcγk=φμcμmγ-d2φμc(7)

預(yù)測項φμcγk是簇頭節(jié)點自身策略收益的線性函數(shù),因此,使用-φ|δ(s,a)|πc(s,a)近似地表示預(yù)測出惡意節(jié)點的梯度。

算法1 WPL-APP 算法

1 let α be the learning rate of Q-learning,ε be the discount factor of Q-learning,λ be the gradient step size,φ be the derivation prediction length;

2 initialize value function Q and policy π;

3 repeat

4"" select an action a in current state s according to policy π(a,s) with suitable exploration;

5"" observing reward r and next s′,update Q(s,a)←(1-α)·Q(s,a)+α(r+ε maxa′(s′,a′));

6"" average reward (s,a)←∑a∈A π(s,a)·Q(s,a);

7"" for each action a do

8"" ΔQ←Q(s,a)-;

9"" if ΔQgt;0:

10""""" Δπ←1-π(s,a);

11"" else

12""""" Δπ←π(s,a);

13"" δ(s,a)←λ·ΔQ·Δπ;

14"" δ^(s,a)←δ(s,a)-φ|δ(s,a)| ·π(s,a);

15" π(s,a)←π(s,a)+λ·δ^(s,a);

16" end

17" π(s,a)←projection(π(s,a));

18 until the process is terminated

偽代碼中投影函數(shù)[22](第17行)將更新后的策略概率投射到有效策略空間,使得更新后的策略概率值滿足a∈A:1≥π(s,a) ≥0;∑a∈A π(s,a)=1。

3.2 實驗結(jié)果

仿真實驗使用編譯器PyCharm 3.2、編程語言Python 3.8對無線傳感器網(wǎng)絡(luò)的入侵檢測攻防博弈過程進(jìn)行模擬仿真。假設(shè)惡意節(jié)點和簇頭節(jié)點支付矩陣收益值如表2所示,根據(jù)各參數(shù)意義調(diào)整設(shè)置實驗參數(shù)α=0.1,ε=0.9,λ=0.000 025,φ=3。為模擬檢測環(huán)境的復(fù)雜性,假設(shè)簇頭節(jié)點以10%的概率進(jìn)行策略隨機選擇;以90%的概率在[0,1]內(nèi)產(chǎn)生隨機概率值,若隨機概率值低于檢測概率,則執(zhí)行檢測,反之不檢測。考慮惡意節(jié)點攻擊概率和簇頭節(jié)點檢測概率在不同初始條件下的博弈過程。

3.2.1 博弈雙方使用不同策略更新算法(GA-Q vs WPL-APP)

入侵檢測攻防博弈中,若惡意節(jié)點使用基于Q-learning的梯度上升算法(GA-Q)、簇頭節(jié)點使用WPL-APP算法。考慮惡意節(jié)點和簇頭節(jié)點在極端以及隨機初始概率情況下的攻防博弈過程。圖3表示博弈雙方采用混合策略(γ=0.9,β=0.1)的博弈過程。當(dāng)惡意節(jié)點攻擊概率遠(yuǎn)大于簇頭節(jié)點檢測概率時,簇頭節(jié)點能夠迅速提高檢測概率抑制惡意節(jié)點的攻擊,博弈過程快速達(dá)到演化均衡;若惡意節(jié)點的攻擊概率遠(yuǎn)小于簇頭節(jié)點的檢測概率時,簇頭節(jié)點也能夠及時、主動地調(diào)整檢測概率,節(jié)省檢測能量消耗并控制博弈過程穩(wěn)定于均衡狀態(tài),博弈過程如圖4所示。隨機初始化博弈雙方概率如圖5所示,圖5(a)(b)分別表示初始概率在相差較大和較小群情況下的博弈過程。由結(jié)果可知,隨機地初始雙方概率,博弈過程也能快速收斂于演化均衡。

實驗結(jié)果表明,在極端和隨機初始概率情況下,簇頭節(jié)點均能夠及時調(diào)整策略控制博弈過程快速趨于均衡狀態(tài)。簇頭節(jié)點在WPL-APP算法下能及時有效地抑制惡意節(jié)點攻擊,避免攻擊概率的反復(fù)波動。而博弈穩(wěn)定在Nash均衡的過程中存在的微小波動,則是由于模擬了檢測環(huán)境的復(fù)雜性所致。

3.2.2 博弈雙方使用相同策略更新算法(WPL-APP vs WPL-APP)

簇頭節(jié)點使用WPL-APP算法使得攻擊概率得到有效控制,當(dāng)惡意節(jié)點和簇頭節(jié)點均使用WPL-APP算法,入侵檢測攻防博弈過程依然能夠快速穩(wěn)定于均衡狀態(tài),且收斂速度較單方采用WPL-APP算法更快,穩(wěn)定性更強。圖6~8分別為博弈雙方在極端、隨機初始概率情況下的博弈過程,其中,圖8(a)(b)為初始博弈雙方概率相差較大和較小情況下的博弈過程。

利用強化學(xué)習(xí)算法賦予簇頭節(jié)點動態(tài)學(xué)習(xí)能力,使節(jié)點具有策略動態(tài)調(diào)節(jié)和一定的預(yù)測能力,調(diào)整策略提前防御可能遭受到的攻擊。

WPL-APP算法使得簇頭節(jié)點面對惡意節(jié)點在不同的智能程度和攻擊概率的情況下,均能夠主動、快速地調(diào)整策略概率,控制入侵檢測博弈快速達(dá)到演化均衡,避免網(wǎng)絡(luò)安全性能的較大波動,同時也使網(wǎng)絡(luò)避免了大量檢測能量的消耗,一定程度上延長了WSN的生命周期。

4 結(jié)束語

無線傳感器網(wǎng)絡(luò)入侵檢測是一個動態(tài)的、多因素影響的問題,從博弈論的角度,構(gòu)建攻防博弈模型并從機器學(xué)習(xí)的角度提高簇頭節(jié)點的動態(tài)監(jiān)測防御能力,進(jìn)一步降低網(wǎng)絡(luò)復(fù)雜性和動態(tài)性帶來的各種不確定性,在保障網(wǎng)絡(luò)安全性能穩(wěn)定可控的同時避免出現(xiàn)大量不必要的檢測能量消耗。仿真實驗表明,采用WPL-APP學(xué)習(xí)算法的簇頭節(jié)點能夠有效地提高動態(tài)監(jiān)測能力,進(jìn)一步提高WSN的安全性和協(xié)作性。機器學(xué)習(xí)中大部分實驗參數(shù)的設(shè)置對數(shù)據(jù)集和實驗者的調(diào)參能力依賴性較大,后續(xù)工作將把自動尋參作為研究方向。

參考文獻(xiàn):

[1]Kandris D,Nakas C,Vomvas D,et al.Applications of wireless sensor networks:an up-to-date survey[J].Applied System Innovation,2020,3(1):14.

[2]劉妮,周海平,王波.面向多種攻擊的無線傳感器網(wǎng)絡(luò)攻防博弈模型[J].計算機應(yīng)用研究,2020,37(8):2491-2495.(Liu Ni,Zhou Haiping,Wang Bo.Attack-defense game models for multi-attack oriented wireless sensor network[J].Application Research of Compu-ters,2020,37(8):2491-2495.)

[3]Butun I,Morgera S D,Sankar R.A survey of intrusion detection systems in wireless sensor networks[J].IEEE Communications Surveys amp; Tutorials,2013,16(1):266-282.

[4]Delgado M L.On the effectiveness of intrusion detection strategies for wireless sensor networks:an evolutionary game approach[J].Ad hoc amp; Sensor Wireless Networks,2017,35(1):25-40.

[5]Li Yuting,Wu Yuanming.Combine clustering with game to resist selective forwarding in wireless sensor networks[J].IEEE Access,2020,8:138382-138395.

[6]Jin Xianji,Liang Jianquan,Tong Weiming,et al.Multi-agent trust-based intrusion detection scheme for wireless sensor networks[J].Computers amp; Electrical Engineering,2017,59(4):262-273.

[7]Vyas A,Abimannan S.Intrusion detection and prevention mechanism implemented using NS-2 based on state context and hierarchical trust in WSN[C]//Proc of the 4th International Conference on Internet of Things and Connected Technologies.Cham:Springer,2019:229-240.

[8]Shen Shigen,Li Yuanjie,Xu Hongyun,et al.Signaling game based strategy of intrusion detection in wireless sensor networks[J].Computers amp; Mathematics with Applications,2011,62(6):2404-2416.

[9]Han Lansheng,Zhou Man,Jia Wenjing,et al.Intrusion detection mo-del of wireless sensor networks based on game theory and an autoregressive model[J].Information Sciences,2019,476(2):491-504.

[10]Chen Zhide,Qiao Cheng,Qiu Yihui,et al.Dynamics stability in wireless sensor networks active defense model[J].Journal of Computer and System Sciences,2014,80(8):1534-1548.

[11]Al-Jaoufi M A A,Liu Yun,Zhang Zhenjiang.An active defense model with low power consumption and deviation for wireless sensor networks utilizing evolutionary game theory[J].Energies,2018,11(5):1281.

[12]黃健明,張恒巍,王晉東,等.基于攻防演化博弈模型的防御策略選取方法[J].通信學(xué)報,2017,38(1):168-176.(Huang Jianming,Zhang Hengwei,Wang Jindong, et al.Defense strategies selection based on attack-defense evolutionary game model[J].Journal on Communications,2017,38(1):168-176.)

[13]鞏俊輝,胡曉輝,杜永文.基于演化博弈的最優(yōu)防御策略選取研究[J].計算機工程與應(yīng)用,2021,57(13):116-123.(Gong Junhui,Hu Xiaohui,Du Yongwen.Research on selection of optimal defense strategy based on evolutionary game[J].Computer Engineering and Applications,2021,57(13):116-123.)

[14]蔡玲如.基于SD的環(huán)境污染多人演化博弈問題研究[J].計算機應(yīng)用研究,2011,28(8):2982-2986.(Cai Lingru.Multi-person evolutionary game of environment pollution based on system dynamics[J].Application Research of Computers,2011,28(8):2982-2986.)

[15]Dey S.Securing majority-attack in blockchain using machine learning and algorithmic game theory:a proof of work[C]//Proc of the 10th Computer Science and Electronic Engineering.Piscataway,NJ:IEEE Press,2018:7-10.

[16]Zhu Mu,Anwar A H,Wan Zelin,et al.A survey of defensive deception:approaches using game theory and machine learning[J].IEEE Communications Surveys amp; Tutorials,2021,23(4):2460-2493.

[17]Kumar D P,Amgoth T,Annavarapu C S R.Machine learning algorithms for wireless sensor networks:a survey[J].Information Fusion,2019,49(9):1-25.

[18]Zhou Mi,Guan Yue,Hayajneh M,et al.Game theory and machine learning in UAVs-assisted wireless communication networks:a survey[EB/OL].(2021-08-07).https://arxiv.org/pdf/2108.03495v1.pdf.

[19]Singh S,Kearns M,Mansour Y.Nash convergence of gradient dyna-mics in iterated general-sum games[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco:Morgan Kaufmann Publishers,2000:541-548.

[20]Bloembergen D,Tuyls K,Hennes D,et al.Evolutionary dynamics of multi-agent learning:a survey[J].Journal of Artificial Intelligence Research,2015,53(1):659-697.

[21]Bowling M,Veloso M.Multiagent learning using a variable learning rate[J].Artificial Intelligence,2002,136(2):215-250.

[22]Bowling M.Convergence and no-regret in multiagent learning[C]//Proc of the 17th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2004:209-216.

[23]Abdallah S,Lesser V.A multiagent reinforcement learning algorithm with non-linear dynamics[J].Journal of Artificial Intelligence Research,2008,33(1):521-549.

[24]Zhang Chongjie,Lesser V.Multi-agent learning with policy prediction[C]//Proc of the 24th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2010:927-934.

[25]Awheda M D,Schwartz H M.Exponential moving average based multiagent reinforcement learning algorithms[J].Artificial Intelligence Review,2015,45(3):299-332.

[26]Foerster J N,Chen R Y,Al-Shedivat M,et al.Learning with opponent-learning awareness[C]//Proc of the 17th International Conference on Autonomous Agents and Multi-agent Systems.2018:122-130.

[27]Letcher A,F(xiàn)oerster J,Balduzzi D,et al.Stable opponent shaping in differentiable games[C]//Proc of International Conference on Lear-ning Representations.2019.

[28]張德干,邱健寧,吳昊,等.一種面向無線傳感器網(wǎng)絡(luò)的近鄰輪轉(zhuǎn)層次分簇方法[J].計算機應(yīng)用研究,2020,37(S1):258-263.(Zhang Degan,Qiu Jianning,Wu Hao,et al.A hierarchical clustering method with neighbor rotation for WSN[J].Application Research of Computers,2020,37(S1):258-263.)

[29]Wang Wenjing,Chatterjee M,Kwiat K,et al.A game theoretic approach to detect and co-exist with malicious nodes in wireless networks[J].Computer Networks,2014,71(10):63-83.

主站蜘蛛池模板: 国产精品刺激对白在线| 久久久久中文字幕精品视频| 精品成人一区二区三区电影 | 国产成人av一区二区三区| 亚洲六月丁香六月婷婷蜜芽| 国产亚洲视频免费播放| 全部无卡免费的毛片在线看| 91久久偷偷做嫩草影院电| 色有码无码视频| 在线观看无码a∨| 在线观看视频99| 亚洲综合经典在线一区二区| 亚洲精品高清视频| 亚洲精品片911| 国内精自视频品线一二区| 精品久久久久无码| 国产麻豆va精品视频| 原味小视频在线www国产| 国产91小视频| 日韩中文无码av超清| 色吊丝av中文字幕| 亚洲中文字幕在线一区播放| 综合人妻久久一区二区精品| 国产成本人片免费a∨短片| www.亚洲一区| 欧美色伊人| 亚洲精品视频在线观看视频| 午夜啪啪网| 无码在线激情片| 欧洲一区二区三区无码| 美女黄网十八禁免费看| 黄色网页在线观看| 在线国产欧美| 日本a∨在线观看| 亚洲久悠悠色悠在线播放| 久草中文网| 无码视频国产精品一区二区| 国产嫖妓91东北老熟女久久一| 欧美性久久久久| 午夜毛片福利| 一本视频精品中文字幕| 男女精品视频| 欧美精品成人| 波多野结衣在线一区二区| 91精品国产91欠久久久久| 国产99热| 国产十八禁在线观看免费| 激情午夜婷婷| 亚洲AV成人一区二区三区AV| 91丨九色丨首页在线播放| 国产农村1级毛片| 国产精品lululu在线观看 | 亚洲AV无码一区二区三区牲色| 亚洲综合片| 国产成人91精品| 亚洲精品国产日韩无码AV永久免费网 | 国产亚洲欧美日本一二三本道| 成人福利在线视频| 国产麻豆另类AV| 日韩色图区| 99精品伊人久久久大香线蕉| 亚洲无限乱码一二三四区| 一区二区三区四区日韩| 亚洲熟女偷拍| 成人精品在线观看| 日本免费新一区视频| 日韩国产高清无码| 国产熟睡乱子伦视频网站| 99一级毛片| 搞黄网站免费观看| 欧美成人看片一区二区三区| 狠狠色丁香婷婷综合| 国产自在线播放| 蜜桃视频一区| 自拍偷拍欧美| lhav亚洲精品| 日韩视频精品在线| 久无码久无码av无码| 99色亚洲国产精品11p| 国产导航在线| 国产精品一线天| 精品一区二区三区视频免费观看|