999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的智能網(wǎng)絡(luò)安全防護(hù)研究

2021-12-14 01:48:20劉月華
通信技術(shù) 2021年11期
關(guān)鍵詞:網(wǎng)絡(luò)安全動作智能

周 云,劉月華

(1.78111 部隊(duì),四川 成都 610011;2.中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041)

0 引言

2013 年深度思考(DeepMind)公司開發(fā)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合構(gòu)建價(jià)值網(wǎng)絡(luò)訓(xùn)練智能體挑戰(zhàn)雅達(dá)利2600(Atari2600)中的游戲[1-2]。2016 年,阿爾法圍棋(AlphaGo)[3]在圍棋領(lǐng)域的成功是強(qiáng)化學(xué)習(xí)領(lǐng)域的里程碑事件,AlphoGo 將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合構(gòu)建價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練智能體,在對弈階段采用蒙特卡洛樹搜索[4]。隨后推出的阿爾法元(AlphaGoZero)在AlphaGo 的基礎(chǔ)上將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合并成一個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí),在不使用已有知識經(jīng)驗(yàn)的條件下自我訓(xùn)練3 天即擊敗AlphaGo[5-7]。Atari 游戲、圍棋、國際象棋都屬于完美信息博弈,每個(gè)參與者可以在任何時(shí)候看到已經(jīng)發(fā)生或正在發(fā)生的游戲局勢。2019 年,阿爾法星(AlphaStar)[8]攻克即時(shí)戰(zhàn)略游戲星際爭霸,智能體可以戰(zhàn)勝99.8%的人類選手。星際爭霸是不完全信息下的博弈,主要使用了監(jiān)督學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的局部馬爾可夫決策,該智能體解決了不完全信息,需要遠(yuǎn)期計(jì)劃,實(shí)時(shí)性以及多主體博弈的難點(diǎn)問題。

DeepMind 團(tuán)隊(duì)取得的成績推動了人工智能從感知智能進(jìn)入認(rèn)知智能。感知智能以深度學(xué)習(xí)為代表,認(rèn)知智能以強(qiáng)化學(xué)習(xí)為代表。

強(qiáng)化學(xué)習(xí)的基本思想是從與環(huán)境的不斷交互中學(xué)習(xí)[9],根據(jù)從環(huán)境觀測到的信息,做出行動決策,然后觀察環(huán)境反應(yīng)調(diào)整行動,最終實(shí)現(xiàn)目標(biāo)。網(wǎng)絡(luò)空間安全攻防對抗過程中,攻防雙方通過將攻擊行為和防護(hù)行為作用于網(wǎng)絡(luò)環(huán)境,并根據(jù)網(wǎng)絡(luò)安全態(tài)勢的變化調(diào)整對抗策略,從而實(shí)現(xiàn)網(wǎng)絡(luò)攻擊和網(wǎng)絡(luò)安全防護(hù)的目的,而強(qiáng)化學(xué)習(xí)為網(wǎng)絡(luò)空間攻防對抗智能化提供了重要途徑和技術(shù)手段。

本文主要研究強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論,針對網(wǎng)絡(luò)空間安全防護(hù)如何應(yīng)用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能防護(hù)的問題,提出初步解決方案。本文沒有考慮網(wǎng)絡(luò)攻擊智能化的問題。

1 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)理論

強(qiáng)化學(xué)習(xí)[9](Reinforcement Learning,RL)以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過最大化累積回報(bào)學(xué)習(xí)最優(yōu)策略。它是一種通過智能體Agent 與環(huán)境不斷交互,獲得最大累計(jì)期望回報(bào),學(xué)習(xí)最優(yōu)狀態(tài)到行動映射關(guān)系的方法。強(qiáng)化學(xué)習(xí)系統(tǒng)的原理如圖1 所示。

圖1 強(qiáng)化學(xué)習(xí)原理

強(qiáng)化學(xué)習(xí)系統(tǒng)通常包含4 個(gè)元素[10]:狀態(tài)s,動作a,回報(bào)(Reward,又稱獎(jiǎng)懲/獎(jiǎng)勵(lì))r,策略π(a|s)。

狀態(tài)空間S:s∈S,狀態(tài)集合。

動作空間A:a∈A,動作集合。

累計(jì)期望回報(bào)R的計(jì)算方式為:

式中:γ∈[0,1]為折扣因子表示未來某一時(shí)刻的獎(jiǎng)勵(lì)在累計(jì)獎(jiǎng)勵(lì)中所占的影響比重;E為r的數(shù)學(xué)期望。強(qiáng)化學(xué)習(xí)目標(biāo)是最大化累積回報(bào)期望,回報(bào)函數(shù)是關(guān)鍵。

策略π(a|s):狀態(tài)空間到動作空間的映射函數(shù),Agent 依據(jù)策略π(a|s)生成動作a。

時(shí)間序列T:t∈T,t表示當(dāng)前時(shí)刻,t+1 表示t時(shí)刻的下一時(shí)刻。

Agent 根據(jù)輸入的環(huán)境狀態(tài)st由策略π(a|s)選取動作at作用于環(huán)境,環(huán)境狀態(tài)轉(zhuǎn)移至st+1,新的環(huán)境狀態(tài)st+1和動作執(zhí)行回報(bào)rt再次輸入Agent,Agent 評估策略π(a|s)優(yōu)劣程度,進(jìn)一步調(diào)整做出新的決策。

如圖2 所示,強(qiáng)化學(xué)習(xí)分為基于值函數(shù)(Value-based)的強(qiáng)化學(xué)習(xí)和基于策略函數(shù)(Policy-based)的強(qiáng)化學(xué)習(xí)。

圖2 強(qiáng)化學(xué)習(xí)分類

行動者-評論家(Actor-Critic)[11]算法結(jié)合了兩者優(yōu)勢,其結(jié)構(gòu)包括Actor 策略函數(shù)和Critic 值函數(shù)。Actor 產(chǎn)生動作,Critic 評價(jià)動作好壞,并生成時(shí)序差分(Temporal Difference,TD)誤差指導(dǎo)Actor 和Critic 更新。Actor 策略函數(shù)π(a|s)和Critic值函數(shù)(s,w)通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得。對于高維的狀態(tài)st和動作at數(shù)據(jù),構(gòu)建深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[12]提取數(shù)據(jù)特征,學(xué)習(xí)策略函數(shù)和值函數(shù)。

圖3 為Actor-Critic 邏輯架構(gòu)。圖中,Actor 網(wǎng)絡(luò)使用環(huán)境狀態(tài)st作為輸入,輸出動作at。Critic網(wǎng)絡(luò)計(jì)算動作最優(yōu)價(jià)值,Actor 利用最優(yōu)價(jià)值迭代更新網(wǎng)絡(luò)參數(shù)θ,進(jìn)而選擇新的動作作用于環(huán)境。Critic 使用環(huán)境反饋的回報(bào)at和環(huán)境新狀態(tài)st+1更新網(wǎng)絡(luò)參數(shù)w,然后使用新的參數(shù)w計(jì)算Actor 輸出動作的最優(yōu)價(jià)值。Critic 的評估點(diǎn)基于TD 誤差,TD 誤差代表了估計(jì)值與目標(biāo)值的誤差大小,誤差越大樣本的價(jià)值就越大。

圖3 Actor-Critic 邏輯架構(gòu)

TD 誤差的表達(dá)式為:

Critic 網(wǎng)絡(luò)使用均方差損失函數(shù)作為參數(shù)w的更新梯度,表達(dá)式為:

Actor 網(wǎng)絡(luò)使用帶權(quán)重的梯度更新策略網(wǎng)絡(luò)參數(shù)θ,表達(dá)式為:

2 基于DRL 的智能網(wǎng)絡(luò)安全防護(hù)

基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的網(wǎng)絡(luò)安全防護(hù)智能體學(xué)習(xí)引擎使用虛擬化的網(wǎng)絡(luò)空間綜合靶場作為“環(huán)境(Environment)”,并通過Actor-Critic 算法和深度神經(jīng)網(wǎng)絡(luò)構(gòu)建DRL 框架,如圖4 所示。

圖4 智能網(wǎng)絡(luò)安全防護(hù)DRL 框架

虛擬網(wǎng)絡(luò)空間綜合靶場基于云計(jì)算平臺構(gòu)建,作為實(shí)際網(wǎng)絡(luò)的仿真運(yùn)行環(huán)境[13-14],環(huán)境中的數(shù)據(jù)支持從實(shí)際網(wǎng)絡(luò)引入,從而使Agent 的訓(xùn)練學(xué)習(xí)面向真實(shí)環(huán)境。當(dāng)把虛擬化網(wǎng)絡(luò)空間綜合靶場換做實(shí)際網(wǎng)絡(luò)環(huán)境時(shí),Agent 可以直接使用不需要再做遷移學(xué)習(xí)。

2.1 狀態(tài)集合設(shè)計(jì)

狀態(tài)集合S是網(wǎng)絡(luò)狀態(tài)信息的集合,是網(wǎng)絡(luò)狀態(tài)已知信息的客觀描述數(shù)據(jù),是強(qiáng)化學(xué)習(xí)的重要數(shù)據(jù)。組成狀態(tài)集合的狀態(tài)要素分類如表1 所示。

表1 狀態(tài)要素

表1 中的狀態(tài)要素是一個(gè)分類,每個(gè)分類有更詳細(xì)的原子狀態(tài)信息,所有的原子狀態(tài)信息共同構(gòu)成環(huán)境狀態(tài)集合形成狀態(tài)空間,例如:攻擊對象原子狀態(tài)信息有計(jì)算機(jī)、網(wǎng)絡(luò)路由器、網(wǎng)絡(luò)交換機(jī)、系統(tǒng)、服務(wù),安全設(shè)備、工業(yè)設(shè)備等;計(jì)算機(jī)原子狀態(tài)信息有主機(jī)可訪問狀態(tài),操作系統(tǒng)類型,操作系統(tǒng)版本、權(quán)限、漏洞、存在脆弱性的服務(wù)和進(jìn)程等[15];攻擊來源原子狀態(tài)信息有IP 地址,域名,AS 號等。

2.2 動作集合設(shè)計(jì)

動作集合A是Agent 可以采取的操作的集合,策略st+1從動作集合中選取at執(zhí)行。組成動作集合的動作要素分類如表2 所示。

表2 動作要素

表2 中的動作要素是一個(gè)分類,每個(gè)分類有更詳細(xì)的原子動作,所有的原子動作共同構(gòu)成動作集合形成動作空間。

2.3 回報(bào)函數(shù)設(shè)計(jì)

2.3.1 回報(bào)函數(shù)

回報(bào)函數(shù)對強(qiáng)化學(xué)習(xí)的每步?jīng)Q策選擇動作進(jìn)行獎(jiǎng)勵(lì)或懲罰,評判動作性能。回報(bào)函數(shù)對強(qiáng)化學(xué)習(xí)過程起著導(dǎo)向作用,回報(bào)函數(shù)引導(dǎo)Agent 在與環(huán)境交互的過程中不斷修正策略以選擇價(jià)值回報(bào)最大的動作。

回報(bào)函數(shù)為:

Agent 選擇動作at執(zhí)行后,環(huán)境給出t時(shí)刻網(wǎng)絡(luò)攻擊威脅度xt∈X。如果xt大于閾值Xthreshold,進(jìn)行正值反饋對Agent 進(jìn)行獎(jiǎng)勵(lì);如果xt小于閾值Xthreshold,進(jìn)行負(fù)值反饋對Agent 進(jìn)行懲罰;xt等于閾值Xthreshold,不獎(jiǎng)勵(lì)也不懲罰。此處閾值Xthreshold不做特別規(guī)定,視具體情況自行定義。

2.3.2 基于動態(tài)貝葉斯的網(wǎng)絡(luò)攻擊威脅度評估

動態(tài)貝葉斯[16]網(wǎng)絡(luò)攻擊威脅度評估,首先確定攻擊威脅各組成要素及其關(guān)系,按照要素間關(guān)系建立對應(yīng)的貝葉斯模型;其次確定貝葉斯模型中各節(jié)點(diǎn)的先驗(yàn)概率和條件概率;最后進(jìn)行模型推理。

靜態(tài)貝葉斯模型在時(shí)間維度上展開得到動態(tài)貝葉斯模型,如圖5 所示。

圖5 動態(tài)貝葉斯網(wǎng)絡(luò)威脅度評估模型

動態(tài)貝葉斯網(wǎng)絡(luò)推理使用濾波算法利用過去結(jié)果和當(dāng)前證據(jù)預(yù)測當(dāng)前結(jié)果的推理方法,推理公式為:

式中:E代表證據(jù);X代表連接毗鄰時(shí)間片的節(jié)點(diǎn);t-1 代表過去;t代表當(dāng)前;P(Et)和P(Xt)是當(dāng)前證據(jù)E和節(jié)點(diǎn)X的先驗(yàn)概率;P(Xt|Et)是當(dāng)前網(wǎng)絡(luò)濾波推理前的概率結(jié)果;P(Xt-1|E1∶t-1)和P(Xt-1|E1∶t)是過去和當(dāng)前網(wǎng)絡(luò)濾波推理后的概率結(jié)果;是當(dāng)前和過去間節(jié)點(diǎn)X的狀態(tài)轉(zhuǎn)移概率;是過去網(wǎng)絡(luò)濾波推理后最大的概率結(jié)果對應(yīng)的狀態(tài);α是歸一化因子。

2.4 網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過程

圖6 為網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過程示意圖,訓(xùn)練部分包括網(wǎng)絡(luò)空間安全態(tài)勢狀態(tài)數(shù)據(jù)和安全防護(hù)動作相關(guān)的樣本數(shù)據(jù)集、虛擬網(wǎng)絡(luò)空間綜合靶場仿真環(huán)境、Actor 神經(jīng)網(wǎng)絡(luò)和Critic 神經(jīng)網(wǎng)絡(luò)。

圖6 中的網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過程描述如下。

圖6 網(wǎng)絡(luò)安全防護(hù)智能體訓(xùn)練過程

步驟1:構(gòu)建Actor 神經(jīng)網(wǎng)絡(luò)和Critic 神經(jīng)網(wǎng)絡(luò),形成Actor 策略網(wǎng)絡(luò)和Critic 價(jià)值網(wǎng)絡(luò)。由于網(wǎng)絡(luò)安全態(tài)勢數(shù)據(jù)和網(wǎng)絡(luò)安全防護(hù)動作數(shù)據(jù)是高維數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)構(gòu)建采用深層的深度神經(jīng)網(wǎng)絡(luò)。初始化神經(jīng)網(wǎng)絡(luò)參數(shù)、初始化訓(xùn)練次數(shù)、折扣因子、學(xué)習(xí)率等。

步驟2:引入實(shí)際網(wǎng)絡(luò)數(shù)據(jù),提取網(wǎng)絡(luò)安全攻擊數(shù)據(jù),按照動作集合設(shè)計(jì)中的動作要素構(gòu)建網(wǎng)絡(luò)安全防護(hù)動作數(shù)據(jù)集。

步驟3:將網(wǎng)絡(luò)安全態(tài)勢數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)輸入。

步驟4:Actor 策略網(wǎng)絡(luò)根據(jù)策略函數(shù)從動作空間A 中選擇actions 輸出給仿真環(huán)境。

步驟5:仿真環(huán)境執(zhí)行動作actions,動作執(zhí)行后的網(wǎng)絡(luò)攻擊威脅度和新的網(wǎng)絡(luò)安全態(tài)勢做為Critic 價(jià)值網(wǎng)絡(luò)的輸入。

步驟6:Critic 價(jià)值網(wǎng)絡(luò)計(jì)算TD 誤差(td_error),計(jì)算min(td_error2),使用策略梯度算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)w,同時(shí)將TD 誤差反饋給Actor 策略網(wǎng)絡(luò)。

步驟7:Actor 策略網(wǎng)絡(luò)使用策略梯度算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ。

步驟8:重復(fù)步驟3 至步驟7,直至訓(xùn)練結(jié)束。

步驟9:訓(xùn)練結(jié)束后,Actor 策略網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)到策略函數(shù)、Critic 價(jià)值網(wǎng)絡(luò)參數(shù)和學(xué)習(xí)到的價(jià)值函數(shù)共同構(gòu)成智能體Agent,訓(xùn)練過程獲得的目標(biāo)策略即是網(wǎng)絡(luò)安全攻擊與其相對應(yīng)的最優(yōu)安全防護(hù)策略。

3 結(jié)語

本文針對網(wǎng)絡(luò)空間安全防護(hù)如何智能化的問題進(jìn)行研究,探索了深度強(qiáng)化學(xué)習(xí)解決問題的方法和過程。將深度強(qiáng)化學(xué)習(xí)應(yīng)用在網(wǎng)絡(luò)空間安全防護(hù)領(lǐng)域,使用深度學(xué)習(xí)提取網(wǎng)絡(luò)安全態(tài)勢數(shù)據(jù)特征,構(gòu)建智能體,由回報(bào)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)決策導(dǎo)引,判斷策略和動作好壞,并通過在虛擬網(wǎng)絡(luò)空間綜合靶場訓(xùn)練學(xué)習(xí)獲得安全防護(hù)智能體和最優(yōu)安全防護(hù)策略集合。智能體在面對網(wǎng)絡(luò)攻擊時(shí)根據(jù)模型和策略快速應(yīng)對,并且強(qiáng)化學(xué)習(xí)從環(huán)境交互過程中學(xué)習(xí)的特性可以使智能體在線學(xué)習(xí)新的策略。

網(wǎng)絡(luò)空間已成為領(lǐng)土、領(lǐng)海、領(lǐng)空、太空之外的“第五空間”,是國家主權(quán)的新疆域,國家安全的重要組成部分。信息網(wǎng)絡(luò)安全已成為國家信息化建設(shè)的重要基礎(chǔ)支撐。信息與通信技術(shù)(Information and Communications Technology,ICT)和人工智能技術(shù)不斷取得的新進(jìn)展,為網(wǎng)絡(luò)空間安全防護(hù)提供了新手段新措施。此外,網(wǎng)絡(luò)空間安全對抗也將更加智能化,對該領(lǐng)域的研究將會持續(xù)深入。

猜你喜歡
網(wǎng)絡(luò)安全動作智能
網(wǎng)絡(luò)安全
網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實(shí)戰(zhàn)化”
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
上網(wǎng)時(shí)如何注意網(wǎng)絡(luò)安全?
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 无码高潮喷水专区久久| 午夜福利无码一区二区| 国产精品永久久久久| 99热这里只有免费国产精品| 一区二区三区四区日韩| 国产中文一区二区苍井空| 国产香蕉在线视频| 亚洲一区二区黄色| 亚洲国产精品日韩欧美一区| 制服丝袜 91视频| 国产乱论视频| 国产成本人片免费a∨短片| 国产日韩精品一区在线不卡 | 亚洲另类色| 999福利激情视频| 国产资源免费观看| 国产精品免费p区| 伊人久久大香线蕉影院| 亚洲午夜福利在线| 91在线激情在线观看| 亚洲成人免费看| 狠狠色丁婷婷综合久久| 国产精品视频999| 亚洲第一视频免费在线| 亚洲精品视频免费看| 欧美精品v欧洲精品| 亚洲国产无码有码| 97精品伊人久久大香线蕉| 亚洲天堂精品视频| 久久这里只有精品2| P尤物久久99国产综合精品| 成人午夜免费观看| 再看日本中文字幕在线观看| 亚洲成a人片77777在线播放| 少妇精品在线| 色视频国产| 欧美在线视频a| 国产亚洲视频播放9000| 久热re国产手机在线观看| 青青青视频蜜桃一区二区| 欧美第九页| 欧美三级视频在线播放| 毛片基地视频| 男女性午夜福利网站| 国内精品免费| 国产免费a级片| 99久久国产综合精品2023| 国产精品va免费视频| 中国国产高清免费AV片| 无码福利视频| 97久久精品人人做人人爽| 久久毛片免费基地| 精品人妻AV区| 热这里只有精品国产热门精品| 国产一区二区免费播放| 一级毛片在线播放| 精品国产黑色丝袜高跟鞋| 中文字幕在线观| 狠狠色香婷婷久久亚洲精品| 亚洲无码精品在线播放 | 日本欧美视频在线观看| 成人亚洲视频| 丁香六月激情综合| 99久久亚洲综合精品TS| 丝袜无码一区二区三区| 亚洲天堂日韩在线| 乱系列中文字幕在线视频| 亚亚洲乱码一二三四区| 日韩视频福利| 亚洲欧美一级一级a| 色噜噜久久| 亚洲欧美成人网| 亚洲欧美在线看片AI| 国产精品久久久久鬼色| 国产原创演绎剧情有字幕的| 国产剧情一区二区| 日本久久网站| 一区二区三区国产精品视频| 欧美国产菊爆免费观看 | 国产精品漂亮美女在线观看| 久久公开视频| 亚洲国产成人精品无码区性色|