董慧
(西安明德理工學(xué)院,陜西西安 710124)
強化學(xué)習(xí)也稱增強學(xué)習(xí)、評價學(xué)習(xí)或再勵學(xué)習(xí),作為機器學(xué)習(xí)范疇中最主要的應(yīng)用方法之一,能夠較好地描述智能體在網(wǎng)絡(luò)環(huán)境中存在的數(shù)據(jù)信息處理能力,從而解決與特定信息目標相關(guān)的最大化應(yīng)用問題[1]。強化學(xué)習(xí)算法主要沿用傳統(tǒng)的馬爾可夫決策思想,按照已給定的數(shù)值條件,將待處理信息參量分成已學(xué)習(xí)與未學(xué)習(xí)兩部分,并分別對其進行指向性的操作與處理。在實際應(yīng)用過程中,深度學(xué)習(xí)模型對于數(shù)據(jù)信息的記憶逐漸加深,并最終形成網(wǎng)絡(luò)處理環(huán)境所需的強化學(xué)習(xí)模型。
網(wǎng)絡(luò)數(shù)據(jù)流異常檢測是一種常見的信息參量處理手段,可在維護網(wǎng)絡(luò)應(yīng)用安全的同時,對非常規(guī)數(shù)據(jù)信息進行剔除處理[2]。然而傳統(tǒng)KNN 估算型檢測模型在單位時間內(nèi)所能檢測的數(shù)據(jù)信息量有限,并不能較好屏蔽異常信息流對數(shù)據(jù)節(jié)點造成的實質(zhì)性攻擊。為解決此問題,引入強化學(xué)習(xí)理論,在PLVF-TD 學(xué)習(xí)框架、Storm 流式處理平臺等結(jié)構(gòu)的支持下,搭建一種新型的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型。在確定分段線性值函數(shù)條件的同時,對異常數(shù)據(jù)特征的檢測屬性進行精準計算,從而實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)流傳輸環(huán)境的有效保護。
網(wǎng)絡(luò)數(shù)據(jù)流的強化特性學(xué)習(xí)包含PLVF-TD 學(xué)習(xí)框架搭建、分段線性值函數(shù)設(shè)計、局部節(jié)點泛化能力分析3 個處理環(huán)節(jié)。
PLVF-TD 學(xué)習(xí)框架可按照網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)流信息的傳輸需求,確定必要的數(shù)據(jù)格式轉(zhuǎn)換條件,再借助存儲型數(shù)據(jù)庫建立分段線性值函數(shù)。一般情況下,PLVF-TD 格式必須滿足網(wǎng)絡(luò)數(shù)據(jù)流信息的轉(zhuǎn)換需求,可在將信息參量存儲于數(shù)據(jù)庫結(jié)構(gòu)體之中的同時,分別調(diào)取網(wǎng)絡(luò)環(huán)境中的異常數(shù)據(jù)流與常規(guī)數(shù)據(jù)流。一方面按照信息參量的傳輸需求,計算分段線性值函數(shù)建立所需的各項數(shù)值量條件,另一方面也可使數(shù)據(jù)信息的網(wǎng)絡(luò)傳輸環(huán)境得到較好的穩(wěn)定與維護[3-4]。PLVF-TD 學(xué)習(xí)框架如圖1 所示。

圖1 PLVF-TD學(xué)習(xí)框架示意圖
分段線性值函數(shù)是對網(wǎng)絡(luò)數(shù)據(jù)流異常檢測行為的約束性條件。一般情況下,相關(guān)參與變量的物理數(shù)值越大,最終計算所得的函數(shù)值條件越能清晰描述強化學(xué)習(xí)算法所具備的應(yīng)用性能力[5-6]。規(guī)定i0代表最小的網(wǎng)絡(luò)數(shù)據(jù)流信息線性分段系數(shù),由于強化學(xué)習(xí)算法的影響,該項物理量指標始終不具備無線擴展的能力,相反會隨傳輸數(shù)據(jù)量的增大,而出現(xiàn)適當?shù)目s小變化趨勢。x0代表網(wǎng)絡(luò)環(huán)境中理想化的數(shù)據(jù)流傳輸行為參量,由于網(wǎng)絡(luò)結(jié)構(gòu)體具有多樣性變化,該項物理量的數(shù)值水平始終不具備超過實際數(shù)據(jù)流傳輸行為參量x的能力。聯(lián)立上述物理量,可將網(wǎng)絡(luò)數(shù)據(jù)流的分段線性值函數(shù)條件定義為:

式中,f代表強化學(xué)習(xí)算法的應(yīng)用系數(shù)值,代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常性傳輸特征參量,e1、e2分別代表兩個不同的數(shù)據(jù)信息強化系數(shù)。
局部節(jié)點泛化能力是強化學(xué)習(xí)算法所具有的特殊執(zhí)行能力,可在網(wǎng)絡(luò)環(huán)境中對常規(guī)數(shù)據(jù)流與異常數(shù)據(jù)流進行有效區(qū)分,從而降低后續(xù)檢測指令執(zhí)行的復(fù)雜化程度[7]。由于強化學(xué)習(xí)算法的影響,局部節(jié)點所具備的泛化能力不宜過強,僅需滿足網(wǎng)絡(luò)環(huán)境對于常規(guī)數(shù)據(jù)流信息的調(diào)取需求即可。若待檢測的網(wǎng)絡(luò)數(shù)據(jù)流信息量過大,不僅會對分段線性值函數(shù)造成抑制性影響,也會使網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)信息參量的傳輸穩(wěn)定性大幅下降[8-9]。設(shè)r0代表強化學(xué)習(xí)算法作用下的最小網(wǎng)絡(luò)節(jié)點泛化條件,β代表網(wǎng)絡(luò)數(shù)據(jù)流信息的局部泛化系數(shù)。在上述物理量的支持下,聯(lián)立式(1),可將網(wǎng)絡(luò)環(huán)境中的局部節(jié)點泛化能力表示為:

其中,ymin代表最小的數(shù)據(jù)流信息傳輸特征值,ymax代表最大的數(shù)據(jù)流信息傳輸特征值,s1、s2分別代表兩個不同的網(wǎng)絡(luò)局部節(jié)點泛化指標。
在網(wǎng)絡(luò)數(shù)據(jù)流強化特性學(xué)習(xí)條件的支持下,按照Storm 流式處理平臺搭建、網(wǎng)絡(luò)數(shù)據(jù)流特征選取、異常數(shù)據(jù)特征檢測屬性量計算的處理流程,實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的順利應(yīng)用。
Storm 流式處理平臺負責對網(wǎng)絡(luò)數(shù)據(jù)流信息進行整合與處理,并可借助強化學(xué)習(xí)算法,實現(xiàn)對局部節(jié)點泛化特征與泛化能力的有效維護[10-11]。在網(wǎng)絡(luò)傳輸環(huán)境中,常規(guī)數(shù)據(jù)流信息只能由邊緣節(jié)點位置向著中心節(jié)點位置反饋,并可根據(jù)信息參量的實際傳輸需求,將這些數(shù)據(jù)流文件妥善安置于合適的網(wǎng)絡(luò)節(jié)點位置處。一般情況下,Storm 平臺所承擔的數(shù)據(jù)信息檢測需求量越大,異常數(shù)據(jù)流對于網(wǎng)絡(luò)環(huán)境的攻擊能力也就越強。因此,為保證網(wǎng)絡(luò)傳輸環(huán)境中數(shù)據(jù)信息參量的應(yīng)用穩(wěn)定性,需要在維持Storm 流式處理平臺連接可靠性的同時,對數(shù)據(jù)流信息參量進行均分化處理[12-13]。Storm 流式處理平臺示意圖如圖2 所示。

圖2 Storm流式處理平臺示意圖
網(wǎng)絡(luò)數(shù)據(jù)流的異常檢測應(yīng)以已選取的數(shù)據(jù)流特征作為基礎(chǔ)參考條件,并遵照強化學(xué)習(xí)算法的實際應(yīng)用需求,對Storm 流式處理平臺的執(zhí)行能力進行判斷。若平臺執(zhí)行能力可與網(wǎng)絡(luò)數(shù)據(jù)流特征匹配,則認為現(xiàn)有數(shù)據(jù)流異常檢測制度有效;若平臺執(zhí)行能力并不能與網(wǎng)絡(luò)數(shù)據(jù)流特征匹配,則認為現(xiàn)有數(shù)據(jù)流異常檢測制度無效[14]。在發(fā)生異常數(shù)據(jù)流攻擊行為時,一個局部節(jié)點往往需要同時對應(yīng)多個IP 地址端口,且隨著攻擊行為強度的增大,若繼續(xù)維持現(xiàn)有數(shù)據(jù)流傳輸形式,則會導(dǎo)致虛假數(shù)據(jù)包的快速復(fù)制。設(shè)k0代表網(wǎng)絡(luò)數(shù)據(jù)流信息的最小復(fù)制條件,kn代表網(wǎng)絡(luò)數(shù)據(jù)流信息的最大復(fù)制條件,n代表網(wǎng)絡(luò)數(shù)據(jù)流信息的實際迭代次數(shù),聯(lián)立式(2),可將網(wǎng)絡(luò)數(shù)據(jù)流特征選取結(jié)果表示為:

式(3)中,f代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常檢測行為指標,h代表網(wǎng)絡(luò)數(shù)據(jù)流信息的常規(guī)檢測行為指標,代表網(wǎng)絡(luò)數(shù)據(jù)流信息的異常傳輸均值,代表網(wǎng)絡(luò)數(shù)據(jù)流信息的常規(guī)傳輸均值。
對于已抓包的網(wǎng)絡(luò)數(shù)據(jù)流異常信息來說,特征檢測屬性量計算能夠在確定數(shù)學(xué)建模條件的同時,將已提取的信息參量劃分成多個可供選擇的應(yīng)用系數(shù)指標,從而實現(xiàn)對網(wǎng)絡(luò)信息傳輸環(huán)境的有效保護。在不考慮其他干擾條件的情況下,異常數(shù)據(jù)特征檢測屬性量僅受到數(shù)據(jù)流傳輸總量、異常行為系數(shù)兩項物理量的直接影響[15-16]。數(shù)據(jù)流傳輸總量可表示為ξ,在既定檢測時長內(nèi),該項物理量始終具備較強的累積變化能力。異常行為系數(shù)可表示為λ,受到強化學(xué)習(xí)機制的影響,該項物理量的變化能力有限,且可隨檢測數(shù)據(jù)流信息量的增大而出現(xiàn)逐漸遞增的變化狀態(tài)。聯(lián)立上述物理量,可將異常數(shù)據(jù)特征的檢測屬性量計算結(jié)果表示為:

為驗證基于強化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的實際應(yīng)用能力,設(shè)計如下對比實驗。在圖3所示檢測環(huán)境中,以網(wǎng)絡(luò)數(shù)據(jù)庫作為信息參量的核心輸出主機,將這些數(shù)據(jù)信息文件分別輸入檢測主機中,其中檢測主機1 搭載基于強化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型(實驗組),檢測主機2 搭載KNN 估算型檢測模型(對照組1),檢測主機3 不搭載任何檢測模型(對照組2)。

圖3 網(wǎng)絡(luò)數(shù)據(jù)流異常檢測環(huán)境
PSU 指標能夠描述異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點的攻擊性強度,一般情況下,PSU 指標數(shù)值越大,異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點的攻擊性強度就越高,反之則越低。PSU 指標數(shù)值變化如表1 所示。

表1 PSU指標數(shù)值對比表
分析表1 可知,實驗組PSU 指標在整個實驗過程中始終保持不斷上升的數(shù)值變化趨勢,但實驗后期的上升幅度明顯小于實驗前期;對照組1 的PSU指標則在一定時間的穩(wěn)定狀態(tài)后,開始出現(xiàn)小幅度的上升;對照組2 的PSU 指標則始終保持明顯上升的數(shù)值變化趨勢。隨著基于強化學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的應(yīng)用,PSU 指標數(shù)值的上升趨勢得到有效控制,可較好抑制異常信息流對網(wǎng)絡(luò)數(shù)據(jù)節(jié)點的攻擊性強度水平。
DLP 指標可描述網(wǎng)絡(luò)主機對于常規(guī)信息參量的提取精度水平,一般情況下,DLP 指標數(shù)值越大,網(wǎng)絡(luò)主機對于常規(guī)信息參量的提取精度也就越高。DLP 指標的變化情況如表2 所示。
分析表2 可知,實驗組DLP 指標在整個實驗過程中維持先上升、再穩(wěn)定的數(shù)值變化趨勢;對照組1的DLP 指標始終保持相對穩(wěn)定的波動性變化狀態(tài);對照組2 的DLP 指標則基本保持上升與下降交替出現(xiàn)的數(shù)值變化趨勢。隨著所設(shè)計網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型的應(yīng)用,DLP 指標的表現(xiàn)數(shù)值水平得到了有效促進,能夠持續(xù)增強網(wǎng)絡(luò)主機對于常規(guī)信息參量的提取精確度水平。

表2 DLP指標數(shù)值對比表
在強化學(xué)習(xí)理論的作用下,新型網(wǎng)絡(luò)數(shù)據(jù)流異常檢測數(shù)學(xué)模型可針對常規(guī)信息參量捕獲精確性較差的問題進行改進,且隨著PLVF-TD 學(xué)習(xí)框架、Storm 流式處理平臺的應(yīng)用,局部節(jié)點的泛化能力得到大幅增強,不僅能使網(wǎng)絡(luò)環(huán)境免于遭受異常數(shù)據(jù)流的攻擊,也可實現(xiàn)對異常數(shù)據(jù)特征檢測屬性量值的準確計算。