鄭湘輝,張雪冰
(合肥財經職業學院 人工智能學院,安徽 合肥 230601)
互聯網以及計算機技術的迅猛發展,使得計算機與互聯網被廣泛應用于人們的生活以及工作中,這不僅使計算機網絡中存在的計算機網絡數據流數據不斷增加,也使計算機網絡數據流數據呈現出多樣化的特征,逐步形成計算機網絡大規模高維數據流[1-3]。與此同時,計算機網絡環境的日益復雜化無疑給各種網絡攻擊行為提供了可乘之機,各種攻擊類異常數據的存在,嚴重危害計算機網絡安全,若不及時對其實施有效挖掘,有效防范其可能帶來的計算機網絡安全風險,長此以往,勢必會對人們的生活以及工作帶來非常不利的影響[4-5]。
針對上述問題,康耀龍等人研究基于樸素貝葉斯的計算機網絡大規模高維數據流異常數據挖掘方法[6]、仇媛等人研究的基于長短期記憶網絡和滑動窗口的計算機網絡大規模高維數據流異常數據挖掘方法[7]。前者通過重構假象空間,計算網絡數據流數據向量之間的歐式距離,有效獲取度量策略;通過網絡數據流數據偏差比計算以及網絡數據流數據節點概率化瞬態計算等操作實現計算機網絡數據流異常數據挖掘;后者使用LSTM網絡對計算機網絡數據流數據實施有效預測,并合理求解其與實際計算機網絡數據流數據之間存在的差值,之后為各計算機網絡數據流數據挑選恰當的滑動窗口,對存在于滑動窗口某一區間內的全部差值執行有效分布建模操作,再依據各差值的概率分布密度,判別數據異常狀況。二者均可實現計算機網絡數據流異常數據挖掘,但是當待挖掘的計算機網絡數據流數據規模龐大時,異常數據挖掘效果并不理想。
加權離群分數算法在計算機網絡大規模高維數據流異常數據挖掘工作中優勢顯著,可較為理想地從計算機網絡大規模高維度數據流數據中分離出計算機網絡數據流異常數據。為此,本文提出基于加權離群分數的計算機網絡大規模高維數據流異常數據挖掘方法,更好滿足實際工作需要。
能夠從計算機網絡中采集到有效的計算機網絡數據流數據是能夠完成計算機網絡數據流異常數據挖掘工作的關鍵[8-9]。鑒于爬蟲技術在計算機網絡數據采集工作方面的優勢,本文使用基于Python網絡爬蟲的數據采集技術采集計算機網絡數據流數據,具體的采集技術架構如圖1所示。

圖1 采集技術架構
在該采集技術架構中,總調度模塊相當于整個數據采集工作的總指揮,它作為爬蟲程序的有效總入口,其主要職責是對各個模塊實施合理調度;URL管理器承擔的主要職責是負責管理全部的URL;頁面下載器的主要職責是在URL管理器中獲得相應的URL以后,利用其所擁有的優越下載性能獲取不同格式的URL頁面數據;頁面解析器承擔的主要職責是對從頁面下載器取獲的網絡數據執行有效的數據處理操作,去除其中的噪聲元素,獲得較為理想的目標網絡數據;數據存儲模塊的主要職責是對在接收到由頁面解析器發送過來的相關網絡數據后,對所獲數據實施分類存儲,將結構化以及非結構化數據分別發送給相應的數據庫以及本地硬盤存儲,并實施合理的索引構建操作;線程管理模塊的應用,主要是能夠使客戶按實際需求設置爬取作業需要的線程數量,從而顯著提升數據采集工作的效率;robots管理器承擔的主要職責是對爬取網站當中應用的robots協議執行有效的下載與更新操作,并按robots協議相關描述對爬取地址目錄執行合理調用操作;異常處理模塊是技術架構中所有模塊均接入的模塊,一旦數據采集過程發生異常,便可觸發異常處理模塊實施相應處理,并將其記錄到相應的日志信息庫中,供實際工作參考。
在實際的計算機網絡數據流數據采集工作中,采集架構中的各模塊由總調度模塊采用合理的總調度程序,實施合理調度完成相應數據采集工作[10-11],用戶在確定好將要爬取的計算機網絡數據主題后,構建相應的數據庫,在完成總調度模塊參數初始化設置工作后,總調度模塊會在URL管理器中調用出一個URL,并啟動robots管理器,合理檢驗URL目錄結構是否符合相關規定,若不符合,需要重新在URL管理器中調用出一個URL,若符合,啟動頁面下載器,并執行數據下載工作。若下載過程中出現異常,觸動異常處理模塊實施相應處理,若未出現異常,下載工作完畢后,啟動頁面解析器實施有效的數據解析操作,辨別所獲數據為URL數據還是目標主題網絡數據,若為URL數據將其發送至URL數據庫實施存儲,若是目標主題網絡數據,啟動數據存儲模塊向相應的數據庫發送數據,存儲完畢后,繼續執行數據爬取操作,若處理過程出現異常,同樣觸動異常處理模塊實施相應處理。
通常采集到的計算機網絡數據流數據的規模會比較龐大,數據的維度也會比較高[12-13],加之受采集環境以及各種其他因素影響,獲取到的計算機網絡數據流數據中,可能會包含一些不相關的,缺失以及錯誤的數據,這無疑會影響計算機網絡數據流異常數據挖掘工作的準確性以及效率。在本文中為收獲較為理想的計算機網絡數據流異常數據挖掘效果,在采集完計算機網絡數據流數據后,使用基于軟件總線模型的數據清洗技術對其執行必要的數據清洗操作,具體的數據清洗技術架構如圖2所示。

圖2 數據清洗技術架構
使用數據源包裝器對來自各計算機網絡數據源的計算機網路數據流數據執行有效的數據封裝操作,將其轉換成符合數據清洗總線要求格式的有效數據,并發送給數據清洗總線,數據清洗總線按計算機網絡數據中包含的信息調用數據清洗組件庫中的相應組件,對計算機網絡數據流數據實施合理清洗[14-15],清洗完畢后將其重新發送給數據清洗總線,并將其放入清洗結果集,等待相關專家明確數據無誤后,再放入到相應的計算機網絡數據庫中實施相應存儲。
以往在利用傳統加權離群分數算法進行計算機網絡大規模數據流異常數據挖掘時,若待挖掘的計算機網絡數據流數據存在明顯的樞紐現象時,很難以較快的速度準確實現計算機網絡數據流異常數據挖掘,針對上述問題,本文使用基于樞紐現象與加權離群分數的離群數據挖掘算法完成計算機網絡數據流異常數據挖掘工作。具體的異常數據挖掘流程如下:
(1)對計算機網絡數據流數據集中的各個計算機網絡數據流數據對象執行K近鄰查詢操作,獲取各計算機網絡數據流數據對象i在其他計算機網絡數據流數據對象K近鄰列表內出現的準確次數,將該次數標記為Gk(i),并通過對Gk(i)執行合理的歸一化操作,求解各計算機網絡數據流數據對象i的離群分數。具體的求解過程用公式(1)可描述。
ai=1÷(1+Gk(i))
(1)
式(1)中,計算機網絡數據流數據對象i的離群分數用ai標記。即使是在計算機網絡數據流數據對象i在其余計算機網絡數據流數據對象K近鄰列表內出現的準確次數為0條件下,式(1)也依然成立。
(2)求解計算機網絡數據流數據對象i的K近鄰數據對象離群分數和。具體的求解過程可用公式(2)描述。
aggi=∑j∈GG(k,i)aj
(2)
式(2)中,計算機網絡數據流數據對象i的K近鄰網絡數據流數據對象離群分數和用aggi標記;j標記的是計算機網絡數據流數據對象i的K近鄰;GG(k,i)標記的是i的K近鄰列表。
(3)對aggi執行有效的加權操作,獲得加權后的aggi。通常擁有較大ai的計算機網絡數據流數據對象,會擁有較小的Gk(i)值,也就是說此時計算機網絡數據流數據對象i出現在其K近鄰數據列表中的概率為0或者極低。因ai從本質上具有一定的離散性能,故對離群的計算機網絡數據流數據以及正常的計算機網絡數據流數據區分性能并不佳,為顯著提升離群的計算機網絡數據流數據以及正常計算機網絡數據流數據之間的區分度,引入K近鄰權值,對aggi執行有效的加權操作,引入的K近鄰權值實質上是一種距離信息,該權值實際上標記的是給定計算機網絡數據流數據對象所具有的K近鄰距離與計算機網絡數據流數據集具有的K近鄰距離平均值之間相除,獲得的有效比值,在本文中用ωi標記,其求解過程用公式(3)描述。
ωi=averDisk(i)÷averDisk
(3)
式(3)中,計算機網絡數據流數據對象i的K近鄰距離以及計算機網絡數據流數據集的K近鄰距離平均值分別用averDisk(i)、averDisk標記。
在通過式(3)獲取到ωi后,可將具體的aggi加權過程用公式(4)描述。
Waggi=aggi×ωi
(4)
式(4)中,Wggi標記的是執行加權操作后的aggi;ωi標記的是K近鄰權值。
(4)執行區分度閾值隨機生成操作,并以所獲閾值為可靠依據對區分度比例滿意值實施有效判別,在本文中將區分度比例滿意值標記為α′,以獲取的α′為數據支撐,求解計算機網絡數據流數據對象的離群度,各個計算機網絡數據流數據離群度求解工作完成后,離群度最高的某些計算機網路數據流數據便為離群數據,即計算機網絡數據流異常數據。在明確α′后,計算機網絡數據流數據對象的離群度可通過式(5)實現求解。
cti=(-α′+1)×ai+α′×Waggi
(5)
式(5)中,計算機網絡數據流數據對象i的離群度用cti標記。
根據上一小節所闡述的加權離群算法,能夠有效判別輸入的計算機網絡數據流數據是正常數據還是異常數據,但是卻無法識別出計算機網絡數據流數據的異常數據類型,卷積神經網絡雖具有良好的數據分類性能,但不適合大規模高維數據挖掘,但卻可以在高維數據規模較小時,用于完成異常數據類型識別工作。為此,在本文中使用卷積神經網絡對經加權離群算法挖掘出的計算機網絡數據流異常數據實施異常數據類型識別,具體的識別過程如下。
(1)使用基于非負Tucker3分解的高維數據特征提取算法提取計算機網絡大規模高維數據流異常數據特征,獲取計算機網絡大規模高維數據流異常特征數據。
(2)計算機網絡大規模高維數據流異常特征數據歸一化。對計算機網絡大規模高維數據流異常特征數據實施歸一化的實質就是將具有不同維度的計算機網絡數據流異常特征值向同區間實施合理映射,使各計算機網絡數據流異常特征數據擁有相同的數量級[16-17]。以往工作中,通常將計算機網絡數據流異常特征數據映射到[-1,1]區間內,本文為方便后續計算,將其映射到區間[0,1],具體的歸一化過程用公式(6)描述。
(6)
式(6)中,歸一化前的計算機網絡數據流異常特征數據值用φ標記;歸一化后的計算機網絡數據流異常特征數據值用φ?標記;max、min標記的是φ的最高以及最低值。
(3)卷積神經網絡計算機網絡數據流異常數據類型識別模型構建。構建的計算機網絡數據流異常數據類型識別模型如圖3所示。

圖3 計算機網絡數據流異常數據類型識別模型
在將有效的計算機網絡數據流異常特征數據輸入到該模型后,經過有效的模型訓練,便可輸出較為理想的計算機網絡數據流異常數據類型。
本文實驗以地處我國H省B市某科技大學的校園計算機網絡環境為實驗對象。實驗中所使用的計算機網絡數據流數據主要來自該校用于向學生以及教職工提供各種服務的校園網絡,具體包含V01、V03、V05、V07、V09以及V11六個服務網絡,應用本文方法對該科技大學校園計算機網絡中存在的計算機網絡數據流數據實施有效采集,用于實驗研究。選擇該科技大學校園計算機網絡環境為實驗對象的原因是其網絡環境相對比較簡單、安全,很少發生網絡攻擊行為,網絡中幾乎無異常數據存在,即使有也是很難被檢測出來的,完全可以忽略不計,因而在某一時段向其加入若干攻擊數據后,應用本文方法對其實施合理挖掘,可很好驗證本文方法有效性。
本文在V01、V03、V05、V07、V09以及V11六個校園服務網絡的部分主機上執行攻擊模擬操作,向各校園服務網絡中加入不同攻擊類型異常數據,計算機網絡異常數據加入情況如表1所示。

表1 計算機網絡異常數據加入情況 單位:個
應用本文方法對加入不同類型攻擊異常數據后的校園計算機網絡,實施有效異常數據挖掘,獲得計算機網絡數據流異常數據挖掘結果如表2所示。

表2 計算機網絡數據流異常數據挖掘結果
由表2可以看出,應用本文方法可以實現計算機網絡大規模高維數據流異常數據挖掘,根據挖掘結果積極采取措施對計算機網絡環境實施相關保護,可有效保障計算機網絡安全穩定運行。
應用本文方法對該高校計算機網絡實施計算機網絡數據流數據異常挖掘,獲得的計算機網絡數據流數據異常狀況挖掘效果如表3所示。在2022年3月29日6:00到12:00,應用本文方法對該高校計算機網絡實施計算機網絡數據流數據異常挖掘獲得的異常數據類型挖掘效果如圖4所示。

表3 計算機網絡數據流數據異常狀況挖掘效果 單位:個
由表3與圖4可知,本文方法在計算機網絡大規模高維數據流異常數據挖掘工作方面具有較高的挖掘準確性,將其應用于實際工作,能夠更好保障計算機網絡安全。
應用本文方法可以實現計算機網絡大規模高維數據流異常數據挖掘,并且數據挖掘效果較好。其在計算機網絡大規模高維數據流異常數據挖掘工作方面的有效性主要體現在:應用本文方法可以實現計算機網絡大規模高維數據流異常數據挖掘,并且可將計算機網絡中存在的大規模高維數據流異常數據全部挖掘出來,挖掘出的計算機網絡數據流異常數據類型與實際異常數據類型完全一致,將其應用于實際工作,可收獲較為理想的工作效果。