





摘要:在當前計算機網絡系統建設中,大數據技術與人工智能技術發揮著積極作用,在強化系統功能、保證數據安全中的意義重大。從計算機網絡系統安全入手,分別闡述大數據技術與人工智能兩項技術在提升系統網絡安全中的應用方案。基于大數據技術構建了面向網絡安全的流量感知與分析系統,通過人工智能則打造了拓撲網絡攻擊檢測軟件。兩種軟件的最終測試數據顯示,上述系統的操作性強、功能強大,在提升計算機網絡系統安全中發揮著積極作用,值得推廣。
關鍵詞:計算機網絡系統;大數據;人工智能;網絡安全
一、前言
一直以來,計算機網絡系統安全建設是學術界重點關注的問題,相關學者研究認為,在當前信息技術變革的大背景下,計算機網絡所面臨的安全威脅呈現出復雜化、多樣化的態勢,如何保證數據傳輸過程中的安全性與可靠性成為行業發展的主要方向。從相關技術發展建設現狀來看,大數據與人工智能作為現代化信息網絡技術的代表,在計算機網絡系統建設與發展中發揮著積極作用,并且與傳統技術方案相比,二者在數據整合、異常行為感知中發揮著重大作用,為提升網絡安全水平提供了新的發展思路,值得關注。
二、大數據技術在計算機網絡系統安全中的應用
(一)大數據技術的選擇
為進一步提升系統安全水平,本次研究采用Hadoop開源大數據框架,該技術結構能夠實現從單臺計算機到數千臺計算機的擴展,在信息系統安全改造中能利用簡單的數據編程模式完成分布式數據處理,因此在計算機網絡系統安全中能夠提供更為強大的流量感知功能[1]。
(二)面向大數據的異常流量識別
通過構建異常流量分析與預警模型能夠記錄整個網絡系統中的流量變化,在綜合對比不同技術的優勢之后,發現k-means算法具有實現簡單、聚類效果滿意的優點,可以作為本次大數據識別的突破口。該算法的基本操作步驟為:
步驟1,構建聚類分數K,在目標樣本中選取K個數據,將其劃分為本次異常流量識別的聚類中心。
步驟2,計算中心點與非中心數據點之間的距離,并通過數次迭代的方法使所有點位之間的距離逐漸趨于穩定。若結果顯示穩定,則可執行“步驟4”;若結果不穩定,即可執行“步驟3”。
步驟3,確定每個類中的新參數并設定對應的聚類中心,同時完成步驟2的操作。
步驟4,獲得最優化的聚類中心,并輸出面向異常流量的所屬類別相對應的聚類中心。
在上述操作步驟的基礎上,整個算法模型的計算過程如公式(1)所示。
(1)
在公式(1)中,C1表示已經生成的簇類中心,Ct+1則表示簇類中心下一次迭代的輸出結果,表示衰減因子,nt表示迭代后該位置簇類點的數量,xt則表示新到的數據中分到該簇類的數據的中心點,mt表示新到數據中分配到該簇類中的數據個數。
在正常的計算機網絡條件下,異常流量依然是無法避免的問題,但相關文獻[ 2]統計后認為,當異常流量的占比維持在1.5%~2.0%時屬于正常水平。基于上述研究結果,在數據聚類處理過程中,正常流量依然會維持相當大的占比,而異常流量則會相對分散,基本不會出現異常流量明顯聚集的問題。
(三)異常流量識別的操作步驟
本文基于Hadoop開源大數據框架與k-means算法構建的異常流量識別運算過程如圖1所示。
(四)異常流量預警
為進一步提升計算機網絡系統的安全等級水平,需要通過異常流量預警的方法強化系統對異常流量的識別能力。基于上述要求,在本次系統設計中將異常流量預警模型布設在整個分析模塊的下游位置,并能與異常流量識別模塊之間形成關鍵信息交互,異常流量預警模塊收到數據資料后,分析查找其中哪些是異常流量信息并將異常流量提取、匯總在一起[3]。此時只需要識別異常流量數據中的對應IP地址就能持續鎖定異常IP,減少計算機網絡系統后期所面臨的損失。系統在獲得異常流量預警數據后,能將相關預警內容填寫到“err_topic”模塊中達到長期智能識別目標IP的效果。除此之外,系統將觸發攻擊溯源請求,最終獲得邊界路由到被攻擊節點之間的關鍵信息。
(五)面向大數據的攻擊溯源識別
攻擊溯源識別是異常流量預警模塊的重要組成部分,對整個系統安全有直接影響,因此本文引入遞歸式攻擊溯源識別模型,該模型的優勢是不區分攻擊過程中的子模塊與主模塊,只需要完成部署后即可針對每一個攻擊過程完成溯源,并遞歸向最鄰近的模塊發送溯源請求,直至攻擊過程被完全識別。
(六)系統功能評估
1.構建訓練模型
為判斷上述系統設計方案的合理性,通過功能測試的方法綜合評價整個系統的安全性情況。本次系統測試的環境是在VMware基礎上搭設的,共包括4臺虛擬主機,均采用CentOS6.5系統。
2.異常流量識別測試
在上述測試環境搭設結束后即可做異常流量模型訓練。本環節訓練中采用CICID數據集,該數據集能更真實地體現網絡情況,模擬僵尸網絡造成的Dos攻擊情況。模擬過程中所產生的數據集格式主要包括“.pcap”格式與“.csv”格式兩種,數據流信息的總量達到98119條。系統對數據流量的判斷標準結果見表1。
根據表1所記錄的異常流量占比可以發現,其占比達到了3.98%,明顯高出上文提出的“1.5%~2.0%”正常范圍值,提示本次仿真中存在計算機網絡系統安全風險,網絡安全問題得到識別。
3.網絡攻擊溯源判定
在OPNET軟件上搭設面向攻擊溯源系統的網絡拓撲結構,該軟件具有強大的網絡仿真與識別能力,能真實還原現實生活中的網絡設備之間的連接關系,可在Windows系統中正常運行。本次網絡攻擊溯源模擬的主要目的是判斷整個系統在面臨安全攻擊下的防護效果。最終數據資料見表2。
根據表2所統計的相關數據可發現,在運用遞歸式攻擊溯源識別模型后,隨著時間的延長能顯著提升攻擊溯源成功次數,但當模型測試時間達到15分鐘后,平均成功占比超過98.0%,并且測試結果與20分鐘、30分鐘的數據相比差異不顯著,因此可以認為,在使用遞歸式攻擊溯源識別模型后,只需要連續運行15分鐘即可取得滿意效果,能夠達到網絡攻擊溯源的效果。
在啟動遞歸式攻擊溯源識別模型后,再一次測試數據集流量變化情況,結果顯示異常流量數量從測試前的3909條下降至1643條,占比僅為1.67%,屬于正常水平。出現該結果的原因可能為遞歸式攻擊溯源識別模型的使用能有效預防異常IP對計算機網絡系統的攻擊行為,具有可行性。
三、人工智能技術在網絡安全中的應用
(一)人工智能技術的選擇
為保證計算機網絡系統安全,本次研究引入循環神經網絡模型技術,該技術能針對具有時間序列特征的數據完成深入處理,獲得與數據相關的時序參數,并將遞歸化數據結果反饋到神經網絡中[4]。該方法的計算過程可以用公式(2)來表述。
(2)
在公式(2)中,Ot表示循環神經網絡模型輸出層參數,g表示輸出層權重值,V表示隱藏層和輸出層之間權重矩陣輸出結果,St表示W加權計算后得到隱藏層數值,W表示模型最初的權重矩陣輸出值,U表示權重矩陣的有序輸入數列,Xt表示網絡輸入層的輸入數據,St-1表示St運算的前一時刻,f表示矩陣的相對系數。
(二)計算機網絡系統的安全檢測方法
1.人工智能技術的運算模型
在循環神經網絡模型技術的支持下,本次計算機網絡系統安全識別使用在客戶端本地模型上存儲的數據完成訓練,并將每個輪次的臨時模型訓練結果發送至中央服務器上,此時中央服務器可以按照客戶端的權重值將其匯總并整合在一起,最終構建完整的參數模型集合,并將該模型的相關數據更新至對應的客戶端上。客戶端則可以按照新模型完成下一環節的訓練,直至滿足使用要求為止。
該方法的基本運算步驟為:
步驟1,先完成數據預處理,其間可根據數據的用途將數據劃分為不同的處理集合。
步驟2,客戶端獲得中央服務器下發的初始循環神經網絡模型。
步驟3,利用本次數據集完成循環神經網絡模型的初次訓練,在訓練結束后先評估本地數據集結果。
步驟4,將本次循環神經網絡模型評估結果上傳到中央服務器。
步驟5,中央服務器更新相關資料,并根據權重完成客戶端參數更新聚合,形成新的循環神經網絡模型。
步驟6,經中央服務器下發新的循環神經網絡模型。
步驟7,重復步驟3至步驟6的過程,直至循環神經網絡模型完成收斂,即可結束本次訓練。
步驟8,對循環神經網絡模型的最終測試結果展開評估。
2.提取僵尸網絡拓撲特征
在計算機網絡系統安全處理中,提取僵尸網絡拓撲特征是其中的關鍵點。按照僵尸網絡的Camp;C結構,將其劃分為集中式僵尸網絡與分散式網絡兩種模式。集中式僵尸網絡的主要通信協議類型包括HTTP協議以及IRC協議兩種類型,在網絡設置上則會通過星形拓撲結構結果單點故障造成的網絡癱瘓模式,因此在網絡通信中會同時存在多個Camp;C結構。
為提升僵尸網絡拓撲特征的提取能力,在循環神經網絡模型基礎上提出了結構化特征提取方法,其基本運算過程為:
將計算機網絡系統的通信圖定義為G={V,A},其中,V表示僵尸網絡流量跟蹤中發現的節點組成的集合,則V={v1,v2…vn};A∈R,R表示對稱鄰接矩陣,此時假設集合V中的任意兩個節點之間存在通信關系,則A=1,否則為0。在上述計算流程基礎上,通信圖上隨機移動的混合時間基本維持在相對平衡分布的狀態,但僵尸網絡的流量值明顯區別于正常,并且網絡之間的間隔越大越容易被檢測。為滿足上述要求,將在循環神經網絡模型中添加特征值i,該特征值與隨機移動概率相關,i的數值越小則證明整個模型的混合速率越快,對應的混合時間更短,僵尸網絡的傳播效果更強,計算機網絡系統出現安全風險的威脅更高[5]。其中,i的計算方法如公式(3)所示。
(3)
在公式(3)中,FI(i)表示特征值的絕對系數,m表示為特征值i所能提供的服務類型數量,wj表示j 類隨機移動概率的重要性,vij表示第j類隨機移動在特征值i上是否可被衡量,若發現網絡中存在多個節點能夠提供服務,則證明vij需要被平分。
3.惡意網絡檢測過程實現
在面向循環神經網絡模型的惡意軟件檢測過程中,設定整個人工智能技術分為兩個訓練部分,分別為獨立訓練、聯合訓練。獨立訓練強調從客戶端到中央服務中獲得待訓練模型,在中央服務器的支持下能夠保證所有客戶端均可獲得相同訓練,即可根據本地保存的數據獨立完成訓練,解決了常規方法中存在的客戶端相互影響的問題。在該方法中由于不同客戶端所存儲的數據存在一定差異,這一現象也會導致模型對應的參數發生變化。在聯合訓練模式下,則由中央服務器獲得客戶端訓練好的模型參數,在完成權重匯總后即可更新相應的模型信息,最后只需要將更新好的數據發送至客戶端即可。該技術的局部訓練步驟如下:
步驟1,完成流量數據的預處理,本環節將利用Meter工具將滿足格式標準的數據整合為流級數據,之后做歸一化處理。
步驟2,獲得異構流級數據編碼。通過編碼方法獲得每個數據的唯一身份數據,方便從循環神經網絡模型中快速提取特征值。
步驟3,客戶端將從中央服務器中獲得初始的全局模型。
步驟4,客戶端先對本地數據模型展開訓練。
步驟5,將訓練后的循環神經網絡模型數據發送至中央服務器。
步驟6,中央服務器收集所有客戶端發送的神經網絡模型,通過模型參數聚合的方法構建新的全局模型。
步驟7,將新的全局模型發送至客戶端,由客戶端重復步驟3至步驟6的處理過程,直至模型完全收斂。
在上述技術操作步驟的基礎上,整個循環神經網絡模型的操作過程如圖2所示。
(三)人工智能技術的應用效果評價
1.測試過程
為判斷上述技術方案的合理性,在本次研究中選擇在原始數據中對惡意軟件的流量展開分析,采用CTU-13數據集。該數據集來源于捷克技術大學研發的惡意軟件捕獲項目,在內部能設定不同的場景,每個場景都有對應的惡意軟件行為,是目前評估軟件安全中較為常見的研究模型。
本次研究設定的實驗環境為分布式場景,創建四個客戶端,并將不同場景下的攻擊數據分散至不同客戶端作為訓練數據。上述訓練方法的最終目的是保證攻擊場景多樣化,進而綜合評估人工智能技術在提升系統安全性中的作用。
2.測試結果評價
研究發現,四個客戶端在不同運行時長的檢測準確率存在一定差異,其具體數據見表3。
從表3的相關數據可以發現,人工智能技術在運行20分鐘后,四個客戶端的網絡異常檢出率均超過98%,取得滿意效果。
四、結語
大數據與人工智能技術的出現能夠顯著提升計算機網絡系統安全水平,具有廣闊的應用前景。本文的相關研究結果也證實,在采用兩種技術后,在規定時間內網絡異常檢出率均超過98%,證明上述技術實現方案科學有效,對未來計算機網絡系統安全改造有一定的指導與借鑒價值,值得推廣。
參考文獻
[1]閆軍.大數據時代人工智能在計算機網絡技術中的應用[J].軟件,2024,45(03):164-166.
[2]周琴.大數據視域下人工智能在計算機網絡技術中的應用[J].信息與電腦(理論版),2024,36(05):137-139.
[3]范彪.大數據與人工智能技術在計算機網絡系統中的應用[J].電子技術,2024,53(02):108-109.
[4]斯馬依力江·木薩汗,姜杰,李晴,等.大數據時代人工智能在計算機網絡技術中的應用[J].數字技術與應用,2024,42(01):82-84.
[5]劉遠見.大數據技術在計算機網絡系統中的應用[J].電子技術,2024,53(01):172-173.
作者單位:銅仁職業技術學院
責任編輯:張津平、尚丹