








摘要:為解決通信網絡在高異常數據比例下識別模型性能退化、F1值偏低的問題,文章設計了一種基于Merkle哈希樹的通信網絡異常數據流自動識別方法。對通信網絡數據流進行預處理,以消除噪聲和冗余信息;通過設定合理的閾值對異常評分進行比較,從而提取出關鍵的異常數據流特征;利用Merkle哈希樹,建立一個高效的異常數據識別模型,該模型通過哈希樹節點的連接機制,在層級間有效傳遞信息,實現對通信網絡中異常數據流的自動識別。實驗結果表明,相較于傳統方法,基于Merkle哈希樹的通信網絡異常數據流自動識別方法在各個數據集上的表現更為優越,特別是在數據集4中,取得了0.93的F1值,證明該方法識別通信網絡異常數據流的準確性和可靠性,幾乎無遺漏。
關鍵詞:Merkle哈希樹;通信網絡;哈希樹節點;異常數據流;自動識別
中圖分類號:TN913 "文獻標志碼:A
0 引言
隨著通信網絡的快速發展,異常數據流的出現日益頻繁,給網絡的健康運行帶來了巨大挑戰。因此,通信網絡異常數據流的自動識別技術成為當前研究的熱點和難點。在現有研究中,徐胤博等[1]采用聚類算法對通信網絡中的數據進行分類,以識別異常數據流。該方法基于數據的分布特性,將異常數據視為與正常數據分布不同的類別。通過聚類算法,該方法能夠在一定程度上實現對異常數據流的檢測。田銀磊等[2]利用神經網絡在異常檢測領域的強大潛力,提出一種基于神經網絡的異常數據識別方法。神經網絡以其獨特的非線性映射能力和自學習能力,能夠自動學習數據中的特征并識別異常。然而,面對日益復雜的網絡環境和不斷變化的攻擊手段,這些方法已難以滿足實際需求。面對這些挑戰,本文提出一種基于Merkle哈希樹的通信網絡異常數據流自動識別方法。Merkle哈希樹作為一種高效的數據結構,在數據完整性驗證和可擴展性方面具有顯著優勢。將Merkle哈希樹應用于通信網絡異常數據流的識別中,實現對數據的快速檢索和比對,從而準確識別出異常數據流。預處理通信網絡數據流,提取關鍵異常數據流特征,利用Merkle哈希樹建立異常識別模型,通過其層級結構和節點連接機制增強識別能力,實現異常數據流的自動識別,為網絡管理員提供及時、準確的異常信息,支持快速響應和處理,確保在復雜網絡環境中保持高效檢測能力。
1 預處理通信網絡數據流
在網絡關鍵節點部署監測設備,實時捕獲流經的通信數據包,對這些數據包進行詳細的篩選和解析,提取出有價值的信息,如數據流量、傳輸協議、源地址和目標地址等,這些數據流信息能夠直觀反映網絡的運行狀態[3]。
由于設備性能的限制和外部環境的干擾,數據流常常摻雜著噪聲和冗余信息,這些因素會損害數據流的平穩性和一致性,進而對數據分析的準確性和有效性構成挑戰。為提升通信網絡數據流的質量,預處理步驟至關重要。設定數據流為xi,其中i表示數據流的索引[4]。歸一化方法通常將數據映射到一個標準區間[-1,1]內。歸一化表示為:
xi=xi-minxmaxx-minx×2-1
式中,minx表示數據流x中的最小值,maxx表示數據流x中的最大值。
在通信網絡數據流的預處理階段,為了確保與Merkle哈希樹異常識別算法的兼容性,將數據流轉化為哈希值的形式。對于給定的數據流xi,采用分段哈希的方法來進行處理。定義一個函數HashingSegment(xi,w),其中w表示滑動窗口的大小。該函數將xi劃分為長度為w的連續片段并對每個片段執行哈希運算,生成相應的哈希值序列Hi。通過這種方式,確保輸入和輸出的形式均為哈希值,從而適應Merkle哈希樹的處理要求[5]。表示為:
Hi=[h1,h2,…,hn]=HashingSegment(xi,w)(2)
式中,hi表示第i個數據片段的哈希值,n表示數據片段的總數。
2 提取通信網絡異常數據流特征
在通信網絡異常數據流的特征提取過程中,首先定義預處理后的通信網絡數據流動態特征為Dt,其中t表示時間。結合數據的局部性特征Lf和結構化特征Sf,對Dt進行分析,通過數學公式進行融合:
E=f(Dt,Lf,Sf)(3)
式中,f表示一種映射函數,將數據流、局部性特征和結構化特征映射到特征空間。利用異常數據樣本庫中的哈希值數據Hi,通過相似度計算得到一個異常評分As[6]:
As=Model(Hi,E)(4)
式中,Model表示相似度算法。
異常評分As能夠量化數據流的異常程度。設定一個合理的閾值與這個異常評分進行比較,從而判斷數據流是否處于異常狀態。基于歷史數據的統計分析和專家經驗因素的綜合考慮。閾值為:
T=μ+0.95σ(5)
式中,μ表示異常評分均值,σ表示標準差。
當Asgt;T時,認為數據流中存在異常特征,此時異常數據流特征提取的過程就被視為完成。相反,如果Aslt;T,則說明數據流在正常范圍內,沒有出現明顯的異常特征。
3 利用Merkle哈希樹建立異常數據流識別模型
在建立異常數據流識別模型中,采用Merkle哈希樹算法來確保數據流的完整性和可驗證性。在建立基于Merkle哈希樹的異常數據流識別模型中,系統首先會在新數據流首次出現時進行初始化操作:根據數據流的特征向量計算各自的哈希值并將這些哈希值作為Merkle哈希樹的葉子節點。采用遞歸方法,將相鄰葉子節點的哈希值逐級合并,以構建完整的Merkle哈希樹,直至計算出根哈希值[7]。對于持續監測的數據流,當其特征向量發生變化時,系統會自動觸發更新機制,重新計算受影響的葉子節點及其所有上級祖先節點的哈希值,確保Merkle哈希樹能夠實時準確地反映數據流的最新變化狀態。哈希樹的結構如圖1所示。
k和l分別代表樹的層級和節點索引。第k層的第l個節點標記為M(k,l)。對于每個網絡數據項,將其標記為Dl。Merkle哈希樹是通過遞歸地執行哈希函數來逐步構建成的,其中H(Dl)表示數據項Dl的哈希值。
在建立異常數據流識別模型的過程中,充分利用哈希函數的單向性特點,通過計算Merkle哈希樹各節點的哈希值來驗證其子節點及數據項的完整性和一致性。為了確保整個哈希樹的可靠性,在根節點處嵌入一個特殊的編碼值。系統部署了一套高效的異常檢測體系,該體系持續監控Merkle哈希樹的根哈希值,一旦檢測到根哈希值發生顯著變化,系統立即將其視為潛在的數據流異常預警并自動觸發深入的檢測流程。同時,利用Merkle哈希樹的層次化結構,系統能夠高效地進行子樹驗證,通過對比各子樹根哈希值的變化情況,系統能夠迅速鎖定可能存在問題的數據流區域,極大地縮小了異常調查的范圍。
設R為根哈希值,當新的數據流進入網絡時,提取其特征向量并構建Merkle哈希樹,異常數據流識別模型表示為:
G=R[H(S1)‖H(S2)…‖H(Sn)](6)
式中,Sn表示第n個子樹的根哈希值。
利用Merkle哈希樹建立的異常數據流識別模型,在提升驗證效率與確保數據完整性的同時,憑借其特殊結構實現了對部分數據流的快速驗證,顯著增強了模型的實用性和靈活性。該模型一旦檢測到異常數據流,會立即觸發警報,通知管理員或相關系統采取相應措施。系統詳細記錄每次異常檢測的結果與處理過程,以便后續進行分析和優化。同時,該系統具備自適應學習能力,能通過對歷史異常數據及反饋結果的深入分析,不斷優化特征提取算法、調整哈希函數的選擇以及設定為更精準的閾值,從而提高檢測的準確性和效率。
4 實現通信網絡異常數據流自動識別
異常數據流識別模型是一個多層次結構,旨在自動檢測并識別通信網絡中的異常數據流。該模型由輸入層、模糊化層、推理層、歸一化層、反模糊化層以及輸出層組成,這些層之間通過哈希樹的節點連接機制實現了信息的高效傳遞與整合。
模型輸入層首先接收的是通信網絡數據的特征向量,這些特征向量是模型進行異常識別的基礎。模糊化層利用隸屬度函數將輸入層傳遞的特征向量映射到模糊子空間中,形成模糊集合。這些模糊集合深刻反映了數據流在不同特征維度上的模糊狀態[8]。隸屬度函數表示為:
G=exp-gi-c2σ2(7)
式中,gi表示輸入特征,c表示模糊集合的中心。
通過調整c和σ的值,可以控制模糊集合的位置和模糊程度。歸一化層對模糊決策結果進行歸一化處理。通過將模糊決策結果轉化為標準化的輸出,使得不同數據流之間的異常程度可以進行比較和評估。反模糊化層將歸一化后的輸出轉換為明確的分類或數值結果,這些結果即為異常數據流的識別結果。
通過哈希樹節點的鏈接機制,模型實現了信息的層次化傳遞與處理。這種結構使得模型能夠充分利用各層級的信息資源,提高異常識別的準確性和效率。最終,模型能夠自動識別通信網絡中的異常數據流,為網絡管理員提供有力的支持,保障通信網絡的安全和穩定。
5 實驗
5.1 實驗準備
為驗證基于Merkle哈希樹的通信網絡異常數據流自動識別方法的性能,進行對比實驗。實驗由4臺高性能測試服務器組成,每臺服務器均搭載了Intel處理器、配備了1TB SSD硬盤和64 GB的RAM,運行著穩定的Linux操作系統。在實驗開始前,對服務器進行了全面的性能檢測和調優,以確保實驗結果的準確性。網絡配置如表1所示。
使用Merkle哈希樹作為實驗基礎,根據上述網絡配置,設定一個1000 m×1000 m的虛擬網絡監測區域并部署一定數量的網絡節點。每個節點都被精心配置以運行Merkle哈希樹算法,這一設置旨在實現對數據流中異常模式的實時監測與高效識別。實驗環境如圖2所示。
依據圖2所示的實驗環境,本文模擬了互聯網環境中的多個節點,這些節點被配置為發送模擬數據并隨著實驗進程逐漸增加數據流量。通過利用Merkle哈希樹算法,將這些數據流傳輸至測試平臺,實現對潛在異常數據流的自動識別與檢測。
為了模擬真實網絡環境的復雜性和多樣性,本文設置多種網絡流量模式并引入不同的異常數據流注入場景。同時,為了更精確地評估方法的性能,構建多樣化的網絡拓撲結構,在每種結構下模擬不同數量和位置分布的異常數據源。實驗過程中,共進行2000次的迭代測試,每次迭代均詳細記錄了識別結果并進行了深入分析。最終,基于這2000次實驗結果的平均值,作為全面評價基于Merkle哈希樹的通信網絡異常數據流自動識別方法的性能的依據。為了更全面地驗證該方法的適用性和有效性,建立4個具備不同的維度的數據集,如表2所示。
為了驗證本文提出的基于Merkle哈希樹的通信網絡異常數據流自動識別方法的有效性和可信度,選擇徐胤博等[1]基于K-means聚類的艦船通信網絡異常數據檢測方法和田銀磊等[2]基于神經網絡的船舶通信網絡異常數據識別方法進行對比。使用這3種方法對準備好的數據集樣本進行識別。在識別過程中,記錄每種方法對每個樣本的識別結果,明確標注出被識別為正常數據流和異常數據流的樣本。根據識別結果計算每種方法的F1值,公式為:
F1=4TP2TP+FP+FN(8)
式中,TP表示正常數據流的實例數量,FP表示異常數據流的實例數量,FN表示異常數據流的識別數量。F1值越高,說明方法在精確率和召回率上表現得越好。實驗結果如表3所示。
5.2 實驗結果分析
根據表3的F1值實驗結果,可以看到本文方法在各個數據集上的表現均優于徐胤博等[1]方法和田銀磊等[2]方法,表明本文提出的基于Merkle哈希樹的異常數據流識別方法在實際應用中具有顯著的有效性。進一步分析發現,本文方法在精確率和召回率兩個關鍵指標上均表現出色,能夠精確地區分正常數據流與異常數據流并全面覆蓋所有潛在的異常情況,從而實現對通信網絡異常數據流的準確且全面的識別。特別是在數據集4中,本文方法取得了0.93的F1值,充分證明了其在高復雜度網絡環境中的識別能力。此外,通過詳細的數據對比和深入的分析,發現本文方法之所以能夠取得如此優異的性能,主要得益于Merkle哈希樹結構的高效驗證機制和嚴格的數據完整性保障,具有極高的有效性和可靠性。
6 結語
在通信網絡異常數據流識別領域,基于Merkle哈希樹的方法以其高效、準確和可擴展的特性,為網絡健康運行提供了強有力的保障。通過構建Merkle哈希樹,實現了對通信網絡數據的快速檢索和比對,有效識別出異常數據流。未來,隨著技術的不斷發展,期待該方法能夠在更廣泛的場景中得到應用,為網絡安全貢獻更多力量。
參考文獻
[1]徐胤博,于洋.基于K-means聚類的艦船通信網絡異常數據檢測[J].艦船科學技術,2023(16):169-172.
[2]田銀磊,劉書倫.基于神經網絡的船舶通信網絡異常數據識別[J].艦船科學技術,2022(17):148-151.
[3]李淵文,康健,鄭偉,等.基于Merkle哈希樹的電網數據隱私防護建模研究[J].電子設計工程,2024(11):160-163,168.
[4]侯立,楊成佳.船舶通信網絡異常數據自動檢測和剔除方法[J].艦船科學技術,2023(19):173-176.
[5]蔣誠智,徐浩,黃傳鋒,等.基于Merkle哈希樹的異構通信網絡數據異常值概率識別算法[J].兵器裝備工程學報,2022(6):190-195,231.
[6]程雅瓊.基于關聯規則的無線通信網絡異常數據檢測方法[J].長江信息通信,2022(4):43-45.
[7]林立鑫,喻燕華,涂劍峰.基于改進KNN算法的網絡數據流異常識別方法[J].信息與電腦(理論版),2023(8):108-110.
[8]應依依,馮巖星,聶開勛.基于多方云計算的網絡數據流異常識別方法[J].電信快報,2023(4):41-44.
(編輯 沈 強)
Automatic identification method for abnormal data flow in communication networks based on Merkle hash tree
SUN" Shuyao
(Information Center of National Radio and Television Administration, Beijing 100866,China)
Abstract: In order to solve the problem that the performance of the identification model of communication network is degraded and the F1 value is low under the high proportion of abnormal data, an automatic identification method of abnormal data flow in communication network based on Merkle hash tree is designed. The data stream of communication network is preprocessed to eliminate noise and redundant information. By setting a reasonable threshold to compare the abnormal scores, the key abnormal data flow characteristics are extracted. Using Merkle hash tree, an efficient abnormal data identification model is established. The model effectively transmits information between levels through the connection mechanism of hash tree nodes, and realizes the automatic identification of abnormal data flow in the communication network. The experimental results show that, compared with the traditional methods, the Merkle hash tree based method for automatic identification of abnormal data flow in communication network performs better on each data set, especially in data set 4, which achieves an F1 value as high as 0.93, which proves the accuracy and reliability of this method for identification of abnormal data flow in communication network, with almost no omission.
Key words: Merkle hash tree; communication network; hash tree nodes; abnormal data flow; automatic recognition