易 燦
(湖南大眾傳媒職業技術學院,湖南 長沙 410100)
由于航空電力技術和群體作戰模式的不斷推進,機載網絡逐漸成了作戰信息傳遞的主要工具和當前航空電子領域研究的熱點。為了有效提升數據識別準確率和識別的時效性,文章對貝葉斯網絡識別法做了深入研究,并設計仿真實驗進行驗證。
通過ISW(初始子流窗口)對原始數據進行預處理得出ISF(初始子流場)樣本訓練子集,該行為是貝葉斯網絡流量識別法的中心思想。為了達到ISW分類器數據流早期識別的目的,需通過利用貝葉斯模型生成的訓練子集進行學習來實現。
該章節將前部子流窗口提取的數據流段特征作為訓練及測試的對象,從而實現了ISFC(前部子流分類器)的構建。WTTL為前部子流窗口,文章中將其定義為對ISF獨立數據記錄的窗口,并對ISW采集單個數據流維持了時限。ISW表示ISF數據包的采集數量,依據數據作用的不同,分別對其稱作ISW-T(訓練窗口)和ISW-C(捕獲窗口)。訓練窗口的主要作用是對ISF特征提取及訓練集過濾;而捕獲窗口是針對數據流的識別階段,捕獲測試集中ISF數據流[1]。全文依托ISF特征構建MWDBNC(多窗口貝葉斯網絡分類模型),如圖1所示。

圖1 MWD-BNC模型
訓練集Npos表示大流數量,Nneg表示小流數量,μ為訓練集正負數量。基于該訓練集正負程度構建的分類器會隨著μ的增大而偏向大流。為了避免分類失衡現象的出現,可以設定大流的判定閾值,并對訓練集正負比例進行調整,以此來保證大流的識別價值[2]。基于MWD-BNC模型ISW-T對ISF的提取流程,進入ISF子訓練集中的是被ISW-T篩選的自身包含較多數量的數據包。以窗口值條件為前提,被濾除ISF訓練集的數據包都是在WTTL內捕獲的自身數量無法滿足窗
口值的原始數據集。因為該情況的出現,為了保證政府樣本數趨于平衡,需淘汰原始數據流訓練集中的小流。
MWD-BNC模型中,ISW-C實現了線上數據流捕獲,ISFC為當前窗口值指定數據流做出判斷。假設現在機載Web中大流判別閾值為S,P是窗口截取比為捕獲窗口值IC與當前網絡大流判別閾值S的比,如公式(1)所示。
(1)
P是ISFC為當前大流識別時效性的反應。IC的逐漸增大,P則越向1靠近,而ISFC的識別時效性則逐漸降低。通過對訓練集的分析發現,失衡現象會隨著P的增長而減輕。在ISW-C數據流的線上識別過程中,小流是在被捕獲階段就已經被淘汰了,ISFC的預測空間會隨著小流淘汰而縮小。造成大流識別時效性下降的主要原因之一就是線上識別過程中數據包數據的不足,為了提升大流識別過程的時效性,MWD-BNC模型對流i做出判決時,P應該采集滿足當前所需的數據包。
在Java環境下,采用機器學習模型實現對數據挖掘的統計、分析、預處理、回歸以及聚類等。該實驗章節為了驗證訓練基于貝葉斯構建的分類器,選取了某航空飛行任務重機載網絡實際的原始流量數據作為數據集,這些原始數據集保存了在30 min內對所有節點監測的報頭信息,可將其稱為Anset,以Anset的分布情況設置大流判斷閾值為100[3]。
表1是基于Anset中流量樣本數據包的分布及特征進行流量提取,其中工包含ISF特征34項,并根據PCA主要特征分析選取算法得到的ISF10項特征,詳細情況如表1所示[4]。

表1 數據流ISF的選取特征
本文通過幾種方法選取原始數據集Anset,其主要目的是為了驗證文章所提方法在機載網絡下的大流識別性能,主要提取方法包括:PS-BT(貝葉斯定理的周期性采樣方法)、LRU-1、S&H(采樣-保持方法)等。以Anset采集數據訓練集作為貝葉斯網絡分類器構建的基本條件,目的是為了準確驗證該模型對大流識別效果有提升作用,證明BNC-PS的識別方法的可信度有顯著提升[5-6]。
文中提出的時效增強機載網絡識別方法是結合航空集群機載網絡流量分布的特點,并通過貝葉斯網絡分類器模型對原始數據進行預處理實現大流量對象的識別。MWD-BNC模型的構建也是通過貝葉斯網絡識別方法展開研究,該模型的構建實現了時間代價敏感的機載網絡大流識別。通過分類實驗的設置對文中所提方法進行分析,結果表明識別時效性的提升需要保證識別準確性,才能實現大流的早期識別。