陳文慶
(1.江蘇師范大學 計算機科學與技術學院,江蘇 徐州 221000;2.中國勞動關系學院 應用技術學院,北京 100048)
船舶通信網絡數據異常會導致信息傳輸故障、數據處理失誤和系統任務失效等問題,因此,加強通信網絡失效節點異常數據檢測識別技術越發重要。
文獻[1]以船舶通信網絡拓撲結構為基礎構建數據模型,計算各個節點綜合數值判斷是否存在異常。但該方法計算量過大且操作復雜,誤差率較高。文獻[2]通過建立多層通信網絡結構模型,根據探測策略對節點信息進行檢測。但該方法自動化程度較低,工作難度較高。
針對傳統方法存在的不足,本文提出一種基于數據挖掘的船舶通信網絡失效節點自動識別方法。通過聚類算法對船舶通信網絡中的數據進行識別檢測和特征提取,構建自動檢測目標函數判斷異常數據信息節點,采用離散序列算法對失效節點進行數據挖掘,具有良好的靈活性和精準性。
基于數據挖掘技術中的聚類算法對船舶通信網絡失效節點進行自動識別,首先需要檢測提取通信網絡中的信息數據,將所有特征數據按照既定序列整合到數據處理系統中形成樣本合集,設定為系統需要進行識別檢測的數據點集合[3–4]。根據系統設定的船舶通信節點異常數據閾值,對數據屬性和特征密度進行分類提取,通過聚類運算得到不同特征數據集[5–6]。為了進一步提高通信網絡數據特征聚類結果,本文選取高階統計量算法對特征提取進行優化。設目標數據集為M={m1,m2,···,mm},單個數據特征提取最優解集合為Um={um1,um2,···umm},整體最優解集合為Ua={ua1,ua2,···,uam},則異常數據特征識別提取方法如下:

其中:ei為檢測數據集中第i個節點的失效異常數據;α,β分別為不同特征序列的特征提取加速優化系數;r1,r2為隨機參數。
經過優化后的特征提取結果具有更好的相關性,更能夠突出網絡數據的特征值,有利于進一步實現聚類分析運算[7–8]。
特征提取后的異常節點數據傳輸到分類檢測程序,采用聚類算法對樣本數據屬性進行檢測處理。設定優化后的數據集為M′,異常數據權值為K,則將異常數據聚類到對應聚類中心可表示為:

式中:L(1)為異常數據聚類集合;μij為異常數據樣本映射到聚類中心的模糊隸屬度;Li,Lj為異常數據對應聚類數 值[9–10]。
設定存在多維度異常數據特征集合,選取不同特征點數據集重復上述計算過程,多次進行聚類運算,得到多項異常數據特征檢測分類結果。為了進一步提高聚類效果,可引入數據密度系數進行檢驗:

其中:Xi為i節點數據聚類結果優化數值;δ為聚類數據集密度系數;rb為數據特征密度指標半徑。
聚類后的通信網絡節點如圖1 所示。

圖1 聚類后的通信網絡節點Fig.1 Communication network nodes after clustering
根據圖1 可對特征閾值進行分選,所得比值結果越小,說明聚類效果越好。
船舶通信網絡失效節點數據挖掘流程如圖2 所示。

圖2 船舶通信網絡失效節點數據挖掘流程Fig.2 The data mining process of the failure node of the ship communication network
基于上述數據特征識別提取和優化分類,對船舶通信網絡失效節點數據進行挖掘。由于導致通信網絡失效的原因各不相同,不能采用單一的方差和平方差運算方式進行識別,容易造成較大誤差。選用基于熵目標函數的數據檢測方法構建目標函數,由于船舶通信網絡失效節點存在較強的隨機性,需要引入熵值對異常數據不確定性進行描述。將待檢測的數據按照聚類結果依次導入目標函數識別系統,設定t時刻異常數據特征為x(t),第i個樣本的特征屬性為xi(t),則構建的目標函數為:

式中:S為引入的熵值;S2為熵的樣本平方差;γ,λ為目標函數的權重系數,該函數即為失效節點異常數據自動檢測識別的目標函數。
將經過聚類運算整合后的初始數據集按照時間序列載入函數運算程序,算法自動檢索半徑為R,表示運算數據覆蓋范圍,根據特征聚類結果,設定異常信息數據特征閾值Y和運算迭代次數i,則適用于檢索半徑的適應目標函數為:

其中:?為設定的目標值;e為隨機樣本失效節點數值。
導入檢索半徑后代入樣本數值,進行多次迭代運算,通過多次迭代后能夠得到趨近于最優解的數據識別結果。所有特征集合數據按照上述步驟依次在運算程序中循環迭代,輸出后的結果進入自動檢測循環。輸出的數據需要與設定標準數值值域進行比較,不滿足任意值域條件的數據,則判斷為對應問題所在的異常數據。若滿足值域要求,則重復上述計算步驟再次檢驗數據是否存在異常,若檢測判定數據為異常數據,則結束循環,判定該數據為失效節點產生的異常數據。
為了驗證基于數據挖掘的船舶通信網絡失效節點自動識別方法的實際應用效果,設定對比實驗,選用傳統的基于智能定位的船舶通信網絡失效節點自動識別方法、船舶無線通信網絡故障節點自動定位方法進行實驗對比。通信網絡原始節點分布狀態如圖3 所示。

圖3 通信網絡原始節點分布狀態Fig.3 Distribution of original nodes of communication network
同時選用3 種方法,對通信網絡內部的節點進行分類,得到的分類結果如圖4 所示。可知,傳統的基于智能定位的船通信網絡失效節點自動識別方法對失效節點識別的準確率較低,無法準確區分出失效節點,船舶無線通信網絡故障節點自動定位方法對正常節點的識別準確率較低,本文提出的識別方法能夠精準地檢測出異常失效節點,實現自動識別。

圖4 通信網絡原始節點識別結果Fig.4 Identification results of original nodes of communication network
根據圖4 分類結果,得到不同的識別方法的識別準確率實驗結果如表1 所示。由表1 可知,本文提出的基于數據挖掘的船舶通信網絡失效節點自動識別方法的識別準確率在99%以上,基于智能定位的識別方法準確率低于72.69%,基于自動定位的識別方法準確率低于86.02%,識別能力較低。

表1 識別準確率實驗結果Tab.1 Experimental results of recognition accuracy
識別耗時實驗結果如圖5 所示。可知,本文提出的基于數據挖掘的船舶通信網絡失效節點自動識別方法的耗時時間低于4 s,能夠在短時間內實現節點識別。

圖5 識別耗時實驗結果Fig.5 Recognition time-consuming experiment results
本文提出基于數據挖掘的船舶通信網絡失效節點自動識別方法,得出以下結論:
1)通過聚類算法對船舶通信網絡中的海量數據進行識別提取,根據時間序列劃分數據節點,引入優化系數提高特征提取的相關性,再通過聚類運算對節點特征數據進行分類檢測,多次迭代和密度系數檢驗也有利于進一步提高聚類分析的效果。
2)以聚類結果為初始數據構建熵目標函數,在自動檢索半徑內對異常數據進行自動識別檢測,具有良好的靈活性。
3)采用離散序列算法對通信網絡失效節點進行數據挖掘,能夠提高數據處理效率和精準度。
綜上所述,本文研究方法具有良好的應用效果,能夠有效提高失效節點自動檢測的效率。后續:因數據干擾因素較多,應加強對數據識別和提取過程中干擾因素的篩除,減少數據的復雜性,從而進一步提高數據檢測精準度。