魯江
(西安醫學院,陜西西安 710021)
網絡敏感數據流具有不確定性、差異性和無序性的特點。為了提高網絡敏感數據流挖掘效率,有必要設計網絡敏感數據流動態挖掘方法。在國外所研究的數據挖掘方法中,大多集中在敏感數據靜態挖掘方面,這種挖掘方法所挖掘到的數據量較少,而隨著網絡數據分析要求的不斷提高,必須深入研究敏感數據動態挖掘方法。文凱等人提出了基于BTA算法的挖掘方法,在數據高效壓縮進位表中采用區域覆蓋方法,實時更新數據挖掘窗口,通過頻繁k-項集產生候選項集,由此挖掘網絡敏感數據[1];康耀龍等人提出了基于譜聚類的挖掘方法,利用屬性閾值量化方式,通過構建親和矩陣計算樣本與目標之間距離,獲取特征向量,結合特征向量提取網絡敏感數據特征。通過長距離特征挖掘方式實現網絡敏感數據流的高效挖掘[2]。然而使用上述兩種方法只能處理靜態數據流,對于動態數據流挖掘的效果不佳,因此提出基于模糊聚類的網絡敏感數據流動態挖掘方法。
聚類是數據挖掘中非常關鍵環節,它將一個群體按相似原則分成幾個類,其目標是盡量減少同類間距,從而提高了數據挖掘準確性[3]。模糊聚類是統計中的一種多變量分析方法,它可以量化地判斷各樣本間的關系,利用數學方法對樣本進行客觀聚類[4]。
網絡敏感數據流中的每個論域集都會對數據模糊聚類效果產生影響[5]。當一個關鍵論域集的值較大時,則表明該數據流動異常;當它們是一個孤立點時,則表示該數據流不容易被挖掘[6]。將論域集元素分類,并構建模糊矩陣,具體如下:
式中,α表示論域參數;d表示馬氏距離;xij表示第i行j列論域;m表示論域內模糊子集個數;n表示子集序號。
為了衡量兩個樣本間的相似性,將馬氏距離作為衡量標準,其計算公式如下:
式中,T表示計算周期;yij表示與xij不同的第i行j列的樣本論域;S表示樣本分布協方差矩陣。馬氏距離越短,兩個樣本之間的相似度就越高[7]。充分考慮網絡敏感數據流往往涉及復雜、異常和敏感的性質,因此需通過模糊聚類精確地查找出各個類別特征[8]。
為了提高模糊聚類速度,引入一種速度收斂閾值,表示為:
式中,ε表示敏感數據占總數據量的比例;dmin、dmax分別表示馬氏距離最小值和最大值。如果該公式計算結果偏大,則會把所有分類都歸入一個類別[9-10]。以各個樣本為初始聚類中心,分別計算收斂閾值,將兩個樣本之間的分類量小于收斂閾值的樣本合并,從而得到新的聚類中心,由此完成網絡敏感數據流模糊聚類[11]。
根據網絡敏感數據流模糊聚類結果,獲取新的聚類中心,并對數據動態挖掘結果進行分類,通過分析最大散度解決挖掘過程中的隨機性和非線性問題[12],從而保證數據挖掘質量與效率。敏感數據流動態挖掘過程如下:
步驟一:網絡敏感數據流動態分類
由于模糊關系沒有傳遞性,因而不能將其歸類為模糊等值,必須將其轉化為模糊等值矩陣,具體表示為:
式中,隨著ε比例增加,模糊等值矩陣數據流類別越來越多[13]。對于不同等價關系,能夠獲取精準分類結果。動態聚類過程如圖1 所示。

圖1 動態聚類過程
結合圖1 動態聚類過程,實時調整模糊等值矩陣,由此得到網絡敏感數據流分類結果。當數據屬于同一類別時,表示數據之間的相似性很高,可以合并處理,從而簡化網絡敏感數據流[14]。根據模糊聚類原理,將各類型信息和兩個子類的隸屬度進行聚類,將滿足隸屬度之差大于0、小于0和等于0的樣本分別存入不同的集合。對于樣本論域xij,如果存在:
式中,nij表示類間散度;γ表示設定閾值。式(5)的計算結果越大,說明兩個樣本重復數量也就越多。從初始訓練節點開始,生成各個節點模糊聚類結果,在各個模糊分類中直接選取隸屬度低于1 的樣本[15],以此保證數據的分類效果。
步驟二:最大散度迭代處理
在獲取網絡敏感數據流分類結果后,利用遺傳迭代算法對敏感數據流進行迭代處理,得到最優離散性迭代值,利用最優離散性動態地挖掘敏感特征,從而得到敏感數據流動態挖掘結果,該方法能夠有效克服傳統挖掘方法無法實現動態數據挖掘的弊端[16]。采用模糊遺傳算法對網絡敏感信息進行最大散度迭代處理,則xij、yij兩個樣本論域基元結構可表示為:
由此得到網絡敏感數據流特征,完成最大散度迭代處理。
步驟三:數據流動態挖掘
根據最大散度迭代處理結果,對可挖掘特征點進行聚類以及均勻分配,分配路徑如圖2 所示。

圖2 分配路徑
將挖掘到的特征點分配至聚類o中,可表示為:
式中,u表示可挖掘特征點;z表示聚類中心。聚類中心更新公式如下:
式中,k表示挖掘到的特征點數量。
步驟四:動態挖掘誤差擬合
在網絡敏感數據流動態挖掘過程中,兩個論域子集中存在不對稱關系,對于兩個論域之間形成的差值序列,可表示為:
式中,ra(xij) 表示論域xij的第a個節點;rb(yij)表示論域yij的第b個節點。根據該計算結果,計算差值序列的擬合誤差,公式為:
式中,r0表示初始差值序列;m表示擬合次數。
通過上述步驟能夠完成對可挖掘特征的模糊聚類處理,結合擬合誤差實現網絡敏感數據流動態挖掘。
在IBM 工控異構網絡機上展開相關的實驗,使用數據采集裝置通過配置方式解析不同通訊報文,使用統一命令驅動采集裝置,捕獲不同頻度的數據。數據采集裝置結構如圖3 所示。

圖3 數據采集裝置結構
由圖3 可知,利用傳感器采集相關數據,能夠實現對于多個維度的敏感數據的收集。通過對傳感器的遙控,可以實現對傳感器的遠程管理,并可以對所收集到的數據進行實時查詢。
實驗數據來自自動化工作流系統數據庫,在數據庫中隨機采集250 個真實網絡數據集。網絡閉環工作過程中存儲的數據均為網絡敏感數據流,統計2020 年12 個月的數據量,每隔5 min 更新一次,由此得到的敏感數據流結構如圖4 所示。

圖4 網絡敏感數據流結構
由圖4 可知,網絡敏感數據流主要包括局域網計算機終端數據、移動設備上網行為數據和共享文件權限管理數據,數據流較多且復雜性較高。
設置兩種實驗條件,一種是數據相似性較高,另一種是數據差異性較大。在這兩種條件下,分別對比文獻[1]方法和文獻[2]方法以及所提方法挖掘到的數據量,對比結果如圖5 所示。

圖5 不同方法的挖掘數據量對比分析
分析圖5(a)可知,文獻[1]方法的最大挖掘量為45 000 個,最小挖掘量為15 000 個,并沒有挖掘到全部的數據;文獻[2]方法的最大挖掘量為40 000 個,最小挖掘量為15 000 個,也沒有挖掘到全部的數據;所提方法的最大挖掘量為60 000 個,最小挖掘量為30 000 個,能夠挖掘到全部的數據。
由圖5(b)可知,文獻[1]方法、文獻[2]方法的最大挖掘量分別為27 000 個和20 000 個,最小挖掘量均為10 000 個,這兩種方法均沒有挖掘到全部數據;所提方法的最大挖掘量為70 000 個,最小挖掘量為20 000 個,能夠挖掘出全部數據。
網絡敏感數據流論域子集較多,使用傳統挖掘方法受到數據相似性和差異性影響,導致無法挖掘到全部數據,因此提出基于模糊聚類的網絡敏感數據流動態挖掘方法,以期解決該問題,并通過實驗證明了該方法的正確性。該方法能有效挖掘出網絡敏感數據流,促使網絡更加高效運行,通過最大類間散度確定最優迭代計算次數,由此提升數據流挖掘效率與質量,為數據深入分析與研究奠定基礎。