





摘"要:當前對于煙草信息化網絡異常數據檢測主要依托于物聯網技術,由于缺少對異常數據多重特征屬性的分類,使得檢測精度較低。為此,提出了微服務架構下煙草信息化網絡異常數據層次密度聚類檢測算法。通過計算異常數據樣本到聚類中心的局部可達密度確定類簇中心,并根據聚類決策圖對異常數據進行層次密度聚類識別,結合小波包函數對異常數據進行分解,根據屬性特征將其歸類到不同類簇下,并基于網絡傳輸節點分布模型構建異常數據傳輸信道模型,以此為依據,求取異常數據的熵值,并將計算結果與固定閾值比較,將閾值外的數據確定為異常數據,進而實現異常數據檢測。對比實驗結果表明,所提方法對于煙草信息化網絡異常數據具有較高的檢測精度。
關鍵詞:微服務架構;煙草信息化網絡;異常數據;層次密度聚類檢測
中圖分類號:TP183""""""文獻標識碼:A
Hierarchical"Density"Clustering"Detection"
Algorithm"for"Abnormal"Data"in"Tobacco"Informatization"
Network"under"Microservice"Architecture
YE"Yuqiong1,"LIU"Jie1,"ZHANG"Wenfu1,"YANG"Hong1,"QIAN"Yijun1,"XIA"Bin1,YUAN"Qifeng2
(1.Chuxiong"Cigarette"Factory"of"Hongta"Tobacco"Group,Chuxiong,Yunnan"675099,China;
2."Beijing"Kingdee"Yunji"Technology"Co.,"Ltd.,Beijing"101311,China)
Abstract:Currently,"the"detection"of"abnormal"data"in"tobacco"information"networks"mainly"relies"on"internet"of"things"technology."Due"to"the"lack"of"classification"of"multiple"feature"attributes"of"abnormal"data,"the"detection"accuracy"is"low."To"this"end,"a"hierarchical"density"clustering"detection"algorithm"for"abnormal"data"in"tobacco"information"network"under"microservice"architecture"is"proposed."By"calculating"the"local"reachable"density"of"abnormal"data"samples"to"the"cluster"center,"the"cluster"center"is"determined,"and"hierarchical"density"clustering"recognition"is"performed"on"the"abnormal"data"based"on"the"clustering"decision"diagram."The"abnormal"data"is"decomposed"using"wavelet"packet"function,"classified"into"different"clusters"based"on"attribute"characteristics,"and"an"abnormal"data"transmission"channel"model"is"constructed"based"on"the"network"transmission"node"distribution"model."Based"on"this,"the"entropy"value"of"the"abnormal"data"is"calculated,"and"compare"the"calculation"results"with"a"fixed"threshold,"determine"the"data"outside"the"threshold"as"abnormal"data,"and"then"achieve"abnormal"data"detection."The"test"results"show"that"the"designed"method"can"detect"abnormal"network"operation"data"with"high"accuracy,"and"the"detection"effect"is"better.
Key"words:microservice"architecture;"tobacco"information"network;"abnormal"data;"hierarchical"density"clustering"detection
在現代互聯網運營環境下,為了加快煙草生產經營管理一體化進程,實現高質量發展,建設煙草信息網絡平臺是構建現代煙草經濟體系的主要途徑之一。數據信息泄露、通信節點攻擊、安全管理不規范等嚴重威脅著煙草信息網絡系統的安全運行。因此,應采取合理的技術措施來檢測網絡異常數據。
文獻[1]采用改進Kmeans算法對原始數據集進行劃分聚類,根據距離最近原則把數據對象分配給最近的聚類中心,并借助主動迭代方法完成異常數據識別。但該方法對于事件邊緣的數據檢測具有應用局限性,導致檢測精度不高;文獻[2]采用遺傳算法,通過建立檢測模型實現異常數據檢測。但此方法存在參數設定困難、計算復雜等缺陷,檢測效果不佳。
針對以上分析,本文結合前人研究成果,對微服務架構下煙草信息化網絡異常數據層次密度聚類檢測算法展開深入研究,以期保證煙草數據的安全性。
1"異常數據層次密度聚類檢測算法設計
1.1"異常數據層次密度聚類識別
在檢測煙草信息網絡中的異常數據時,首先需要對數據信息進行有效的脫敏處理,從而準確識別異常數據[3]。本文利用聚類算法的樹結構來反映數據之間的層次關系,并根據異常數據與正常數據之間特征屬性的差異來識別異常數據。
通常情況下,異常數據對煙草信息化系統的影響程度取決于其對應的權值[4]。因此,假設異常數據的尺度因子為Cj,j=1,2,…,k,聚類因子為Dj,將N個異常數據樣本歸類到M個聚類中心,則由異常數據構成的聚類中心可表示為:
Wj=∑kj=1Cj+∑DjN×M×ujc0(1)
式中,uj表示給定參數;c0表示隨機矢量。
假設在煙草信息化系統中有L個通信節點,那么節點的匯總信息可表示為:
Y0=Wj∑Ll=1fl(x)×X0,"fl∈F0(2)
式中,fl表示第l個數據信息;fl(x)表示數據信息的粗糙度函數;X0表示某一數據樣本;F0表示信息化網絡內部的整個空間。
計算異常數據樣本聚類中心的局部密度,即:
ρi=Y0dt-dc·α0(3)
式中,dt表示兩個相鄰樣本之間的距離;dc表示樣本截斷距離;α0表示算法參數。
采用高斯核定義數據樣本之間的距離因子,即:
δi=∑exp"-Y0g0(4)
式中,g0表示聚類中心的可調參數。
以ρi和δi這兩個屬性為橫、縱指標作出決策圖,從而確定類簇中心[5],如圖1所示。
為避免人工選取的類簇中心具有主觀性,影響后續判斷,因此,采用密度指標確定類簇中心[6],計算公式如下:
γi=ρi×δi×vi(5)
式中,vi表示密度指標。
則類簇中心中異常數據集合的每個異常特征對應的密度矢量為:
Ai=∑exp-|xi-xj|2(γi+rj)/2(6)
式中,xi、xj分別表示區間內密度的最大值與最小值;ri表示衰減常數。
經過局部聚類后,樣本j對所屬該類簇的貢獻度可表示為:
Rj=kcAi×hi(7)
式中,kc表示類簇樣本點數量;hi表示懲罰因子。
則異常樣本數據集合所屬類簇的確信度為:
R′=Rjφ0×e0d1(8)
式中,φ0表示類簇邊界樣本數量;e0表示偏置向量;d1表示密度峰值。
通過樣本確信度的變化控制異常數據的波動距離[7],則具體的異常數據波動值為:
sj=1u0+3π×z0R′(9)
式中,u0表示波動偏差;z0表示異常數據識別閾值;π表示測量距離。
通過上述計算,比照波動數據的變化情況,將異常波動值大于波動閾值ε0的數據樣本識別為異常數據,為后續異常數據傳輸信道模型的建立奠定基礎。
1.2"異常數據傳輸模型的構建
基于異常數據識別結果,在煙草信息化跨平臺網絡環境下[8],首先給出網絡傳輸節點的分布模型,如圖2所示。
微服務架構下的煙草信息網絡是一個三維連續系統,參數通道屬于時變非平穩通道[9],因此,采用RSA算法對網絡進行微服務摘要加密,以保證數據傳輸的安全性,計算公式如下:
Gt=En×Bt(10)
式中,En表示原文數據;Bt表示私鑰。為了防止私鑰被攻擊暴露,對微服務網絡進行雙重加密:
Di=Gtpinx(11)
式中,pi表示原文數據生成的數字簽名;nx表示消息摘要。
基于加密后的原文數據,采用小波包函數對網絡信道中的數據進行分解處理[10],公式如下:
Tt=Di∑sjφi(2t0-l0)"(12)
式中,sj表示異常數據波動值;t0表示監測時間;l0表示分解層數;Tt表示數據分解維度。
結合滑動時窗矩陣,計算數據分解均值,即:
=TtEr×Ea(13)
式中,Er表示小波包系數;Ea表示小波基函數。
當網絡數據傳輸節點的傳輸路徑存在χ條時,則可認為此時在參數節點分布模型中存在χ條通信信道[11],再結合數據分解均值對信道中正在傳輸的數據進行描述,即:
W(t)=Wx×+χτ(t)(14)
式中,Wx表示信道數據分布矩陣;τ(t)表示雙曲正切函數。
異常數據在整個傳輸過程中的時間序列誤差集合可以用下式描述:
ey=∑B1i=0f(b)×W(t)"(15)
式中,B1表示數據時間序列的分段數目;f(b)表示偏差度函數。
因此,關于檢測目標的函數可以表示為:
H0=∑ey+Ω(gu)×kzΩ(gu)=ha+12la+δ0rckz=tb+η(t)×θ0(16)
式中,H0表示檢測目標函數;Ω(gu)表示目標函數中不適定因子;kz表示輸出數據信息的節點序號;ha表示節點序號相關值;la表示待測數據;δ0表示預測數據;rc表示常數;tb表示懲罰系數;η(t)表示最優分類函數;θ0表示調整系數。
假設異常數據信號的幅值為Au,則傳輸信道的時域特征可表示為:
S(t)=∫+
H0×Z*(v0-ι/2)dι(17)
式中,Z*表示時頻特征對;v0表示數據傳輸效率;ι表示異常數據在時頻域中的總能量。
由此構建網絡異常數據傳輸信道模型的表達式為:
U=an(t)×S(t)tα-(1-q0)(18)
式中,an(t)表示異常數據單分量;tα表示傳輸時延;表示單分量傳遞的數據量;q0表示網絡帶寬。
以識別出的異常數據與網絡體現節點分布模型為依據,對微服務系統進行加密處理,結合檢測目標函數對網絡傳輸信道的時間序列進行分析,進而構建異常數據傳輸信道模型,便于后期異常數據檢測的實現提供幫助。
1.3"網絡異常數據檢測
在完成異常數據傳輸信道模型后,根據簇群異常數據檢測目標,計算簇群檢測目標的加權平均關聯值[12],即:
Pv=3Va-U×xm+2nαζt(19)
式中,Va表示綜合簇群范圍;U表示異常數據傳輸信道模型;xm表示聚類特征系數;nα表示比例系數;ζt表示經驗常數。
設定數據信息的相關函數:
Ot=ω1-Pvfjbd(20)
式中,ω1表示信道傳輸比;fj表示數據平均粒度;bd表示異常數據最大維度。
若設異常數據的高階統計量的聚類度為λu,則高維數據轉換為低維數據的變換函數為:
y0=qmax"-qmin"Ot"(21)
式中,qmax"、qmin"分別表示數據特征的最大值與最小值。
對異常數據頻域空間進行分解[13],得到異常數據的傳輸延遲為:
tx=∫+
mn×K(x)"(22)
式中,mn表示異常數據的累積切片量;J(x)表示有效激活函數;K(x)表示特征函數。
計算數據樣本屬性的熵值:
Hβ=-∑tx×log"2Q(t)log"2nα(23)
式中,Q(t)表示樣本屬性函數;nα表示待檢測數據樣本集合。
結合融入樣本方差函數[14],設定檢測異常數據的固定閾值,即:
ψ=F(z)fg(24)
式中,F(z)表示樣本方差函數;fg表示數據平均適應度值。
將式(23)的計算過程遍歷整個自由空間煙草信息化通信網絡中的待檢測數據,將計算得到的熵值Hβ與固定閾值ψ進行比較,在閾值內的數據確定為正常數據,在閾值以外的數據確定為異常數據[15],至此,完成微服務架構下煙草信息化網絡異常數據層次密度聚類檢測算法的設計。
2"實驗論證分析
為了驗證本文提出的煙草信息化網絡異常數據層次密度聚類檢測算法的有效性,需要設計相關實驗加以測試,并通過與其他常規方法的對比結果來分析本文方法的實際應用性能。
2.1"實驗準備
為了更好地驗證實時檢測效果,網絡異常數據實時檢測實驗中使用的數據源包括采集的本地數據和CICID"52017數據。實驗數據集中的300萬條數據由正常煙草數據以及異常煙草數據構成,共包括數據堵塞、傳輸速率異常、路由異常和請求異常4種異常類型。
本次選擇Core"i3PC作為主要測試環境,基本內存為4.5"GB。首先,對以上4種異常數據類型進行多屬性特征分類,將同一類簇下的數據集合作為測試對象;其次,對網絡端口進行連接測試操作,通過滑動窗口將通信節點與主、從節點連接;最后,對信息化網絡系統的方差標準進行設定,具體表1所示。
將表1中的數據信息作為網絡端口的通信限制標準,將網絡系統的小時參數流量數據作為測試集,在此數據集中引入2000個存儲節點。通過云存儲實現資源調度,并利用管理節點負責數據的解算與上傳處理。另外,為了防止實驗過程中的外部干擾,采用運算節點對網絡系統的存儲開銷機制進行調整,在驗證沒有錯誤后,開始具體的方法測試。
該實驗使用ZigBee協議棧來實現節點之間的通信,其中路由器節點負責收集網絡傳輸的數據,并定期將數據發送到協調器節點。此外,路由器節點可以自動將信道數據轉發到網絡中的其他節點。協調器節點接收路由器報告的數據,并通過串口上傳到中央基站(PC),在PC上完成數據集成與聚類計算。
2.2"實驗說明
在此基礎上,調用后臺數據,設計網絡異常數據采樣參數,具體如表2所示。
在掌握了測試樣本中攜帶的異常數據的分布后,使用本文設計的方法來檢測異常數據。在檢測過程中,建立煙草信息網絡中異常通信通道的模型,提取通信過程中異常數據的特征,并通過計算數據熵值實現對異常通信數據的檢測。
2.3"異常數據檢測結果分析
采用文獻[1]基于改進Kmeans算法的異常數據檢測方法(方法1)、文獻[2]基于遺傳算法的異常數據檢測方法(方法2)與本文方法進行檢測性能對比。分別采用不同方法在不同異常數據類型條件下的檢測準確度情況,檢測準確度越高,表明方法的檢測精度越高,結果如圖3所示。
如上圖所示,在不同數據傳輸量條件下,本文方法對于網絡異常數據的檢測準確率基本在70%以上,主要是由于本文方法能夠根據異常數據特征屬性進行層次分類,并結合所屬類簇的局部可達密度對不同屬性的異常數據進行分段檢測,保證了檢測精度;方法1的檢測準確率較低,在33%~55%之間,分析原因可知,該方法是以集中式查詢與識別方法為基礎對異常數據進行檢測,對于異常特征變化參量較為復雜的數據,無法準確發掘;方法2的檢測準確率范圍為32%~62%,該方法的檢測準確率較低的原因主要是忽略了通信節點數據辨識度的影響,進而影響了檢測精度。通過實驗對比結果可知,本文提出的方法對于煙草信息化網絡異常數據檢測具有更高的檢測精度。
2.4"異常數據檢測誤報率對比實驗分析
為進一步驗證本文方法在異常數據檢測精度方面的優越性,將不同方法應用于不同異常數據維數中,比較各方法的檢測誤報率,對比結果如圖4所示。
根據上圖可知,在不同異常數據維數條件下,利用本文方法對網絡異常數據進行檢測,得到的檢測誤報率始終控制在20%以下,而方法1與方法2的檢測誤報率最高分別達到了77.6%和75.3%。由此可以說明本文提出的方法能夠以較高的精度檢測出煙草信息化網絡的異常數據。
3"結"論
為有效彌補當前既有方法對于煙草信息化網絡異常數據"檢測存在檢測精度較低的不足,提出了一種層次密度聚類異常數據檢測算法。通過識別異常數據與構建異常數據傳輸信道模型,并計算數據熵值,進而實現異常數據的檢測。經過對比實驗驗證了本文方法的可靠性,表明提出的方法相較于傳統方法具有更大的應用優勢。
參考文獻
[1]"李東昆,高險峰,張乃平,等.基于改進Kmeans算法的光通信數據異常檢測預警方法[J].自動化與儀器儀表,2023(7):51-54.
[2]"魏丹,楊春琴,李國元,等.基于遺傳算法的網絡傳輸異常數據檢測方法[J].電子設計工程,2023,31(15):94-97+106.
[3]"陳怡娜.基于深度學習算法的無線傳感器異常數據檢測[J].計算技術與自動化,2023,42(2):178-183.
[4]"陳陽.基于小波神經網絡的光纖網絡大數據異常負載檢測方法[J].激光雜志,2023,44(5):123-127.
[5]"周佳航,邢紅杰.基于雙自編碼器和Transformer網絡的異常檢測方法[J].計算機應用,2023,43(1):22-29.
[6]"賈帥帥,田明浩,路紅陽.基于數據增強的組合神經網絡異常檢測算法[J].信息技術與信息化,2023(4):187-190.
[7]"賈旭超,馬迅,劉安磊,等.基于孤立森林法的電能計量數據異常檢測方法[J].河北電力技術,2023,42(2):41-45.
[8]"拓廣忠,葛樹峰,李榮讓,等.基于熵值法和DEA的電力監測異常數據自動識別算法研究[J].微型電腦應用,2023,39(4):160-163+171.
[9]"陳波紅,祝金明.統計向量分析下大規模網絡流量異常檢測仿真[J].計算機仿真,2023,40(4):373-376+401.
[10]"孟獻軻,張碩,熊詩,等.基于時空注意力特征的異常流量檢測方法[J].計算機應用與軟件,2023,40(4):99-106.
[11]"王銳.基于改進LOF的高維數據異常檢測方法[J].電信工程技術與標準化,2023,36(3):41-45+62.
[12]"徐麗燕,徐康,黃興挺,等.基于Transformer的時序數據異常檢測方法[J].計算機技術與發展,2023,33(3):152-160.
[13]"高聚鑫.基于大數據的網絡異常行為檢測技術研究[J].數字通信世界,2023(2):30-32.
[14]"張仁斌,左藝聰,周澤林,等.基于多模態生成對抗網絡的多元時序數據異常檢測[J].計算機科學,2023,50(5):355-362.
[15]"劉杰.基于孤立森林算法的巡檢機器人通信異常數據自動檢測方法[J].信息與電腦(理論版),2023,35(3):86-88.