999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GB-AEnet-FL網絡的物聯網設備異常檢測

2022-12-31 00:00:00張月唐倫王愷陳前斌
計算機應用研究 2022年11期

摘 要:針對物聯網場景下,傳統異常檢測方法在海量不均衡數據中檢測準確率低、數據異構導致模型泛化能力差等問題,提出了基于聯邦學習的對抗雙編碼異常檢測網絡 (GB-AEnet-FL)的物聯網設備異常檢測算法。首先,提出了一種基于異常數據的主動特征分布學習算法,主動學習數據的潛在特征分布通過數據重構擴充異常數據,均衡正負樣本比例。其次,在潛在特征層引入了對抗訓練機制并添加一致性增強約束和收縮約束,提高特征提取的精度。最后,設計了一種基于動態模型選擇的聯邦學習算法,比較局部模型與全局模型的置信度評分,動態選擇部分聯邦體參與,加速模型的聚合,在一定程度上也保護了用戶隱私。在四個不同數據集上進行驗證,結果顯示,所提算法在檢測準確度優于傳統算法且泛化能力得到相應提升。

關鍵詞:異常檢測;AE網絡;數據擴充;對抗性學習;聯邦學習

中圖分類號:TN929.5 文獻標志碼:A

文章編號:1001-3695(2022)11-033-3410-07

doi:10.19734/j.issn.1001-3695.2022.03.0142

Anomaly detection algorithm of IoT devices based on GB-AEnet-FL network

Zhang Yuea,b,Tang Luna,b,Wang Kaia,b,Chen Qianbina,b

(a.School of Communication amp; Information Engineering,b.Key Laboratory of Mobile Communication,Chongqing University of Posts amp; Telecommunications,Chongqing 400065,China)

Abstract:Aiming at the problems of low detection accuracy in massive unbalanced data and poor model generalization ability caused by data heterogeneity in traditional anomaly detection methods in IoT scenarios,this paper proposed an adversarial dual-coding anomaly detection network based on federated learning (GB-AEnet-FL).Firstly,this paper proposed an active feature distribution learning algorithm based on abnormal data,which actively learnt the potential feature distribution of data,expanded abnormal data through data reconstruction,and balanced the proportion of positive and negative samples.Secondly,this paper introduced an adversarial training mechanism in the latent feature layer adding consistency enhancement constraints and shrin-kage constraints to improve the accuracy of feature extraction.Finally,this paper designed a federated learning algorithm based on dynamic model selection which compared the confidence scores of the local model and the global model,dynamically selec-ted part of the federated bodies to participate,accelerated the aggregation of models,and protected user privacy to a certain extent.Validated on four different datasets,the results show that the proposed algorithm is better than the traditional algorithm in detection accuracy,and the generalization ability is improved accordingly.

Key words:anomaly detection;AE network;data expansion;adversarial learning;federated learning

基金項目:國家自然科學基金項目(62071078);川渝聯合實施重點研發項目(2021YFQ0053)

作者簡介:張月(1995-),女(通信作者),貴州貴陽人,碩士研究生,主要研究方向為物聯網異常檢測、故障定位算法研究等(2861534352@qq.com);唐倫(1973-),男,重慶合川人,教授,博導,主要研究方向為下一代無線通信網絡、異構蜂窩網絡、軟件定義網絡等;王愷(1995-),女,山西太原人,碩士研究生,主要研究方向為虛擬化網絡切片、異常檢測等;陳前斌(1967-),男,四川營山人,教授,主要研究方向為通信網理論與技術、無線通信、多媒體信息傳輸與處理.

0 引言

物聯網是指通過信息傳感設備,按照約定的協議將任何物體與網絡相連,通過信息傳播媒介進行信息交互和通信[1。物聯網的目的是實現不受地點、時間限制,長期快速地連接如無人機部署2、智慧城市3、智慧交通4等應用環境中的移動設備。5G時代的到來為物聯網的發展提供了眾多技術支持,5G標準的制定能夠很好地滿足物聯網的需求、網速、容量、安全性等,推動了無人駕駛技術的發展。助力工業物聯網的發展[5,加速物聯網虛擬現實領域的發展,圖1描述了5G網絡下的物聯網場景。物聯網中各類設備產生了海量異構數據,不同類型的數據具有不同格式的各類信息。此外,物聯網數據具有多樣性、實時性和多維性的特點,數據復雜且異常并非常態,導致數據集的正樣本和異常樣本不均衡,使得網絡異常檢測過于復雜化。

近年來,對物聯網設備進行異常檢測已經有許多成熟的方法,基于統計概率[6模型的異常檢測算法主要是對正常樣本的分布作出假設,并找出假設下所定義的異常,將偏離均值特定范圍的數據視為異常。對于高維數據,假設維度間相互獨立,通過衡量樣本的異常度來判定是否存在異常。該方法的異常檢測速度快,但存在較強的假設性,檢測效果不穩定。基于長短期記憶和單類支持向量機(LSTM-OCSVM)[7異常檢測算法的核心思想就是尋求一個超平面,在該超平面內的樣本均為正常樣本。該方法涉及到核函數運算,計算量大,無法應用于物聯網場景下海量數據的異常檢測。基于密度的噪聲應用空間聚類(DBSCAN)[8的異常檢測算法是一種基于密度的聚類算法,將緊密相連的樣本劃為一類。該算法在樣本集較大時,聚類收斂時間較長,不適合對海量數據異常檢測,此外,該算法受參數的影響較大。基于自編碼器(AE)[9網絡的異常檢測算法主要是通過正常數據對模型進行訓練,通過重構誤差來判定數據是否異常。該算法的優點在于可對數據進行降維,通過編碼器提取出數據中的主要特征,且算法比較穩健,但是該算法僅適用于與訓練樣本相似的樣本,當數據異構時,模型的泛化能力較差。基于長短期記憶自編碼器(LSTM-AE)[10網絡的異常檢測算法是在前一種算法上做的更進一步優化,該算法將訓練階段拆分為預訓練和預檢測兩個階段。在預訓練階段訓練多個不同維度隱藏層的LSTM-AE,通過預檢測階段的表現挑選基檢測器,并計算其各自權重;在異常檢測階段,通過對每個基檢測器產生的重建誤差進行加權集成獲得新的重建誤差矩陣,進行異常識別。該算法解決了時間序列異常檢測方法在異常檢測階段對正常序列和異常序列的重建誤差不能明顯分化,致使重建誤差在閾值附近的序列無法正確判斷正常與異常的問題,但是其模型泛化能力存在不足,并且由于AE強大的生成能力,不可避免地會產生類外樣本,導致模型的訓練會產生偏差,降低異常檢測準確度。

綜上,傳統異常檢測算法存在以下不足:

a)傳統異常檢測算法大多將原始數據視為正常數據,忽略異常數據來解決數據不均衡這一難題,但該方法無法評估異常數據對模型訓練的影響程度;

b)傳統基于閾值的異常檢測算法存在正常序列和異常序列的重建誤差不能明顯分化,致使重建誤差在閾值附近的序列無法正確判斷正常與異常的問題;

c)當數據不在同一特征空間或數據不滿足獨立同分布時,機器學習會根據新的數據集進行模型重建11,導致模型不具備泛化能力。

為了解決傳統算法中存在的不足,本文提出了基于聯邦學習的對抗雙編碼網絡用于數據擴充及異常檢測,其異常檢測系統框圖如圖2所示。

本文主要貢獻如下:

a)提出了一種基于異常數據的主動特征分布學習算法。利用對抗雙編碼網絡(GB-AEnet),主動學習數據的潛在特征分布,采樣得到潛在特征并進行數據重構,擴充異常數據,均衡正負樣本比例。此外,引入了采樣噪聲后在一定程度上解決了傳統自編碼器生成數據類型單一的難題并均衡正負樣本比例提高模型對異常數據檢測的魯棒性。

b)GB-AEnet網絡的潛在特征層引入了對抗訓練機制[12,并添加一致性增強約束和收縮約束,確保網絡對異常數據產生合理一致的潛在表示并將所有輸入數據都映射到類似的位置,提高特征提取的精度。

c)設計了一種基于動態模型選擇的聯邦學習算法,比較局部模型與全局模型的置信度評分,動態選擇部分聯邦體參與,加速模型的聚合,且模型參數無須加載大量原始數據的傳輸,節省了中央控制器與本地網關之間的通信寬帶,在一定程度上也保護了用戶隱私[13

1 GB-AEnet網絡用于數據增強及異常檢測

物聯網中大量用戶、設備產生海量數據,同時也產生了數量不可預估的異常數據,且異常并非常態,導致正負樣本呈現非均衡態。本文對CRAWDAD數據集進行了預處理:a)數據歸一化處理;b)降維,通過主成分分析(PCA) [14方法將原始數據由24維(包括位置、設備信息、信號強度、上傳和下載速率等)降至6維(包括信號強度、上傳和下載速率、接收功率、參考信號接受質量以及連接時延);c)聚類,通過譜聚類(K-means) [15將數據聚類,可視化后其結果如圖3所示。

傳統異常檢測算法通過建立正常樣本模型,對測試樣本進行重構,獲取重構誤差并與判決門限比較,判定樣本是否異常。然而,模型前期是通過類不均衡的數據集訓練而得,并且在訓練過程中模型默認輸入數據均為正常樣本,忽略異常樣本,可能會導致模型對正常樣本的識別產生偏差[16。判定數據是否異常在極大程度上依賴于判決門限,當數據重建誤差在閾值附近時,異常檢測模型對此類數據會產生模糊的識別結果,數據類型可能會被誤判,導致檢測模型不能準確地識別異常樣本。為了解決上述問題,已有研究將自編碼網絡引入異常檢測算法中,通過均衡樣本來提高模型的異常檢測準確率[17。但是傳統自編碼網絡在進行數據重構時存在兩大問題:a)AE網絡是盡可能地重現輸入樣本,生成樣本單一;b)AE網絡具有強大的數據生成能力,但是無法保證生成數據的真實性。針對問題a),已經有變體網絡—變分自編碼網絡(VAE)解決[18,但是VAE網絡并未對引入的噪聲進行約束,可能會產生不夠真實的樣本,且產生的數據比較模糊。生成對抗網絡(GAN)[19是近年來較流行的數據生成網絡,其特有的對抗性訓練機制能夠不斷校正數據特征,保證數據的高質量重建。訓練GAN需要達到納什均衡,梯度下降并非每次都能做到,缺少達到納什均衡的有效方法,所以GAN并沒有VAE穩定。因此,本文受到VAE和GAN的啟發,改進了傳統AE網絡,提出了一種基于對抗雙編碼(GD-AEnet)網絡的異常檢測算法。該算法可直接通過編解碼步驟比較重構樣本與原始樣本的差異,并加入了對抗性訓練的思想,解決生成樣本較為模糊的問題。該算法將訓練階段拆分為預訓練和預檢測兩個階段,在預訓練階段主動學習異常數據的特征分布,采樣獲取具體的潛在特征,而非樣本的特征值。引入采樣操作的目的主要是為了引入隨機噪聲,讓重構數據能具有更豐富的類型。為了保證生成數據的真實性,引入了對抗性訓練機制,通過不斷校正潛在特征來獲取高質量的重構數據。在預檢測階段,將生成的異常樣本與原始正樣本等量混合作為網絡的訓練集指導異常檢測器訓練。計算原始輸入數據與重構數據潛在特征分布的相對熵,并與判決門限比較,進行異常識別。GB-AEnet網絡包含數據生成模塊和異常檢測兩個功能模塊,整體網絡架構如圖4所示。

1.1 預訓練階段

傳統AE網絡具有強大的生成能力,包含編碼器和解碼器部分。編碼器用于特征提取,學習映射關系gθ1:x→z;解碼器部分用于數據重構,學習映射關系hθ2:z→x。但傳統AE網絡在進行數據重構時,存在以下兩個問題:a)AE雖重構能力強,但通過特征提取后輸出的是隱變量的具體取值,即只是對數據提取出來的特征盡可能還原,數據樣本單一[10;b)數據重構真實性無法得到保證,類外樣本對數據重構性能影響有不確定性。

為克服傳統AE網絡的不足,提出了基于異常數據的主動特征分布學習算法,構建了GD-AEnet數據生成模塊。與傳統AE網絡相比,所提網絡繼承了AE網絡強大的數據生成能力,通過編解碼器學習異常數據的潛在特征分布而不是直接獲取具體的潛在特征值,引入采樣噪聲,豐富了生成數據的類型,且增加了特征校正功能抑制采樣噪聲及類外樣本對重構數據真實性的影響。

1)改進AE網絡

改進后的自編碼網絡如圖5所示,編碼器部分不再是傳統的單編碼器用于特征提取,而是由兩個功能網絡組成,主動學習異常數據的潛在特征分布,解碼器對采樣后的潛在特征值進行重構,擴充異常數據。采樣獲取潛在特征,引入的采樣噪聲豐富了生成樣本的多樣性。

假設真實樣本為X={x1,x2,x3,…,xn},重構后的樣本為X^={123,…,n} 。構建編碼器如式(1)(2)所示。

其中:xi表示第i個樣本數據;μi表示第i個樣本數據的均值;σ2i表示第i個樣本數據的方差;f1和f2表示功能網絡,分別用于計算第i個樣本數據的均值和方差。

采樣獲取潛在特征zi,計算如式(3)所示。

其中:zmean與z_log_var分別代表解碼器輸出的均值與方差對數;epsilon為根據輸出的均值與方差生成服從相應高斯分布的隨機數。編解碼器利用均方損耗(MSE loss)進行優化,其優化目標計算如式(4)所示。

其中:n為樣本個數;xi表示第i個樣本數據;i表示原始數據xi輸入GD-AEnet數據擴充子網絡后所對應的重構數據。

2)特征校正模塊 在數據重構時,潛在特征值通過采樣獲取。此外,數據預處理時可能將正樣本誤判為異常樣本,因此需抑制采樣噪聲及正樣本對數據重構的影響。在潛在特征層進行對抗性訓練[11,確保網絡能夠對異常數據產生合理一致的潛在表示并將所有輸入數據都映射到類似的位置,最小化正樣本以及采樣噪聲對異常數據重構造成的影響。通過最小化相對熵函數(KL散度),迫使潛在特征分布都去盡量接近正態分布。其優化目標公式如式(5)所示。

其中:n為樣本個數;μi表示第i個輸入樣本xi的均值;σi表示第i個輸入樣本xi的方差。

此外,增加了潛在特征收縮約束,懲罰與潛在特征空間中大多數樣本的分布偏差較大的樣本點。該約束的優化函數公式如式(6)所示。

其中:Z代表潛在特征矩陣,其特征值由數據潛在特征分布采樣所得,計算公式如式(3)所示。

通過上述對抗性訓練和逐步約束優化,重構總損失函數為

對抗性訓練總損失函數如式(8)所示。

其中:α1、α2、α3為每項的加權因子。為簡單起見,在式(7)中,令α12=1.0以獲得相等的權重。此外,對于α3,由于數據前期已進行預處理,出現特征空間中大多數樣本的分布偏差較大的樣本點的幾率較低,所以令α3=0.1。

算法1 基于GD-AEnet網絡的異常數據增強算法

輸入:樣本數據集X=[x1,x2,…,xl],算法迭代次數n,初始化約束因子α12=1.0,α3=0.1 ,學習率η=0.001。

輸出:擴充后的異常數據集Y^={y1,y2,…,yk}。

歸一化處理:對原始數據集X采用min-max進行歸一化處理

數據降維:主成分分析算法(K-PCA)將數據集X由24維降至6維

聚類:通過譜聚類(K-means) [15將數據聚類,類外樣本點記為Y=[y1,y2,…,yk

兩次滑窗處理:增加異常數據各維度間以及與時間的相關性

將處理后的數據集Y中的數據輸入到編碼器中,獲取異常數據潛在特征分布

for i=1 to k

μi=f1(zi) //計算zi的均值

log σ2i=f2(zi) //計算zi的方差

zk=zmean+expz_log_var2×epsilon /*通過采樣獲取數據的潛在特征值*/

潛在特征作為解碼器的輸入,輸出重構數據Y^={12,…,k}

end for

for i=1 to n

計算LMSE=1n∑ni=1(yi-i2 //更新編解碼器

計算L(μi,σi)=12∑ni=1(μ2i2i-log(σ2i)-1) /*對抗性訓練,抑制樣本數據對類外樣本重構的影響*/

計算Lzl1=1dz‖z‖2 /*懲罰與潛在特征空間中分布偏差較大的樣本點*/

計算L=α1LMSE2L(μi,σi)+α3Lzl1 //更新GD-AEnet網絡

end for

1.2 預訓練階段

在異常檢測階段,利用GD-AEnet異常檢測子網絡將均衡后的數據作為訓練集來指導異常檢測模型的訓練。需要注意的是,該異常檢測模型比較的是原始數據與重構數據的潛在特征分布,而非數據本身。其網絡模型如圖6所示。

訓練集數據通過layer1層編碼層,其分布如式(9)所示。

其中:xi表示第i個樣本數據;μ1表示layer1層編碼器的平均均值;σ21表示layer1層編碼層的平均方差。

重構數據通過layer2層的編碼層,其分布如式(10)所示。

其中:xi表示第i個樣本數據;μ2表示layer2層編碼器的平均均值;σ22表示layer2層編碼層的平均方差。

通過計算兩個分布的KL散度來判定重構數據與原始數據偏差程度,記為數據異常得分,計算公式如式(11)所示。

其中:f1表示輸入樣本數據通過layer1層編碼器獲取的數據潛在特征分布;f2表示重構數據通過layer2層編碼器獲取的數據潛在特征分布。

本文使用異常得分score作為約束參數來減輕誤報的問題,異常得分表明原始數據通過GD-AEnet異常檢測子網絡后得到的重構數據與原始數據之間的偏差程度,定義一個約束參數ε表示原始數據與重構數據之間最大的分布偏差程度。經過多次實驗,令ε=0.05。本文通過確定檢測閾值η來判定數據是否異常,當輸入和輸出的偏差程度小于η時,該數據被判為異常數據,否則為正常數據。在本地電力物聯網網絡中,η是通過將參考預定義的約束參數ε的局部數據輸入GD-AEnet異常檢測子網絡模型來確定的。首先,將位于中央控制器處的GD-AEnet異常檢測子網絡輸入測試集數據,推導出異常得分score、原始數據及重構數據的特征分布及原始數據的均值μ和標準差σ。然后,根據經驗法則初始化η。判定異常得分與約束參數,如果scorelt;ε,接受該閾值,否則,按照式(12)迭代更新異常檢測的判決門限,直到它低于ε的值。

其中:ηi+1表示模型迭代訓練第i+1輪后得出的判決門限;ηi表示模型迭代訓練第i輪后得出的判決門限;μi 表示第i輪訓練后獲取的均值;σi表示第i輪訓練后獲取的標準差。

在本文實驗中,使用γ=0.01的更新率來自動增加閾值。

算法2 基于GD-AEnet網絡的數據異常檢測算法

輸入:訓練集X=[x1,x2,…,xl],訓練集=[12,…,m],測試集Y,算法迭代次數為n,初始化更新率γ=0.01,約束參數ε=0.05,判決門限η=0。

輸出:異常數據集Y^=[12,…,k]。

將訓練集X按照算法1訓練,獲取擴充后的異常數據集Y^

將Y^與數據集進行混合,獲取新的訓練集X^

將訓練集X^數據輸入異常檢測模型,開始訓練:

2 基于動態模型選擇的聯邦學習架構

本文所提GD-AEnet網絡在一定程度上能解決由于數據量大、數據不均衡而產生的異常檢測難題,加速檢測并提高了檢測精度。但是機器學習進行故障檢測的大前提是所處理的數據是獨立同分布的[11,然而實際數據在不同采樣頻率下,其分布是不一致的,這就導致了當數據不在同一特征空間或數據不滿足獨立同分布時,機器學習會根據新的數據集進行模型重建,或者是導致模型在不同數據集上檢測效果呈現差異化。其次,數據隱私已經成為許多用戶日益關注的問題[13。聯邦學習解決了這個問題20,多個參與者根據他們的組合數據聯合訓練一個深度學習模型,無須任何參與者向集中式服務器顯示他們的數據。然而,這種保護隱私的協作學習是以訓練期間大量通信開銷為代價的,一旦客戶端的數量超過一定的閾值,通信和聚合更新的工作量都隨著客戶端的數量呈線性增長,可能無法直接更新通信權重。因此,本文對傳統聯邦學習進行了改進:

a)壓縮上傳到服務器的內容,以減少通信時間和能耗。

b)部分模型參與,計算每個模型的置信度評分,動態抑制不滿意的模型,提高模型泛化能力,優化模型的聚合速度。

假設有M個參與者,將均衡后的數據作為全局數據集來初始化全局模型,將模型下發至每個參與者,收到模型后,參與者根據自己本地收集到的時序數據開始模型訓練。由于頻繁參與聯邦學習會產生大量通信開銷,并且一旦參與者的數量超過一定的閾值,可能導致模型參數在服務器端無法聚合,訓練時間過長且無法獲取最優的全局模型參數。因此本文提出了基于模型選擇的聯邦異常檢測算法(算法3)。結合算法2、3,用于物聯網場景下的設備異常檢測,不僅解決了由于數據不均衡導致的數據準確率低的問題,還提高了模型的泛化能力,且在一定程度上保護了用戶的數據隱私。所提基于模型選擇的聯邦異常檢測模型架構如圖7所示。

對上傳模型量進行壓縮。在迭代t次后,分別計算本地模型檢測誤差,計算公式為

其中:losstk表示第k個參與者迭代t次后的本地模型檢測誤差;D(E(yi))表示第i個輸入樣本點通過編解碼器后的重構數據;Nk為第k個參與者的本地數據集大小;N為混合后的數據集大小;L(yi,D(E(yi)))表示第i個輸入樣本點yi與重構數據之間的均方重構誤差,其計算如式(7)所示。第t輪迭代后的全局模型檢測誤差為

其中:losst-1i 表示第i個參與者在迭代t-1次后得到的本地模型檢測誤差;M表示聯邦體參與者數目。

對每個模型進行評分,其計算如式(15)(16)所示。

其中:ckt表示第t次迭代后第k個模型的置信度評分;losstk表示第k個參與者迭代t次后的本地模型檢測誤差;M表示聯邦體中的參與者數;Nk表示第k個參與者所包含的數據量,N為Nk的總和。每迭代一次,都會更新本地模型、全局模型的檢測誤差以及本地模型的置信度評分。若本地模型的檢測誤差高于全局模型的檢測誤差,則將該模型的評分值置0,否則按照式(15)更新模型置信度評分。服務器端對模型進行聚合,按照評分對所選模型進行壓縮,其計算如式(17)所示。

其中:wt表示迭代t次后的全局模型參數;Mc表示上傳模型參數的總個數;ct-1k表示迭代t-1次后第k個模型的置信度評分;wt-1k表示迭代t-1次后的全局模型參數。

算法3 基于模型選擇的聯邦異常檢測算法

輸入:訓練集=[Y1,Y2,…,YM](Y∈(m×l))表示M參與者的數據集,算法迭代次數n ,初始化權重w0j=0(j=1,2,…,M),初始化全局模型參數w0,初始化學習率γ=0.01。

輸出:全局最優模型參數w。

服務器端:將全局模型參數w0下發至M參與者

客服端:

for i=1 to n

for k=1 to M

for j=1 to m

losstk=1Nk∑Nki=1L(yi,D(E(yi))) /*計算第t輪迭代后每個模型的檢測誤差*/

ηt=1M∑Mi=1losst-1i //計算全局模型的檢測誤差

if losstigt;ηi

then cti=0

else if lossti≤ηi

then

ctk=NkN1losstkMt∑Mk=1NkN1losstkMt //模型置信度計算

wt=ct-1kwt-1k //更新本地模型參數

end for

end for

end for

將更新后的本地模型參數上傳至服務器:

wt=1Mc∑Nk=1ct-1kwt-1k //更新全局模型參數

3 仿真驗證

3.1 數據集描述

本文使用了The Telecom Dataset、CRAWDAD-mysignals、IoT-23 Dataset三個公共數據集。所有數據集均不包含標簽,而GD-AEnet網絡需要異常數據指導訓練,為獲取數據集中的異常數據,利用K-means算法對原始數據聚類,獲取異常數據。此外,利用min-max對數據進行了歸一化處理,并利用兩次滑窗增加數據各維度和時間的相關性,使數據更適合詳細的數據集信息如表1所示。

The Telecom Dataset:該數據集是由上海電信提供,包含了720萬條設備與互聯網的通信記錄。該數據集記錄的每條測量值都包含lte_rsrp、lte_rsrq、上行和下行速率、連接時延等字段。

CRAWDAD-mysignals:該數據集中包含的數據是由MySignals應用程序收集,包含10個設備連續使用8個月的數據。每個記錄的測量值都包含timestamp、RSS1、RSS5、緯度、經度、精度、cellID、lac、mac、arfcn等字段。

IoT-23 Dataset:該數據集包含23個不同的物聯網場景,是由捷克共和國 CTU 大學Stratosphere 實驗室捕獲,包含3個物聯網設備的數據。

3.2 模型性能評估

1)模型生成性能評估

對擴充后的數據進行聚類后,可視化后結果如圖8所示。觀察圖8并與圖3比較可知,異常數據明顯增多,證明了GD-AE網絡具有強大的數據生成能力。

計算不同迭代次數下真實數據和異常數據之間的均方誤差(mean-square error,MSE loss),并在訓練集和測試集上進行了驗證。由圖9可以看出,GD-AEnet模型在訓練過程中,訓練損耗和測試損耗均在不斷下降,說明此時網絡正在不斷學習。當迭代次數大于30次后,訓練損耗和測試損耗均不斷趨于0,表明真實數據和異常數據之間的擬合度在不斷提高,驗證了GD-AEnet模型生成數據的真實性,且測試損耗與驗證損耗不斷接近,說明GD-AEnet模型的數據生成能力良好。

此外,對于數據生成模型而言,不僅需要較強的數據生成能力,還需要保證生成數據的真實性,本文考慮通過比較生成數據與原始數據的吻合情況來判定生成數據的真實性。首先,利用卡方檢驗對數據擬合情況進行驗證,將卡方值的倒數定義為樣本之間的擬合度,如果擬合度越大,則表示實際樣本與生成樣本之間的偏離程度就越小,生成數據就越真實。表2給出了不同模型對同一數據集的擬合度。根據表2中所展示的數據可以看出,GD-AEnet、AE和GAN生成的數據都具有較高的真實性,其生成數據與原始數據的擬合度均在92%以上。其中GD-AEnet的數據擬合度達到了98.5%,均高于其他生成,證明了所提算法在數據生成真實性上優于傳統AE和GAN。其次,統計實際樣本與生成樣本之間的偏離程度,可視化后如圖10所示。由圖10可以看出,GD-AEnet、AE和GAN生成的數據都與原始數據在分布上十分接近,其中GD-AEnet的生成數據擬合效果最佳。

2)異常檢測性能評估

對于模型的異常檢測能力,本文使用以下四個指標來評估模型異常檢測性能:

本節主要從GD-AEnet的泛化能力和異常檢測性能,包括異常檢測準確度、精確度、召回率、F1-score進行模型評估。按照以往參考文獻將訓練迭代次數和批量大小的值分別設置為5 000和128,約束參數ε=0.05。將3.1節中所提的三個數據集作為GD-AEnet異常檢測子網絡的訓練集進行訓練。由于所提異常檢測網絡模型是基于判決門限的,所以需要模型具有較強的學習能力,能夠按照不同的數據集動態選擇不同的判決門限,并且不同數據集的異常檢測性能受影響較小。

分析表3可得出,GD-AEnet異常檢測子網絡具有動態設置判決門限的能力,在一定程度上表明模型具有一定的自學習能力。此外,還需評估GD-AEnet異常檢測子網絡在不同數據集上異常檢測的精確度和召回率。本文利用F1-score對網絡模型在三個不同數據集上的異常檢測表現進行定量分析,并與LSTM-AE、LSTM-GAN和AE網絡分別在三個不同數據集上進行了對比分析,其結果如圖11所示。分析圖11,GD-AEnet在四個不同的數據集上均表現良好,其異常檢測的準確率均保持在95%左右,波動幅度僅為3%左右。但其余三個算法在不同數據集上表現出了明顯的差異化,以LSTM-GAN為例,LSTM-GAN對數據集3的異常識別準確率只有53%,對數據集1的異常識別準確率能達到86.3%,證明了GD-AEnet的泛化能力優于所對比的其他算法。其次,在相同數據集下,GD-AEnet的異常識別準確率均高于其他三個算法,證明所提算法在異常檢測的性能上均優于LSTM-AE、LSTM-GAN和AE網絡。

更進一步,本文在同一數據集上分析不同網絡對異常數據檢測的準確性、精度、召回率以及F1-score,如表4所示。分析表4可知,GD-AEnet異常檢測子網絡與LSTM-AE網絡在異常檢測時均表現良好。在準確度上,GD-AEnet異常檢測子網絡比LSTM-AE網絡提高了2%,精度提升了1%左右,召回率提升了3.8%左右,所提算法檢測性能在實驗數據集上均取得了顯著提升。圖12展示了本文算法對異常數據的識別能力,由圖12可以明顯觀察出,當樣本出現異常時,其殘差信號會產生明顯變化。

3)引入聯邦學習的必要性驗證 從整體角度出發,設置M={5,10,20,50,100,1 000},其中M代表聯邦體的參與者數量。采用控制變量法,選取同一數據集進行驗證,利用不同的GD-AEnet-FL異常檢測模型進行異常數據識別,獲取異常檢測準確率并與LSTM-AE和LSTM-GAN(M=1)進行對比,詳細結果如圖13所示。

由圖13可以明顯看出,隨著參與者數量的不斷增加,其異常檢測準確率在逐步下降,但其準確率基本相近(迭代100次之后其準確率在91.88%),驗證了GD-AEnet-FL模型在異常識別中的可行性,也證明了模型具有較強的泛化能力。此外,LSTM-AE和LSTM-GAN對該數據集的準確率分別為87.94%和90.12%,均低于該實驗中所涉及的聯邦網絡,因此,GD-AEnet-FL網絡在異常識別性能上表現較為優秀。

從個體角度出發,將數據集中的數據隨機,均勻分成K={1,5,10,20,50,100,1 000}份,分別代表每位參與者所擁有的數據集。設置七個不同場景M={1,5,10,20,50,100,1 000},每位參與者僅使用本地數據訓練的GD-AEnet檢測模型的識別準確率,并取均值。相同場景下,與基于聯邦學習的檢測模型GD-AEnet-FL的識別準確率進行對比,結果如圖13所示,其中橫坐標表示每個參與者所擁有的數據集規模。

由圖14可觀察出,GD-AEnet、GD-AEnet-FL、AE和GAN的異常檢測準確率均會隨著數據集規模的減少而不斷降低。GD-AEnet-FL的異常檢測準確率均保持在90%以上,傳統AE和GAN在大規模數據集的情況下模型性能表現良好,但是隨著數據集規模的減小,異常檢測的準確率變化幅度較大,證明了數據規模會對準確率造成一定的影響,但GD-AEnet-FL模型具有較好的魯棒性,能夠在循環迭代后達到最優,保證對異常的準確識別。此外,在相同數據集規模下,GD-AEnet-FL網絡異常檢測準確率高于GD-AEnet,說明在GD-AEnet模型中加入聯邦學習是有必要的,并且在一定程度上能提高模型的異常識別性能,能更精準地識別異常樣本。

4 結束語

本文提出一種基于AE網絡的異常檢測框架GB-AEnet,主要解決了數據缺少標簽以及數據不均衡異常檢測網絡的檢測準確度無法得到保證的難題。該算法主旨在突出異常,抑制正樣本對后期模型訓練的影響,提高前期對數據的生成訓練,得到一個對異常數據極度敏感的異常檢測網絡,并且在一定程度上能均衡異常數據和正常數據。此外,由于數據之間存在異構性,導致模型在不同數據集上的異常檢測能力呈現出一定的差異化。本文還提出了一種基于模型選擇的聯邦學習算法,該算法動態地選擇模型上傳,抑制不滿意的模型,不僅提高了模型泛化能力,優化模型的聚合速度,并且在一定程度上壓縮了上傳到服務器的內容,以減少通信時間和能耗。通過上文的驗證可以看出,本文算法在數據生成能力、異常識別性能均優于所比較的算法,且所提出的模型GB-AEnet-FL具有更強的泛化能力。

本文提出一種更高效的異常檢測算法,檢測出異常只是網絡故障診斷中的第一步,未來希望能夠在檢測出異常的前提下,能夠及時地對故障發生點進行定位,達到對故障進行診斷的目的。

參考文獻:

[1]Cui Yuanhao,Liu Fan,Jing Xiaojun,et al.Integrating sensing and communications for ubiquitous IoT:applications,trends,and challenges[J].IEEE Network,2021,35(5):158-167.

[2]Na Zhenyu,Li Bowen,Liu Xin,et al.UAV-based wide area Internet of Things:an integrated deployment architecture[J].IEEE Network,2021,35(5):122-128.

[3]Zhao Yunfeng,Liu Zhicheng,Qiu Chao,et al.Socialized learning for smart cities:cognitive paradigm,methodology,and solution[J].IEEE Wireless Communications,2021,28(5):200-208.

[4]Chattaraj D,Bera B,Saha S,et al.Block clap:blockchain assisted certificateless key agreement protocol for Internet of Vehicles in smart transportation[J].IEEE Trans on Vehicular Technology,2021,70(8):8092-8107.

[5]Kaur M,Mohammad Z K,Shikha G,et al.Adoption of blockchain with 5G networks for industrial IoT:recent advances,challenges,and potential solutions[J].IEEE Access,2022,10:981-997.

[6]Chandola V,Banerjee A,Kumar V.Anomaly detection for discrete sequences:a survey[J].IEEE Trans on Knowledge and Data Engineering,2021,24(5):823-839.

[7]李晨,王步宏,田繼偉.基于LSTM-OCSVM的無人機傳感器數據異常檢測[J].小型微機系統,2021,42(4):700-705.(Li Chen,Wang Buhong,Tian Jiwei.Anomaly detection of UAV sensor data based on LSTM-OCSVM[J].Small Microcomputer Systems,2021,42(4):700-705.)

[8]Yang Yuan,Ma Suliang,Wu Jianwen,et al.Fault diagnosis in gas insulated switchgear based on genetic algorithm and density-based spatial clustering of applications with noise[J].IEEE Sensors Journal,2021,21(2):965-973.

[9]Merrill N,Eskandarian A.Modified autoencoder training and scoring for robust unsupervised anomaly detection in deep learning[J].IEEE Access,2020,8:101824-101833.

[10]Yang Haosen,Qiu R C,Tong Houjie.Reconstruction residuals based long-term voltage stability assessment using autoencoders[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1092-1103.

[11]Itahara S,Nishio T,Koda Y,et al.Distillation-based semi-supervised federated learning for communication efficient collaborative training with Non-IID private data[J].IEEE Trans on Mobile Computing,2021,3(7):697-703.

[12]Yu Yanhua,He Kanghao,Li Jie.Adversarial training for supervised relation extraction[J].Tsinghua Science and Technology,2022,27(3):610-618.

[13]Keshk M,Turnbull B,Moustafa N,et al.A privacy preserving framework based blockchain and deep learning for protecting smart power networks[J].IEEE Trans on Industrial Informatics,2020,16(8):5110-5118.

[14]景芳,胡少海,馬曉樂.基于分組的PCA和引導濾波器的SAR圖像去噪[J].系統工程與電子學雜志,2021,32(1):81-91.(Jing Fang,Hu Shaohai,Ma Xiaole.SAR image denoising based on group PCA and guided filters[J].Journal of Systems Engineering and Electronics,2021,32(1):81-91.)

[15]Khaledian E,Pandey S,Kundu P,et al.Real-time synchrophasor data anomaly detection and classification using isolation forest,K-means,and loop[J].IEEE Trans on Smart Grid,2021,12(3):2378-2388.

[16]Yang Baoyao,Ye Hzowei,Harada T,et al.Model induced generalization error bound for information theoretic representation learning in source data free unsupervised domain adaptation[J].IEEE Trans on Image Processing,2022,31(10):419-432.

[17]陳杰,張浩天,湯奕.基于改進生成式對抗網絡的電網異常數據辨識方法[J].電力建設,2021,42(5):9-15.(Chen Jie,Zhang Haotian,Tang Yi.Power grid abnormal data identification method based on improved generative adversarial network[J].Electric Power Construction,2021,42(5):9-15.)

[18]馬金.基于深度神經網絡的序列異常檢測研究[D].成都:電子科技大學,2018.(Ma Jin.Research on sequence anomaly detection based on deep neural network[D].Chengdu:University of Electronic Science and Technology of China,2018.)

[19]劉欣然,徐雅斌.“類人”社交機器人檢測數據集擴充方法研究[J].電子科技大學學報,2022,51(1):130-137.(Liu Xinran,Xu Yabin.Human-like social robot detection data set expansion method research[J].University of Electronic Science and Technology of China,2022,51(1):130-137.)

[20]Sattler F,Wiedemann S,Myuller K R,et al.Robust and communication-efficient federated learning from Non-IID data[J].IEEE Trans on Neural Networks and Learning Systems,2020,31(9):3400-3413.

主站蜘蛛池模板: 精品欧美一区二区三区久久久| 国产视频一二三区| 亚洲av无码人妻| 精品91在线| 丰满人妻被猛烈进入无码| 亚洲精品无码人妻无码| 欧美日本视频在线观看| 91精品国产91久久久久久三级| 亚洲成人在线免费| 大陆精大陆国产国语精品1024| 免费观看欧美性一级| 久久久国产精品免费视频| 中文无码精品a∨在线观看| 热思思久久免费视频| 伊人久久精品无码麻豆精品| 国产精品欧美激情| 999国产精品| 亚洲日韩AV无码一区二区三区人| 婷婷五月在线| 91精品视频在线播放| 国产精品女同一区三区五区| 波多野结衣久久高清免费| 又爽又大又黄a级毛片在线视频| 国产中文一区a级毛片视频| 亚洲av综合网| 国产视频只有无码精品| 亚洲成人在线网| 丰满人妻中出白浆| 香蕉eeww99国产在线观看| 免费三A级毛片视频| 国产在线高清一级毛片| 精品91自产拍在线| 亚洲色图狠狠干| 美女内射视频WWW网站午夜 | 欧美日韩午夜| 中文字幕乱码二三区免费| yy6080理论大片一级久久| 亚洲国产午夜精华无码福利| 国产精品网曝门免费视频| 日韩精品一区二区三区swag| 色老二精品视频在线观看| 国产无遮挡猛进猛出免费软件| 亚洲清纯自偷自拍另类专区| 国产偷倩视频| 国产综合另类小说色区色噜噜 | 99久久精品免费观看国产| 日韩在线视频网| 精品无码人妻一区二区| 香蕉99国内自产自拍视频| 欧美区一区| 51国产偷自视频区视频手机观看 | 伊人精品视频免费在线| 中文字幕亚洲另类天堂| 亚洲第一精品福利| 精品久久国产综合精麻豆| 亚洲国产理论片在线播放| AV无码一区二区三区四区| 91亚洲免费| 国产精品专区第1页| 成人在线不卡| 香蕉视频国产精品人| 91精品国产综合久久香蕉922| 91成人免费观看在线观看| 国产精品思思热在线| 亚洲日韩第九十九页| 免费A级毛片无码免费视频| 亚洲综合二区| 91网址在线播放| 99伊人精品| 久久人妻xunleige无码| 日韩一区二区三免费高清| 激情视频综合网| 98精品全国免费观看视频| 亚洲天堂视频在线观看免费| 亚洲资源站av无码网址| 精品黑人一区二区三区| 乱人伦中文视频在线观看免费| 999精品色在线观看| 国产精品开放后亚洲| 亚洲清纯自偷自拍另类专区| 毛片在线区| 美女国产在线|