999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GAN的多變量時間序列異常檢測方法

2023-06-21 08:31:18
關鍵詞:檢測模型

姚 珺

(銅陵學院 數學與計算機學院,安徽 銅陵 244061)

多變量時間序列異常檢測[1]在工業控制、醫療診斷、網絡安全等應用領域中被廣泛研究和關注,旨在通過構建以往時間序列變化的正常模式,以檢測數據中不符合預期模式的時序片段[2]。例如,在網絡安全領域,通過監測網絡流量可有效地檢測出用戶的異常行為,從而保護系統免受網絡攻擊。時間序列異常檢測通常會面臨兩大難題:一是在采集的樣本中,異常數據遠比正常數據少;二是樣本標簽通常需要由相應領域的專家進行人工標注,但給所有樣本都打上標簽很難實現。因此,僅用正常數據即可訓練模型的無監督方法更適合時間序列的異常檢測。

近年來,生成對抗網絡(Generative Adversarial Networks,GAN)[3]備受關注。作為一種無監督的深度學習模型,GAN在高維數據建模方面具有優勢,因而被廣泛應用于時序數據的異常檢測。基于GAN的異常檢測方法通常分為兩個階段:模型訓練階段和異常檢測階段。在訓練階段,只使用正常數據來訓練模型,逐步學習正常時序數據的分布特性,使得訓練后的模型能理想地重構正常數據;在測試階段,以樣本重構誤差作為判別依據,重構誤差偏大的數據被將判定為異常。具體來說,根據模型輸出的異常分數來判斷樣本是否為異常,且異常分數越高則樣本是異常的可能性就越高。

從重構角度出發,按隱空間變量的生成方式,基于GAN的異常檢測模型大致分為三種:第一種是不使用編碼器(Encoder)生成隱空間變量的方法。與標準GAN一樣,僅通過生成器和判別器來構造GAN,并對隨機生成的隱變量進行優化,以生成與異常檢測對象測試數據最相似的數據。代表模型有MADGAN[4],該方法以LSTM-RNN網絡作為GAN的基本模型來捕捉多變量時間序列分布,并設計同時考慮判別損失和重構損失的異常分數檢測。第二種是使用雙向GAN[5](Bidirectional GAN,BiGAN)的方法。BiGAN是在標準GAN中添加編碼器,從而使模型具備學習真實數據到隱空間逆映射功能,因此在訓練時可以實現數據空間和隱空間的雙向映射,從而生成用于重建測試數據的隱變量。代表模型有ALAD[6],該方法在特征維度較高的大數據集上表現優異。第三種是使用自編碼器(Auto-encoder)的方法。該方法通過自編碼器來構造生成器,與BiGAN一樣,在訓練時可以實現學習數據空間與隱空間的雙向映射。代表模型有BeatGAN[7],該方法通過使用一維CNN或全連接神經網絡來構造自編碼器,有效提高了對單變量和多變量時間序列異常檢測的精度。

由于多變量時間序列固有的高維復雜特性,其異常檢測仍然是一個很大的挑戰。本文提出了一種基于GAN的多變量時間序列異常檢測模型。該模型使用長短期記憶(Long Short-Term Memory,LSTM)網絡作為基本模塊,生成器采用編碼-解碼結構,在模型訓練時可以學習數據空間和隱空間的雙向映射。因此,在異常檢測階段無需對每個測試樣本進行隱空間變量優化,從而縮短了模型檢測異常的時間。此外,在編碼器、解碼器和判別器中均加入一個多通道注意力(Multi-Channel Attention)[8]層,以學習多變量時間序列時空上的復雜依賴關系,并通過捕捉時序數據在時間和空間維度的重要性,從而提升異常檢測的準確性。該模型結合生成器的重構損失和判別器的判別損失共同定義的異常分數來檢測異常,同時在公開數據集上進行實驗并驗證了本文模型的有效性。

1 問題定義

本節給出了本文所使用的符號和問題定義。X=(…,xt,xt+1,…)∈Rn×d,d>1被稱為多變量時間序列數據,其中,n表示時序數據的長度,xt∈Rd表示t時刻的時序向量,d表示時序向量的維度。

定義1多變量時間序列片段是指作為待訓練或待檢測的時序數據集合。

本文通過滑動窗口機制[9]從原始的多變量時間序列中提取時間序列片段。滑動窗口包含兩個屬性:窗口大小w和滑動步長s。將滑動窗口與時序數據起始處對齊,并沿著時序方向滑動。在每次滑動后,滑窗選中的數據即為一個時序片段。Xi=(xt-w+1,…,xt-1,xt)∈Rw×d表示滑窗移動了i步后所提取的時序片段,其中,t表示提取時序片段中時序數據的結束時刻,w表示時序片段的長度。給定多變量時間序列數據X的一個時間序列片段Xi,則多變量時間序列異常檢測的目標是得到t時刻的異常分數,該異常分數可反映t時刻時序點的異常程度。

2 異常檢測模型設計

針對多變量時間序列數據的高維度和復雜性,本文基于GAN提出了一種無監督多變量時間序列異常檢測模型。為更好地學習時間序列分布,本文使用LSTM網絡來構造生成器和判別器以捕捉多變量時間序列的特征。生成器采用編碼-解碼結構,在模型訓練時可以實現數據空間和隱空間的雙向映射。此外,在各網絡中引入多通道注意力機制,以捕捉多變量時序數據不同維度的重要性,且學習多變量時間序列在時間和特征維度上的復雜依賴關系。

2.1 模型介紹

多變量時間序列數據異常檢測旨在識別待測樣本是否符合一段時間內數據的正態分布,將不符合要求的觀測結果視為異常[10]。相關研究已成功應用GAN框架且實現異常檢測,并驗證了利用隱空間來重建待測樣本進行異常識別的有效性[4-7]。本文在已有工作基礎上,提出了基于GAN的多變量時間序列數據異常檢測模型,如圖1所示,整個網絡分為兩部分:一個生成器G和一個判別器D。其中,生成器G由一個編碼器GE和一個解碼器GD組成。異常檢測方法分為兩個階段:模型訓練階段和異常檢測階段。

圖1 模型結構

模型訓練階段只使用正常樣本進行參數優化以學習正常數據的分布。首先,通過編碼器GE將經過預處理的時序片段Xi映射到隱空間中,并輸出其低維特征Ζ。然后,解碼器GD將隱變量Ζ重構回原始數據空間,并輸出重構樣本最后,將重構樣本和原始樣本Xi輸入判別器D來進行正則化處理,對原始特征和重構特征進行判別。生成器G和判別器D通過交替優化的方式來實現對抗博弈,最終生成可以近似表示真實數據分布的概率。異常檢測階段使用訓練過的模型對測試樣本進行異常檢測。測試樣本包含正常數據和異常數據,其預處理方法跟訓練階段相同。具體來說,首先將測試樣本輸入到模型中,然后使用模型輸出的異常分數,并根據預先設定的閾值判斷樣本是否異常。本文采用生成器重構樣本與原樣本間的誤差和判別損失來共同定義異常分數。由于模型只使用正常樣本進行訓練,故沒有學習到異常樣本的隱含特征和模式,因此在推理過程中,異常樣本和其重構樣本間的誤差會非常大。當測試樣本通過模型輸出的異常分數超過閾值時,則可將其判斷為異常樣本,從而實現異常檢測。

2.2 Attention層

多變量時間序列中不同時刻的數據之間具有時間相關性,而同一時刻的不同變量之間也具有空間相關性,充分利用數據間的時空相關性將更有利于提升異常檢測的準確性,從而避免誤判。本文采用文獻[8]的多通道注意力機制,在編碼器、解碼器和判別器網絡中均加入一個Attention層(圖2),分別計算數據中時間和空間維度的重要性。

圖2 Attention層結構

利用由RNN在過往時間序列中提取的特征,分別計算輸入數據時間和空間維度的重要性。時間維度的重要性權重αi可由公式(1)和公式(2)計算,有

同樣,空間維度的重要性權重βi可由公式(3)和公式(4),有

2.3 生成器模塊

與文獻[7]類似,本文通過自編碼器來構造生成器,其目標是通過編碼和解碼的方式得到重構樣本,即使用編碼器將輸入樣本映射到一個隱空間中,然后使用解碼器憑借隱空間以重建樣本序列。編碼器和解碼器均使用相同結構,由3個子網絡組成:Attention層、LSTM層和Linear層。LSTM通過一個特殊的存儲單元來學習數據的遠程依賴關系,已廣泛應用于學習時間序列的時間相關性[4]。同時,Attention層計算輸入時序片段的時間和空間維度的重要性權重,輸出對輸入進行加權后的數據;LSTM層捕捉由Attention層加權的數據特征之間的相關性和時間依賴性;Linear層對LSTM層輸出各時刻的每個特征向量進行獨立映射。具體來說,給定時序片段Xi,編碼器GE輸出將Xi映射到隱空間變量Z∈Rw×L。Ζ是Xi的低維特征表示,L是隱變量的維度。給定隱變量Z,解碼器GD輸出,將Z映射回原始數據空間,而是Xi的重構結果。

為了訓練生成器,本文模型定義了3個損失函數:對抗損失、判別損失和重構損失。

生成器G需要捕捉輸入樣本的分布,生成盡可能服從真實數據分布的樣本。因此,對其優化的目標是希望其能夠生成盡量服從分布p(Xi)的真實樣本,使得判別器D將不再能區分樣本是來自于真實樣本分布p(Xi)還是來自于生成器G生成的樣本G(Xi)。對抗損失La的定義如

式中D(Xi)是判別器D輸出的概率,其表示輸入樣本Xi是真實樣本的概率。

在GAN中,生成器和判別器為使彼此的損失最小化而相互競爭,導致訓練過程的穩定性降低。本文采用特征匹配(Feature Matching)[11]損失,通過直接優化訓練數據與生成數據之間特征的平方差損失,使得GAN能夠學到更多的真實數據分布信息以實現模型訓練穩定性。判別損失Lf的定義如

式中f(Xi)是判別器D的LSTM 層輸出單元的值。

為使生成器G提供更好的序列重建能力,本文模型使用重構損失來表示X和G(Xi)數據間的差異,定義為輸入Xi與生成器輸出的重構樣本G(Xi)之間的L1距離。重構損失Lr的定義如

在訓練過程中,將以上3個損失函數加權求和,并利用加權求和后的聯合損失函數來訓練模型。聯合損失函數LG定義如

式中α、β和γ是調節參數,用于確定不同損失函數的權重。

2.4 判別器模塊

本文利用對抗性訓練學習給定樣本的數據分布,需要同時訓練一個生成時間序列數據的生成器和一個學會區分生成的樣本與真實樣本的判別器。為了有效處理時間序列數據,判別器D使用與編碼器類似的架構,其由4個子網絡組成:1個Attention層、1個LSTM層和2個Linear層。網絡的前三層起到與編碼器相同的作用,不同之處在于第三個Linear層輸出Rw×1向量,其特征方向被映射為1。最后的全連接層將輸入的特征向量在時間方向上映射為1,且考慮整個時間序列輸入的概率并輸出到判別器。具體來說,給定Xi或判別器D識別輸入是真實樣本還是由生成器重構的樣本,即最大化fD(Xi)和fD(G(Xi))之間的差異,從而有效區分輸入是真實樣本或生成樣本,并給出輸入是真實樣本的概率。判別器損失函數LD定義如

2.5 異常檢測

為了實現異常檢測,本文采取文獻[4]的異常檢測策略,即使用生成器生成的樣本與輸入樣本的重構損失,以及判別器的判別損失來共同判定待測樣本的異常情況。在給定待測樣本數據后,先將其輸入到已訓練的GAN模型中并計算異常分數,若異常分數超過指定閾值,則判定輸入樣本存在異常。對于測試樣本Xi,其異常分數A(Xi)定義為

其中λ是權重調節參數。計算出所有測試樣本的異常分數后,應用公式(11)對異常分數進行歸一化,將異常分數線性化為0到1的范圍。最終使用產生的異常分數對測試樣本進行評估,將得分超過閾值η的樣本判斷為異常樣本,未超過的判斷為正常樣本。

3 實驗驗證

3.1 實驗數據與基線方法

實驗選取兩個公開數據集HAR[12](Heterogeneity Activity Recognition)和SWaT[13](Secure Water Treatment)進行驗證算法的性能。兩個數據集均為多維時間序列數據,其中,HAR采集自可穿戴設備,SWaT采集自安全水處理仿真平臺。對兩個數據集分別進行了歸一化,使其符合均值為0、標準差為1的高斯分布。所有數據集均被劃分成訓練集和測試集,詳細信息如表1所示。實驗選擇CNN-1D[14]、LSTM-VAE[15]、BeatGAN[9]和MAD-GAN[4]作為基線方法。

表1 異常檢測數據集描述

3.2 評估指標

采用精確率[16](Precision)、召回率[16](Recall)和F1 分數[14]來評估所有模型的異常檢測性能,具體計算公式如下:

式中TP表示本身是異常樣本,且被模型正確檢測為異常樣本的數量;FP表示本身是正常樣本,但被模型錯誤地檢測為異常樣本的數量;FN表示本身是異常樣本,但被模型錯誤地檢測為正常樣本的數量。精確率、召回率和F1分數的值越高,則模型性能越好。

3.3 實驗設置

為了捕獲數據的相關性,本文采取文獻[17]的策略,通過滑動窗口機制將訓練集與測試集的時間序列分別劃分為時序片段的集合,其中窗口長度為30,移動步長為10。將步長設為小于窗口長度是為了增加訓練樣本數。實驗中基線模型和本文模型的超參數配置如:CNN-1D 模型的編碼器包含3 個一維CNN 層,卷積核大小分別為k1=8,k2=6,k3=4,filter maps 分別為f1=64,f2=128,f3=256。在每個CNN層之后使用LReLU激活函數和批量歸一化計算。解碼器是編碼器的鏡像映射,是使用轉置卷積層取代卷積層。LSTM-VAE模型的編碼器和解碼器都包含兩個隱藏層單元個數為16的LSTM層,訓練批處理(Batch Size)大小為32。BeatGAN模型的隱變量維度為10。編碼器、解碼器和判別器均由全連接層神經網絡構成,其中,編碼器的網絡層參數為256-128-32-10,解碼器為10-32-128-256-1530,判別器為256-128-32-1。使用Adam優化器對模型進行梯度更新,其學習率(Learning Rate)為0.000 1。訓練批處理大小為64,總輪數(Epochs)為300。MAD-GAN 模型的隱變量維度為15。生成器為100 個單元。LSTM 的層數為3,單元數為5。判別器為100個單元和1層,且用LSTM構建,全連接層為1個單元。生成器使用梯度下降優化,學習率為0.1。判別器使用Adam優化器,學習率為0.001。訓練批處理大小為500,總輪數為100。本文模型的隱變量維度為32。每個中間層的單元數為128,LSTM層數為3。使用Adam優化器,學習率為0.000 2。判別器使用Adam優化器,學習率為0.000 2。訓練批處理大小為100,總輪數為500。生成器損失函數的調節參數設為:α=1、β=0.1和γ=10。實驗環境基于Windows 10操作系統,并使用Pytorch框架來實現實驗模型及算法。實驗平臺的硬件環境:GPU為GTX 760顯存,CPU為Intel i7 4790,內存為16 GB,硬盤為1 TB。

3.4 實驗結果

在本文模型中,閾值η設置將直接影響模型檢測的準確率。針對SWaT數據集,將閾值η以步長0.1進行增量變化,通過實驗觀察閾值選擇對所有評估指標的影響,實驗結果如圖3 所示。可以看出,在SWaT 數據集中,精確率隨著閾值η的增加不斷上升,但F1分數在η大于0.6之后開始呈下降趨勢,且召回率也明顯下降。

圖3 閾值η對模型性能的影響

使用四種異常檢測模型與本文模型進行對比實驗,對所有方法都使用相同的窗口長度和移動步長選擇策略。為讓精確率和F1值都盡可能大,在每一個數據集上找到最優F1分數下的檢測閾值,使得其檢測結果在各評價指標上均表現優異,并報告對應的精確率和召回率。表2對比了本文模型與各基線模型在兩個實驗數據集上異常檢測的實驗結果,可以看出,在實驗條件相同的情況下,比較使用全連接層的CNN-1D和BeatGAN,以及使用LSTM層的LSTM-VAE和MAD-GAN,可以看出以對抗學習方式同時訓練生成器和判別器的異常檢測模型明顯優于非對抗訓練的異常檢測模型,表明GAN在從數據集中捕獲更復雜的結構和構建更精細的多變量時間和空間相關性方面具有優勢,同時也驗證了LSTM層對時間序列數據具有更高的表示能力。與基線模型相比,本文提出的異常檢測模型在兩種數據集上的異常檢測性能均優于其它基線模型。相較于MAD-GAN,對于HAR數據集而言,在精確率、召回率和F1分數上分別提高了7.6%、11.8%和10.4%,對于SWaT 數據集而言,分別提高了0.8%、6.9%和5.2%。這是因為本文模型不僅可以讓LSTM 層準確捕捉多維時間序列的特征,還可以讓Attention層捕捉時序數據時間和空間維度的重要性。

表2 異常檢測的實驗結果

4 結束語

本文提出了一種基于GAN的多變量時間序列無監督異常檢測方法。該方法采用編碼器和解碼器來構造生成器,實現了時間序列數據空間和網絡編碼隱變量空間的雙向映射,從而避免了異常檢測階段的優化過程。此外,網絡所采用的注意力機制使模型能夠專注于時序數據的重要特征。通過學習多變量時間序列的空間和時間關系并利用聯合優化策略,有助于提升模型的異常檢測能力。基于HAR和SWaT數據集實驗驗證了本文模型的有效性,與其他類似方法相比,本文模型展示了更好的異常診斷能力。

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 久久动漫精品| 在线另类稀缺国产呦| 亚洲国产天堂在线观看| 青草视频免费在线观看| 欧美一级片在线| 九色视频最新网址| 国产美女精品人人做人人爽| 国产精品久久国产精麻豆99网站| 国产视频一二三区| 99这里只有精品免费视频| 99视频精品全国免费品| 91久久青青草原精品国产| 亚洲电影天堂在线国语对白| 中文字幕在线看视频一区二区三区| 国产精品黑色丝袜的老师| 99热这里只有精品在线观看| 亚洲第一色视频| 久久精品无码一区二区国产区| 欧美一级专区免费大片| 广东一级毛片| 又爽又大又光又色的午夜视频| 久久免费视频6| 亚洲黄网在线| 999福利激情视频| 一级一毛片a级毛片| av在线人妻熟妇| 国产欧美精品一区二区| 欧美国产日韩另类| 精品国产成人a在线观看| 国产亚洲精久久久久久无码AV| 国产91导航| 日本日韩欧美| 欧美日本一区二区三区免费| 青草视频在线观看国产| 亚洲资源在线视频| 青青操视频在线| 欧美亚洲激情| 国产一级毛片在线| 色天天综合| 午夜福利无码一区二区| 热久久国产| 国产成人免费| 国产电话自拍伊人| 欧美福利在线观看| 欧美一区二区福利视频| 久久综合伊人77777| 精品福利视频导航| 99ri国产在线| 欧美精品另类| 亚洲精品自拍区在线观看| 欧美成人一级| 欧美天堂在线| 国产丰满大乳无码免费播放| 亚洲欧洲日本在线| 国产69精品久久| 久久精品女人天堂aaa| 国产美女免费| 99久久国产自偷自偷免费一区| 91人人妻人人做人人爽男同| 国产成人无码Av在线播放无广告| 国产成人亚洲综合a∨婷婷| 亚洲三级电影在线播放| Jizz国产色系免费| 岛国精品一区免费视频在线观看| 久热中文字幕在线观看| 日韩国产综合精选| 精品91在线| 青青久视频| 欧美精品xx| 中文字幕啪啪| 国产精品无码久久久久久| 98精品全国免费观看视频| 国产91小视频| 国产地址二永久伊甸园| 国产91小视频| 国产精品成人第一区| 亚洲国产系列| 国产SUV精品一区二区| 日本高清有码人妻| 激情综合网激情综合| 成人91在线| 国产精品对白刺激|