999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自編碼器與分類器相結合的時間序列異常檢測方法

2022-01-11 09:42:18遲百峰
現代計算機 2021年32期
關鍵詞:深度檢測方法

遲百峰

(北京交通大學計算機與信息技術學院,北京 100044)

0 引言

時間序列是隨時間變化的一組實值數據,時間序列異常檢測廣泛運用在工業、環境、網絡和醫療等領域,研究學者設計異常檢測方案發掘時間序列中不符合歷史發展趨勢的數據模式,進一步預測可能發生的潛在危險事件[1]。例如網絡入侵檢測可發現人為操作的惡意活動[2],醫療異常檢測可輔助醫生對各種疾病進行診斷[3],等。多元時間序列異常檢測通過識別異常輔助專業人員工作、避免重大事故發生等。為了更好地檢測出時間序列這一特殊數據形式中的異常,大量基于規則、統計、距離、密度的傳統方法被提出,在不同應用場景下也取得了一定的效果,但這些方法難以適應大規模量級的數據,也不能較好地捕捉數據間的時序關系,導致異常檢測的性能和準確率有所下降。

近幾年,基于深度學習的異常檢測方案受到了廣泛的關注。深度神經網絡能處理復雜數據,循環神經網絡特別適用于序列數據,能進一步捕捉數據之間的時間依賴關系。卷積神經網絡能捕捉數據間的局部空間特征。深度自編碼器是一種廣泛用于數據壓縮的技術,由編碼器和解碼器兩部分組成。不同于傳統主成分分析法(principle component analysis,PCA)[4],編碼器對數據進行降維、降噪處理,解碼器重建原始數據樣本[5]。使用CNN 和LSTM 搭建的DAE 在將多元高維時間序列數據映射到特征子空間時,考慮到數據之間的順序關系和局部相關性,有助于在全局或局部區域識別某點數據是否為異常值。

本文核心工作是將卷積神經網絡和長短時記憶網絡融合搭建自編碼器,既能得到數據的隱層空間表示,還可以捕捉數據間的一些局部特性和時間依賴關系。在隱層空間使用傳統分類器檢測識別異常樣本。

1 相關工作

異常檢測的發展歷史悠久,其異常定義通常是指明顯偏離其他樣本觀測值的數據[6]。在時間序列領域中異常通常包括點異常、上下文異常和子序列異常三種類型[7]。點異常指的是時間序列中某時間戳的數據明顯不同于其他數據。上下文異常類似于點異常,只不過上下文異常是屬于一種局部異常,在時間序列中表示該時間戳的數據明顯區別于前后鄰域時間的數據變化。子序列異常指的是時間序列中某片段為異常。

針對于以上不同的異常類型,經典的兩類解決方案為基于統計學和基于傳統機器學習異常檢測方法。其中基于統計學的方法是較早替代專家人工設定規則的時間異常檢測方法。針對時間序列這一數據類型,使用回歸模型對時間序列歷史趨勢進行建模,學習其內在的演變規律或模式,對未來值進行預測。當實際值與回歸模型產生的預期值出現顯著偏差時,該數據將被標記為異常樣本。常見的方法有自回歸模型(autoregressive model,AR)、自回歸移動平均模型(autoregressive moving average model,ARMA)、差分整合移動平均自回歸模型(autoregressive integrated moving average model,ARIMA)[8]。回歸模型的方法解釋性強、運行效率高,在金融等領域也有廣泛的應用,但難以準確設定衡量差異性的閾值,也無法遷移到多維非線性時間序列異常檢測任務場景中。

基于傳統機器學習的方法不同于基于統計學的方法,傳統機器學習方法可以在不關注數據底層特定分布的情況完成時間序列異常檢測任務。如局部離群因子(local outlier factor,LOF)通過密度估計方式搜索最近鄰,將位于稀疏區域的數據標記為異常[9]。后來Oehmcke 等人將LOF 擴展應用到時間序列數據[10],Tang 等人提出基于連接的離群因子(connective-based outliers factor,COF)改進密度估計的計算方式[11]。孤立森林(isolation forest,iForest)方法使用隨機超平面切割數據空間,分布密度稀疏的異常樣本或離群點更容易被切分到一個子空間中[12,13]。單類支持向量機(One-Class SVM,OC-SVM)并不依靠密度劃分尋找異常,而是改進支持向量機(SVM)利用分類技術在類極度不平衡的時間序列數據上進行異常檢測[14]。本質上將二分類轉化成單分類,只要數據不屬于正常類,就將其標記為異常樣本[15]。

相比于上文所介紹的兩大經典方案,隨著深度神經網絡的快速發展,深度學習異常檢測方案已經在離群點檢測上取得了顯著性效果[16]。比如循環神經網絡(RNNs)可有效捕捉時間序列數據的特征,其經典模型長時間記憶網絡(LSTM)和門控遞歸單元(GRU)通過內部獨特結構存儲、遺忘或傳遞時間信息,通過反饋連接建立前后時間值的關聯。在時間序列異常檢測中,LSTM序列模型預測未來時間序列趨勢,如果不符合LSTM捕捉到的上下文發展規律可當異常樣本處理,并已經證明與傳統方法相比算法性能顯著提高[17]。卷積神經網絡(CNN)能從復雜的高維數據中提取局部特征,可作為特征提取器用于序列數據或圖像數據的離群點檢測[18]。深度自編碼器通過重構輸入數據學習一個恒等變換函數,當自編碼器使用正常數據作為輸入進行模型訓練時,僅能夠對正常樣本進行恒等變換,無法重建的異常樣本會因高殘差被標記為離群值[19]。此外,結合自編碼器的編碼器編碼能力和傳統分類器分類能力,將異常檢測問題轉化為有監督的分類問題也取得了很好的進展[20]。

本文采用混合深度學習異常檢測思路,在數據預處理的基礎上,第一步將深度自編碼器的編碼器作為特征提取器,第二步將易區分的編碼數據送入傳統分類器中進行異常檢測,實際結果表明該結合方案具有很強的魯棒性[21-22]。

2 方法原理與設計

本文提出的混合深度學習異常檢測方法分三大階段,分別是數據預處理、模型搭建、預訓練模型中的編碼器先對數據進行編碼,然后送入傳統分類器進行異常檢測,本章節依次對三個階段展開論述。

2.1 多重滑窗采樣

時間序列的尺度選擇、缺失值處理或噪聲污染處理嚴重影響異常檢測的準確性。本文采用滑動窗口技術和二次下采樣技術對原始正常數據進行處理,有助于深度自編碼器在此基礎上學習到更加明顯的區分特征,具體操作如下,總體過程如圖1所示。

(3)二次下采樣技術處理滑動窗口序列。下采樣技術廣泛運用在視覺圖像領域,通過對圖像進行下采樣,可使得圖像符合顯示區域的大小或生成對應圖像的縮略圖。將其遷移到時間序列領域上對數據進行采樣縮減,使得深度自編碼器訓練速度更快并一定程度避免過擬合情況的發生。下采樣技術還能充分考慮數據的分布不均衡等問題,以相對較少的樣本考慮全體數據的特性。首先第一次下采樣使用在滑動窗口技術處理后的序列集合上,即對滑窗產生的各個窗口進行下采樣,假設采樣的個數為k,那么Wsample=[wstart,…,wend],其中k=wend-wstart。進而在對Wsample內的數據進行第二次下采樣,這樣可以考慮到不同時刻不同時間段和不同時間間隔的情況。

2.2 模型架構

本文使用的主要模型為深度自編碼器,主要內部網絡結構包括卷積神經網絡(CNN)和長短時記憶(LSTM)網絡。卷積神經網絡(CNN)通常用于計算機視覺中的目標檢測、圖像分類等任務[23-25],但時間序列數據在形式上類似于圖像數據,可更好地關注數據的局部特征。長短時記憶網絡(LSTM)通過內部結構引入基于上下文的加權自循環機制,可自動判定過去信息是否遺忘或向后傳遞[26-27],被廣泛用于自然語言處理、語音識別和時間序列各種任務中[26-28]。

深度自編碼器有機地統一CNN 和LSTM 兩種經典神經網絡結構,對時間序列數據既捕捉局部特征,也考慮前后時間依賴程度。其中編碼器部分可對數據樣本進行隱層特征的表示學習,解碼器部分通過重構原始樣本約束其隱變量學習的程度,重構誤差越小表示自編碼器對數據樣本重建能力越好,那么自編碼器重建異常樣本則會產生一個較差的效果從而發現異常。

深度自編碼器通編碼部分為將原始數據映射到隱層特征空間,相當于對原始數據進行一種潛在空間的表示學習[29]。解碼部分則試圖將原始數據的新表示還原成原始數據。一般使用均方誤差(mean square error,MSE)衡量原始輸入和重建輸入差異度,即重構效果。數學表達如下:

公式(1)代表自編碼器對原始數據的編碼過程,本質上是一個映射函數f用隱變量z來表示原始數據x。公式(2)代表自編碼器對隱變量z的解碼過程,本質上也是一個映射函數g將隱變量z還原成原始數據x^。公式(3)就是使用均方誤差MSE盡可能的降低原始數據與重建數據的差異性。

本文所采用的模型架構如圖2 所示,預處理數據作為輸入依次經使用Relu 激活的卷積層、帶有正則操作的最大池化層、使用Relu 激活的全連接層以及兩次LSTM 層獲得最終輸出,具體代碼流程見算法1:訓練CNN+LSTM自編碼器。

圖2 模型架構

算法1:訓練CNN+LSTM自編碼器

2.3 異常檢測階段

模型預訓練過程使用僅包含正常樣本的數據集,這樣深度自編碼器可以對正常樣本的時間序列有較好的重建能力,對異常樣本則無法進行重建或重建效果很差。異常檢測階段主要使用預訓練好的自編碼器的編碼器對數據進行編碼,在潛在空間對數據進行隱層表示,異常樣本將明顯遠離正常樣本的所在范圍。傳統分類器(如SVM 等)就可以明確地劃分出決策邊界,從而精準地發現異常點和正常點,具體過程如圖3所示。

圖3 異常檢測過程

異常檢測過程重要的環節為數據編碼表示、訓練傳統分類器、使用傳統分類器在測試集上進行標簽類別預測。使用二進制表示輸出結果,即1表示該樣本為異常,0表示該樣本為正常。具體代碼流程見算法2。

算法2:異常檢測過程

3 實驗

本文在Mammography、Satimage-2、Campaign三個數據集上進行了廣泛的實驗,與單純使用傳統分類器、普通全連接網絡搭建的自編碼器結合傳統分類器的方法對比,評價本文所提出的使用CNN 和LSTM 搭建的深度自編碼器與傳統分類器結合的異常檢測效果。此外,還與經典的異常檢測方法進行比較,如局部異常因子(Local Outlier Factor,LOF)[9]、一類支持向量機(One Class SVM,OCSVM)[14]、孤立森林(Isolation Forest,IForest)[12]以及先進的 Copula-Based Outlier Detection(COPOD)[30]。實驗結果表明本文提出的方法異常檢測效果普遍更佳。

3.1 數據集

本文在3 個數據集上進行了實驗,分別來自ODDS 異常檢測數據庫的Mammography、Satimage-2 數據集,和來自于UCI 機器學習數據庫的Campaign數據集,基本信息如表1所示。

表1 數據集介紹

(1)Mammography 數據集最初是Aleksandar Lazarevic 提供的乳腺攝影,記錄乳腺是否存在鈣化的情況。在異常檢測任務中,將鈣化情況視為異常樣本(標記為1),其他全部情況視為正常樣本(標記為0)。

(2)Satimage-2 數據集由陸地衛星(statlog)記錄采集并最初用于多分類任務,在異常檢測任務中,對原始數據集的第2 類別下采樣出71 個異常樣本(標記為1),其他所有類別視為正常樣本(標記為0)。

(3)Campaign 數據集記錄的是葡萄牙某銀行機構的一次營銷活動情況,在異常檢測任務中,用戶在本次活動中成功訂閱該機構產品視為異常(標記為1),反之視為正常(標記為0)。

3.2 實驗結果分析

本文主要參數為數據預處理中使用的滑窗及兩次采樣大小,和CNN+LSTM-AE 模型中的卷積核、神經單元數等,具體信息如表2所示。

表2 實驗參數

本文評價標準采用F1 Score,原因是異常檢測問題本質上是一個類極度不平衡情況下的分類問題,使用F1 Score 可以兼顧檢測的精確率和召回率,能客觀地表明模型的健壯程度。

與普通全連接層搭建的自編碼器結合傳統分類器、原始傳統分類器進行對比,可以發現使用CNN+LSTM 對原始數據編碼后再結合傳統分類器,在這三個數據集上均表現出良好的效果,實驗結果如表3 所示。Mammography 數據集上效果尤為顯著,F1 Score均有明顯提高。在Satimage-2數據集上,本文提出的方法略優于使用普通全連接層的編碼后結合傳統分類器,并且F1 Score 接近滿分趨勢。Campaign 數據集樣本量偏大,異常分布極不均衡,本文提出的方法雖優于其他兩種方案,但F1 Score 均在0.9 以下。總的來說,CNN+LSTM-AE 方法在小數據集上可保持較高的F1 Score,對于大數據集只能小幅度提升F1 Score,并不能像其他數據集達到接近F1 Score=1的結果。

表3 實驗結果

與經典的異常檢測方法進行對比,如局部異常因子(local outlier factor,LOF)、一類支持向量機(one class SVM,OCSVM)、孤立森林(isolation forest,IForest),本文提出的方法依舊領先于其他三種方法,實驗結果如表4 所示。原因很簡單,三種經典方法均無法有效捕捉序列相關性等局部特征,F1 Score 僅能保持在0.5 左右,而本文提出的CNN+LSTM 作為數據的預編碼結合傳統分類器有效克服經典方法的缺點,可取得F1 Score 平均保持在0.9左右顯著效果。

表4 實驗結果

基于概率累計函數設計的快速異常檢測方法COPOD 的異常檢測效果特別快,實際應用場景廣泛,但主要問題與上面三種經典方法一樣,無法考慮到數據之間的局部信息或順序信息導致檢測效果不佳。本文提出的方法與COPOD比較的實驗結果如表5所示。

表5 實驗結果

根據廣泛的實驗結果分析可知,本文提出的混合方法可有效提高異常檢測的效果,F1 Score均能保持一個較高的程度。此外僅使用普通的全連接層搭建自編碼器結合傳統分類器都能取得比較好的性能,間接證明先使用神經網絡對數據進行編碼,提取內在更具區分性的特征,再進行異常檢測的思路行之有效。不過本方案也存在比較明顯的問題是先對深度自編碼器進行預訓練得到強大的編碼器,再進行異常檢測不屬于端到端模型,導致兩部分可能均陷入局部最優解,無法動態權衡兩部分得到一個全局最優解,所以在大數據集Campaign 上的F1 Score 始終無法與其他數據集相媲美。

4 結語

本文提出了一種深度混合多元時間序列異常檢測的方法,使用CNN 和LSTM 搭建深度自編碼器,目的是學習到數據有效的隱層表示,基于這種隱層表示結合傳統分類器高效快速地檢測識別異常樣本。該方案也進一步表明CNN 和LSTM 的組合確實能較為充分地考慮數據之間的時間依賴關系,經編碼器編碼得到的隱層特征表示在潛在空間的區分邊界更加容易確定。在今后的工作中,將考慮設計原始混合模型為端到端模型并加入注意力機制,提升在任何大小、任何形式數據集上的異常檢測性能,同時考慮時間序列不同維度之間的影響程度,進一步提升本文方法在結構復雜的實際應用場景下的魯棒性、高效性。

猜你喜歡
深度檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲精品无码专区在线观看| 欧洲亚洲欧美国产日本高清| 国产欧美成人不卡视频| 国产99欧美精品久久精品久久| 色噜噜在线观看| 人妻丰满熟妇啪啪| 美女国内精品自产拍在线播放| 国产女人爽到高潮的免费视频| 国产成人凹凸视频在线| 熟女日韩精品2区| 国产精鲁鲁网在线视频| 婷婷伊人久久| 成人年鲁鲁在线观看视频| 欧美狠狠干| 成人精品区| 国产原创自拍不卡第一页| 国产在线精品99一区不卡| 国产正在播放| 在线观看网站国产| 免费看a级毛片| 亚洲免费成人网| 欧美19综合中文字幕| 九九九九热精品视频| 国产精品毛片在线直播完整版| 一级毛片免费播放视频| 国产欧美日韩资源在线观看| 亚洲国产综合精品中文第一| 欧美a在线看| 国产成人综合久久精品尤物| 成年看免费观看视频拍拍| 久久中文电影| 成人小视频网| 在线综合亚洲欧美网站| 99草精品视频| 久久久久久午夜精品| 亚洲天堂久久| 亚洲最新地址| 亚洲 成人国产| 国产99精品久久| 91精品网站| 亚洲国产亚综合在线区| 国产经典在线观看一区| 视频国产精品丝袜第一页| 国产色爱av资源综合区| 最新国语自产精品视频在| 午夜色综合| 免费一看一级毛片| 高清乱码精品福利在线视频| 国产免费精彩视频| 九色在线观看视频| 播五月综合| 国产伦精品一区二区三区视频优播| 男人天堂伊人网| 欧美第一页在线| 一本二本三本不卡无码| a亚洲天堂| 免费一极毛片| 国产精品久久自在自线观看| 小说 亚洲 无码 精品| 在线国产综合一区二区三区| 亚洲精品777| 亚洲天堂自拍| 免费播放毛片| 亚洲无码电影| 亚洲一区二区精品无码久久久| 亚洲A∨无码精品午夜在线观看| 六月婷婷精品视频在线观看| 日韩高清一区 | 日本少妇又色又爽又高潮| 中文字幕永久在线观看| 成人永久免费A∨一级在线播放| 成人午夜免费视频| 亚洲av色吊丝无码| 欧美一道本| 国产真实二区一区在线亚洲| 欧美伦理一区| 美女高潮全身流白浆福利区| 亚洲va在线∨a天堂va欧美va| 国产精品黑色丝袜的老师| 国产午夜福利亚洲第一| 91精品人妻互换| 国产无遮挡猛进猛出免费软件|