999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進變分自編碼器的工業時序數據異常檢測

2024-01-22 07:15:58張志昂廖光忠
計算機工程與設計 2024年1期
關鍵詞:利用特征檢測

張志昂,廖光忠

(1.武漢科技大學 計算機科學與技術學院,湖北 武漢 430065;2.武漢科技大學 智能信息處理與實時工業系統湖北省重點實驗室,湖北 武漢 430065)

0 引 言

常見的應用于異常檢測的主流模型[1]大多是直接對異常數據建模,從而實現工業時序異常數據的檢測。但在實際工業生產過程中的時序數據中,異常數據只有較小的占比,難以直接對異常數據建模,并且數據之間通常會存在非線性相關性。以上特性會使得數據處理和異常檢測的難度進一步提升。針對以上特點,本文提出了一種直接對正常數據建模的VAE-TCN-AT模型,相較于傳統的異常檢測模型,主要貢獻如下:

(1)使用隨機森林(random forest,RF)[2]對數據的特征進行等級排序,選取特征等級排名靠前的特效進行訓練,利用特征彼此之間蘊含的相關性來對不相關特征進行排除。

(2)利用變分自編碼(variational autoencoder,VAE)[3]網絡為模型的基本框架,在編碼部分引入時間卷積網(temporal convolution network,TCN)[4]使得模型在擁有較大感受野的同時不會丟失數據的細節特征,在解碼部分引入通道注意力模塊(channel attention mechanism)[5]增強隱變量特征信息。

(3)在異常檢測階段,只使用大量正常數據進行訓練模型,利用異常得分來評估是否為異常數據,從而解決了難以直接對異常數據建模的問題。

1 相關工作

異常檢測是工業生產過程重要的一部分。真實工業生產過程中,系統故障的發生容易受到多個指標的影響。因此,如何精準快速地檢測并定位出異常數據對于保障工業生產過程穩定運行是十分重要的。SHYU等[6]利用主成分分析(principal component analysis,PCA)模型構造模型預測異常。LIU等[7]提出孤立森林(isolation forest)模型,在異常檢測方面取得不錯的效果。Cheng M等[8]提出了多尺度LSTM模型(multi-scale LSTM,MSLSTM),在多維數據集的異常檢測中具有不錯的精度。

為了進一步提高異常檢測的精度,Jiang W等[9]利用編碼器-解碼器-編碼器三層網絡來構建網絡,可以有效地從正常樣本中抽取有效特征。Kieu等[10]提出2DCNN-AE模型,在編碼階段將輸入時序數據做卷積操作,在解碼階段利用上采樣方式實現數據重構,實現高精度的異常檢測。Li D等[11]提出半監督模型MAD-GAN(multivariate anomaly detection with GAN),該模型在GAN架構中利用LSTM神經元捕獲時序數據的相關性,可以有效準確地檢測出異常數據。

在實際的工業時序數據集異常檢測過程中,傳統的異常檢測模型存在難以充分捕獲數據的時序依賴關系和靈活地感知到時序數據之間關聯性大小的問題。本文提出的VAE-TCN-AT模型在變分自編碼模型的架構上融入時間卷積網絡和通道注意力機制,可以有效地提高模型的魯棒性、對時序數據的記憶能力以及靈活處理時序數據蘊含關系的能力。

2 模型設計

2.1 數據預處理

對于給定的長度為n的時間序列X={x(1),x(2),…,x(n)}[12], 其中每個元素都是m維的特征向量??紤]到實際工業生產過程中,時序數據特征維度彼此之間存在著聯系,直接將數據投入模型訓練,難以實現模型高效率地迭代與循環,也會因為無關信息的影響,降低了模型的準確率與損失了抗干擾性。因此,在使用時序數據投入模型進行迭代之前,需要對數據特征的重要性進行排序,對無關特征進行排除,抽取出較為重要的特征投入模型,可以節省時間,排除無關信息的干擾,提高模型準確率。

對于給定的時序數據,計算出輸出特征的重要性集合I={I1,I2,I3,…,Im}, 計算公式如下

(1)

此外,對于傳感器記錄的各種物理特征值,在進入模型之前,需要進行預處理以減少不同特征的取值范圍對模型迭代帶來的損失,本文將使用z-score[13]方法將數據進行標準化處理,計算公式如下

(2)

其中,μ和σ代表著輸入數據的均值和標準差。通過式(2)可以將輸入數據分布縮放到均值為0,方差為1的高斯分布中。使得時序數據的各個特征維度的尺度保持一致,可以有效地減少模型的迭代次數、提高模型預測的準確率。

2.2 數據編解碼過程

傳統的變分自編碼器模型是基于貝葉斯變分原理[14]推斷實現的,每層內部的節點之間是無連接狀態,難以處理大規模的時序數據,并且難以針對性地對數據特征進行處理。因此,模型檢測的精度會受到影響。

為了解決以上問題,本文構建了一種VAE-TCN-AT模型,在VAE架構的基礎上,在編碼過程引入時間卷積網絡實現對數據的高效處理和在解碼過程使用通道注意力機制進行特征增強。時間卷積網絡使用擴張因果卷積優化傳統的一維卷積網絡,可以在降低模型的復雜度的同時增加感受野,并且其本身具有擴張卷積結構[15]和殘差結構,在處理大規模時序數據方面具有不錯的效果,不會丟失輸入時序數據的原始細節特征,其具體結構如圖1所示。

圖1 TCN卷積結構

注意力機制是為了篩選出重要數據特征信息而被提出,其可以依據特征信息的重要性,對特征進行信息增強處理。本文使用的通道注意力是利用Sigmod激活函數來獲取進行維度變換過的時序數據的權重信息,以實現針對性地訓練模型,減少模型訓練次數的同時提高模型精度。通道注意力是在每個通道域上對得到的特征權重與原卷積相應的通道特征值進行加權融合,可以使得卷積通道特征表現出不同的權重,從而提取出表征目標中的關鍵信息,計算結構如圖2所示。

圖2 通道注意力模塊計算操作

其中,弧線連接的部分代表了時間卷積網絡中的殘差連接模塊。擴張因子d=2、卷積核K=2,通過調節卷積核和擴張因子的大小可以使得模型擁有對大規模時序數據的高效處理能力的同時不會丟失數據的原始特征信息。

其中,?代表合并操作,o’代表激活函數,FC代表全連接層。由于本文引入通道注意力機制是為了設置不同特征的注意力權重,為了更好地將輸入的時序數據特征進行處理,會將輸入的時序數據特征進行數據變換操作,將特征維度變換為通道維度。首先將輸入數據X(t) 進行變形,將特征維度轉化為通道維度,并且在每一個通道維度上面的數據信息也會進行擴充,會將與當前通道維度最近的兩個通道維度上面的特征復制到當前通道上,將處理后的結果記為Z(t)。 對轉換后的結果Z(t) 分別進行最大池化和平均池化后,由多層感知機得到兩個輸出特征并且進行相加操作,再次經過Sigmod激活函數得到通道注意力特征加權圖,也即是特征注意力權重圖,如式(3)所示

Mc=σ{MLP[AvgPool(Z(t))]+MLP[MaxPool(Z(t))]}

(3)

其中,σ代表Sigmod非線性激活函數,MLP代表多層感知機操作,AvgPool與MaxPool代表平均池化與最大池化。利用得到的特征注意力權重圖對輸入特征進行加權處理,得到經過加權之后的特征X′(t), 計算公式如下

X′(t)=Mc[Z(t)]?X(t)

(4)

通道注意力機制可以利用通道注意力加權特征圖來獲取到時序數據中的關鍵特征,從而實現增強特征表示。

VAE-TCN-AT模型的基本結構如圖3所示,為了解決梯度消失的問題,模型的設計還引入了批量歸一化層與SeLU激活函數。其對于輸入時序數據的編解碼過程如圖3所示。

圖3 VAE-TCN-AT流程結構

將已經預處理過的時序數據集X={X1,X2,X3,…,Xn}, 由時間卷積網絡進行跳步卷積操作,具體表達式如下

(5)

其中,F(i) 代表時序數據集 (X0,…,XT) 中第i個元素進行卷積之后的結果。h(j) 稱為卷積核,d為擴大因子(當d=1時,代表標準因果卷積)。

將跳步卷積操作結果進行殘差處理,可以使模型在大規模的時序數據集中擁有不錯的性能的同時使得模型不會丟失數據的細節特征,其具體表達式如下

o=Activation(X+F(X))

(6)

編碼器將處理結果利用式(7)進行編碼處理,同時生成編碼結果的均值μ和方差σ2

I=σ(Weo+be)

(7)

其中,σ代表Sigmoid非線性激活函數,We和be分別代表VAE編碼層網絡結構的權重矩陣和偏置向量。

變分自編碼器的隱空間會利用μ和σ來重構出隱變量Z,并將隱變量Z傳遞給解碼器部分。解碼器會首先利用通道注意力模塊對隱變量進行特征增強處理,利用式(4)得到通道加權特征結果Z′(t)。

最后,利用模型的解碼器對處理結果Z′(t) 進行解碼重構原始數據。同時,為了更好地衡量二者的差別與計算異常得分。將重構數據記作Y={Y1,Y2,Y3,…,Yn}

Y=σd(WdZ′+bd)

(8)

其中,σ代表Sigmoid非線性激活函數,Wd和bd分別代表模型解碼層網絡結構的權重矩陣和偏置向量。

VAE-TCN-AT模型在數據的編碼過程中,通過引入時間卷積網絡對輸入時序數據進行跳步卷積操作可以使得模型高效處理大規模時序數據的同時不會遺漏數據的原始細節特征。在解碼階段為了提高相關特征對模型的影響程度,引入通道注意力機制對重構的隱變量進行特征增強處理。與傳統的異常檢測模型相比,對大規模時序數據的處理能力更強、準確率更高。

2.3 模型損失函數

與傳統的自編碼模型不同,變分自編碼模型是利用貝葉斯變分推斷理論完成的。變分自編碼模型的編碼器會輸出編碼結果的均值μ和方差σ2,利用均值μ和方差σ2重構隱變量Z,將重構出來的隱變量Z投入解碼器中進行解碼重構原始數據,其基本生成結構如圖4所示。

圖4 VAE基本生成模型

變分自編碼器引入KL散度來衡量使用均值和方差重構出的隱變量Z分布函數Pθ(z|x) 與直接編碼生成的隱變量分布函數qΦ(z|x) 的差異,具體表達公式如下

(9)

變分自編碼器通過引入KL散度來衡量識別模式qΦ(z|x) 與真實后驗分布Pθ(z|x) 的差異性,通過優化約束參數θ和Φ使得KL散度最小化從而收斂模型。利用KL≥0并且難以直接計算的特點,將目標函數進一步優化。將優化目標轉變為極大化logP(x(i)) 的變分下界,即

(10)

為使模型收斂和方便估計出模型損失程度,使用了最小化編碼數據、觀測數據的L2范數和批量梯度更新來優化變分下界,優化結果如式(11)所示

(11)

其中,μk和σk分別代表著qΦ(z|x) 的均值和方差,為使模型更快地收斂,VAE對觀察數據采用小批量多批次方法進行優化,使得L(θ;Φ;x) 達到最終穩定解。

本文選用均方誤差(mean square error,MSE)來表示輸入樣本的重構誤差L(x,y)。 為了更好地衡量模型的重構性能,將VAE-TCN-AT模型的損失函數設置為

(12)

其中,n代表輸入序列長度,重構誤差可以衡量輸入數據被保留的完整性,KL散度則在一定程度上檢測了模型的學習能力。二者結合可以很好地提高模型對異常數據的檢出率,可以更加適合復雜工業環境下的時序數據異常檢測。

考慮到VAE-TCN-AT模型本身是借助KL散度來使得模型收斂。因此,為了在檢測階段較好地檢測出異常數據,將異常得分設置為

(13)

其中,將L固定為10次,μ代表模型解碼器生成的均值,λ代表對模型重構誤差的權重分配系數。

2.4 異常檢測流程

本文提出的VAE-TCN-AT模型的異常預測總體框架如圖5所示,該模型主要是由數據預處理模塊、網絡訓練模塊和測試模塊3部分組成。模型的異常檢測流程如下所示:

圖5 VAE-TCN-AT異常檢測模型總體框架

步驟1 利用RF對特征進行重要性排序處理,設置合理的特征窗口ω對數據集進行抽取劃分為預處理數據,使用z-score方法將數據進行標準化處理。然后將數據集劃分為3部分:只含有正常數據的訓練集train和驗證集validation,由正常和異常數據混合組成的測試集test。

步驟2 將訓練數據集train作為VAE-TCN-AT模型的訓練樣本,用于初步確定模型參數以及參數的取值區域。使用驗證數據集validation對模型進行參數調節和模型性能的初步評估。將驗證集投入已經由訓練數據集初步訓練好的模型中,使用半監督的方式進行模型的參數優化,通過超參數搜索法找出使得模型評估指標性能最佳的閾值τ和異常得分中的權重分配系數λ。

步驟3 使用測試數據集test對模型性能進行評估。將測試數據集投入訓練好的模型中進行模型性能評估,利用式(7)生成模型編碼結果的μ和σ,然后利用式(8)生成輸入時序數據的重構數據。利用式(13)計算異常得分,將異常得分大于閾值的記為異常數據,否則記為正常數據。選取合適的評價指標來驗證VAE-TCN-AT模型的性能。

3 實驗與分析

3.1 實驗環境與數據

本文實驗環境為Window 10操作系統、CPU Intel Core i5-8400 4.0 GHZ、16 GB RAM以及NVIDIA GTX 1050Ti圖形處理器。模型利用Python3.8.0和Keras 2.6.0實現。

實驗數據來自某工廠零件生產流水線在一個月內記錄的共30 680條數據,每條數據由時間戳、多個傳感器采集的信息(包含發動機轉速、原材料數量等43個特征維度)以及表示正常或異常數據的標簽組成。其中,其中有237條數據被標記為異常,表示其對應時刻發生了意外事件(如零件變形等),只占總數據0.772%,符合典型的異常檢測數據的特性,并利用CSV文件來存儲每一條被標記過的數據記錄。

從數據集中抽取出約70%的正常數據集作為訓練集,在剩余的數據集中隨機10%的正常數據作為驗證集,其余數據集全部組成測試集來檢測模型性能。

3.2 評價指標

實驗中,為了更好地比較模型之間的優缺點以及考慮異常檢測的本質是為了更好地檢測出異常點的存在,異常點的檢測成功率是至關重要。因此,將正常數據定義為負類,異常數據定義為正類。本文所研究的異常檢測符合二分類數據集,使用指標混淆矩陣見表1,該混淆矩陣由以下4個元素組成,真正例:TP;真負例:TN;假正例:FP;假負例:FN。

表1 混淆矩陣

本實驗,使用如下4個指標來衡量模型的精準度:準確率(Accuracy)、召回率(Recall)、F1值(F1)、誤判率。

準確率(Accuracy)指的是使用模型檢測數據能夠預測準確的數據比值,表達式如式(14)所示

(14)

召回率(Recall)指模型能夠精確地將異常數據集檢測出的精度,表達式如式(15)所示

(15)

F1值(F1)是用來衡量準確率和召回率指標的評估函數,其公式如式(16)所示。該值越大,越說明模型異常檢測的精度高

(16)

誤判率反映著有多少測試樣本被模型誤判為與標簽不同的數據所占比例,能夠在一定程度上體現模型的魯棒性,計算公式如式(17)所示

(17)

3.3 實驗過程

首先,利用隨機森林對輸入的時序數據的特征進行等級排序。選取大小為ω的特征窗口對數據特征進行選擇性的抽取。用z-score對數據進行標準化處理。

本實驗構建的模型是以變分自編碼器為框架融入時間卷積網絡和通道注意力機制形成的。該模型將編碼器和解碼器的層數分別設置為4、7,為了減少過擬合的可能性,添加了丟失率為0.2的DropOut層,將初始學習率設為0.001,訓練輪數(epoch)設置為200,批處理樣本數量(batch-size)設置為64,使用了Adam優化器來優化網絡參數,可以很好地迭代模型。

在實驗過程中,特征窗口ω大小選擇、擴大因子d和卷積核K大小的設置對于提高異常檢測模型準確度和降低模型檢測的誤判率具有重大的影響。在合理情況下,對每一組選值進行評估,訓練8組實驗取其平均值作為實驗結果。實驗發現,將ω控制在[4,11]、d取值為2、4、8和卷積核K的大小控制在[2,5]之間可以很好地提高模型的精準度。同時,為了進一步衡量出最優參數,本文將進行對應條件下面的模型評估。

(1)首先對擴張因子大小d和卷積核大小K進行評測。擴張因子大小d和卷積核大小K是決定TCN模型的主要參數。因此,本文將通過選擇不同d值和不同K值來進行組合實驗,參數組合結果見表2。所有參數組合的TCN訓練次數(epoch)和學習率(lr)以及特征窗口(ω)設置相同,即epcoh=200,lr=0.001,ω=6。最后根據不同參數配置下模型的準確率、召回率、F1值來對不同條件下面對驗證集進行評測來確定模型相關參數,實驗結果如圖6所示。

表2 TCN模型參數組合

圖6 不同參數配置下驗證集檢測精度

由圖6可以看出,序列7(即擴大因子d=4,卷積核大小K設置為4)對應的參數配置下模型的準確率、召回率和F1值會取得最大值。因此,本文模型中的時間卷積網絡參數設置為d=4,K=4。

(2)考慮到ω參數對模型預測誤差的影響。在此處將相關參數設置如下:epoch=200,lr=0.001,并將時間卷積網絡的相關參數設置為d=4,K=4,進行實驗評估。觀察特征窗口大小(ω)對模型在驗證集檢測結果的影響,實驗結果如圖7所示。隨著窗口長度增加,模型的損失函數大小不斷下降,在窗口長度達到7時,模型趨于穩定,因此選擇7為最優窗口大小。因此,將窗口大小(ω)設置為7。

圖7 窗口大小對驗證集損失函數的影響

最后,利用驗證集確定的參數對模型進行訓練,將待測試數據投入模型進行測試。并利用式(13)計算異常得分值,同時將異常得分大于閾值的數據評估為異常數據,將小于閾值的數據記為正常數據,模型的精度收斂曲線如圖8所示。

圖8 模型精度收斂曲線

使用提出的模型在數據集上面的訓練損失收斂函數如圖9所示。為了便于觀察每迭代10輪,輸出訓練損失,如圖中散點所示。

圖9 模型訓練損失收斂曲線

3.4 異常檢測模型對比

為了更好地對比模型的優越性,將VAE-TCN-AT與文獻[6]提出的PCA、文獻[8]提出的MSLSTM、文獻[10]提出的2DCNN-AE以及文獻[11]所提出的MAD-GAN這4種在異常檢測方面性能較好的模型進行對比實驗,使用了準確率、召回率、F1值和誤判率這4個指標對模型進行性能評估,實驗結果見表3。對比實驗發現,相較于其它異常檢測模型,本文所提出的模型在這4個指標上面都有一定程度的提升。

表3 模型對比實驗

4 結束語

本文提出了一種改進變分自編碼器的工業時序數據異常檢測模型。整個模型充分考慮了時序數據的各個特征之間的內在聯系,可以準確有效地檢測到生產過程中設備的異常狀態。該模型通過引入時間卷積網絡和通道注意力機制來實現擴大感受野和特征增強操作,并且使用變分自編碼器作為模型的基礎架構來實現對工業異常數據點的高精度檢測。

同時,該模型還未考慮更復雜的工業過程,模型存在進一步優化空間。未來將繼續增強模型的魯棒性和考慮引入實時時序深度學習模型來對工業過程的實時數據進行異常檢測。

猜你喜歡
利用特征檢測
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
利用一半進行移多補少
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
利用數的分解來思考
Roommate is necessary when far away from home
抓住特征巧觀察
主站蜘蛛池模板: 91口爆吞精国产对白第三集| 国产99热| 欧美在线视频不卡第一页| 99热国产这里只有精品无卡顿"| 欧日韩在线不卡视频| 激情无码视频在线看| 日本欧美一二三区色视频| 亚洲男人的天堂视频| 国产不卡在线看| 国产三级成人| 婷婷六月综合网| 第一区免费在线观看| 999在线免费视频| 日韩麻豆小视频| 久久伊人色| A级毛片无码久久精品免费| 美女无遮挡免费视频网站| 在线观看网站国产| 国产呦视频免费视频在线观看| 九九热精品视频在线| 免费高清毛片| 亚欧成人无码AV在线播放| 一级黄色网站在线免费看| 欧美激情视频一区| 四虎成人精品| 亚洲精品你懂的| 国产日本欧美亚洲精品视| 欧美伦理一区| 日本三区视频| 免费在线不卡视频| 熟妇人妻无乱码中文字幕真矢织江 | 亚洲最大福利视频网| 久青草国产高清在线视频| 无码精油按摩潮喷在线播放| 日韩成人在线视频| 久久精品免费看一| 女人爽到高潮免费视频大全| 91国内视频在线观看| 国产成人精品综合| 538国产在线| 久久精品午夜视频| 中文字幕在线免费看| 伊人激情综合| 国产在线八区| 亚洲AⅤ综合在线欧美一区| 5555国产在线观看| 亚洲青涩在线| 少妇精品在线| 精品五夜婷香蕉国产线看观看| 免费看a毛片| 中文国产成人精品久久一| 国产精品露脸视频| 日本伊人色综合网| 亚国产欧美在线人成| 台湾AV国片精品女同性| 91精品国产91久久久久久三级| 亚洲成人在线免费| 2020最新国产精品视频| a级毛片网| 成年人国产网站| 制服无码网站| 999国内精品久久免费视频| 在线欧美一区| 99国产精品一区二区| 成人精品免费视频| 熟女日韩精品2区| 91精品小视频| 伊人久久精品无码麻豆精品| 热这里只有精品国产热门精品| 在线视频亚洲色图| 91精品啪在线观看国产91九色| 免费AV在线播放观看18禁强制| 久草视频精品| 国产拍在线| 精品国产污污免费网站| 国产AV毛片| 91精品人妻一区二区| 91最新精品视频发布页| 国产污视频在线观看| 中文字幕波多野不卡一区| 国产视频 第一页| 欧美中文字幕无线码视频|