基于注意力變分自編碼器的時序異常檢測算法

2024-03-20 09:17:50陳述團

設(shè)備管理與維修 2024年4期

陳述團

（諸城市交通運輸局，山東濰坊 262200）

0 引言

時間序列異常檢測廣泛應(yīng)用于各類設(shè)備的不同場景中，包括但不限于異常交通流量檢測、工業(yè)設(shè)備狀態(tài)監(jiān)測、金融欺詐檢測、異常流量檢測、各類故障診斷以及汽車的日常監(jiān)測和維護(hù)，隨著多元高頻傳感器的快速發(fā)展，不同的應(yīng)用系統(tǒng)在運行過程中能夠收集大規(guī)模的時間序列數(shù)據(jù)[1]，因此，有效發(fā)現(xiàn)系統(tǒng)中的異常模式對于確保安全性并避免經(jīng)濟損失至關(guān)重要。

然而，從大量且復(fù)雜的多元時間序列數(shù)據(jù)中發(fā)現(xiàn)異常具有一定挑戰(zhàn)性。首先，需要確定異常的模式。異常也稱為離群值，這意味著根據(jù)情況觀察到的異常模式可能是不尋常、不規(guī)則、不一致或有缺陷的。此外，典型情況通常很復(fù)雜，難以定義什么是不尋常或意外。例如，風(fēng)力渦輪機在不同天氣情況下以不同的模式運行，不同的運行模式并不一定代表其發(fā)生了某種異常。不僅如此，隨著多元高頻傳感器的全天候運行，海量監(jiān)測數(shù)據(jù)中的異常模式通常是罕見的，這大大增加了標(biāo)注異常標(biāo)簽的成本。

現(xiàn)有基于時間序列的異常檢測方法主要集中于統(tǒng)計方法、傳統(tǒng)機器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法[2]，其中機器學(xué)習(xí)方法，特別是基于深度學(xué)習(xí)的方法，因其強大的數(shù)據(jù)建模能力而取得了巨大成功。然而，大多數(shù)監(jiān)督和半監(jiān)督方法無法處理有限的標(biāo)記數(shù)據(jù)，特別是動態(tài)異常，即訓(xùn)練數(shù)據(jù)集中從未觀察到的新異常。因此，本文提出一種基于變分自編碼器的無監(jiān)督時序異常檢測算法，該算法采用重建的思想來學(xué)習(xí)模型并重建出正常樣本，當(dāng)已訓(xùn)練好的模型無法重建某實例時，該實例則被視為異常。

1 算法理論

1.1 自動編碼器

AE（Auto-Encoder，自動編碼器）是一種基于無監(jiān)督的數(shù)據(jù)維度壓縮和數(shù)據(jù)特征表達(dá)方法，在大部分應(yīng)用場景中其網(wǎng)絡(luò)結(jié)構(gòu)是通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)的。網(wǎng)絡(luò)模型由編碼器和解碼器網(wǎng)絡(luò)組成，編碼器網(wǎng)絡(luò)學(xué)習(xí)輸入的潛在表示并對輸入數(shù)據(jù)進(jìn)行特征壓縮。解碼器的輸出目標(biāo)為重建編碼器的輸入，通過輸入和重建之間的差異來確定重建誤差。自動編碼器有多種類型，但基本上遵循相同的構(gòu)建模式，即在訓(xùn)練過程中自動編碼器將重建誤差最小化為目標(biāo)函數(shù)。

AE 通常用于數(shù)據(jù)生成，作為生成式模型，其解碼器可以基于人工分配的壓縮表示來生成輸出。

1.2 變分自動編碼器

VAE（Variational Auto-Encoders，變分自動編碼器）是基于貝葉斯推斷的自動編碼器變體，其結(jié)構(gòu)如圖1 所示，其中Decoder 為解碼器部分、Encoder 為編碼器部分。

圖1 變分自動編碼器結(jié)構(gòu)

它能夠?qū)（z）的底層分布進(jìn)行建模，并通過引入一組潛在的變量z 來生成新數(shù)據(jù)。這個過程可以表達(dá)為：

由于z 是連續(xù)域，導(dǎo)致積分難以求解。相反，可以將單個點的邊際對數(shù)似然表示為：

其中，DKL是先驗pθ（z）與p（x｜z）的變分近似qφ（z｜x）的KL 散度；Lvae是根據(jù)Jensen 不等式得到的變分下界，φ與θ分別表示編碼器與解碼器的參數(shù)。

VAE 通過最大化對數(shù)似然的下界Lvae來優(yōu)化參數(shù)φ與θ：

其中，第一項通過最小化近似后驗與潛在變量先驗之間的KL 散度來規(guī)范潛在變量z；第二項是通過最大化對數(shù)似然來重建x。

1.3 自注意力機制

Transformer 的提出給自然語言處理領(lǐng)域帶來革命性進(jìn)展，引領(lǐng)了一系列語言模型的發(fā)展，其中核心部分為多頭自注意力機制，這使得模型在建模長序列時表現(xiàn)出非凡的效果。自注意力機制作為Transformer 中的核心構(gòu)建模塊，能通過一定的方式建模計算序列中不同位點之間的關(guān)聯(lián)度，從而并行的得到序列位點之間的關(guān)聯(lián)關(guān)系，在準(zhǔn)確率與計算效率方面明顯優(yōu)于RNN與LSTM 等模型計算方式。

對于流經(jīng)模型的序列數(shù)據(jù)，其輸入進(jìn)行自注意力計算前的數(shù)據(jù)可以表示為X，通過3 個線性嵌入可以生成3 個權(quán)重矩陣，這3 個權(quán)重矩陣都是可學(xué)習(xí)的，表示為Wq、Wk、Wv，由輸入序列通過這3 個權(quán)重矩陣可以得到查詢向量q、鍵向量k、值向量v 所對應(yīng)的矩陣Q、K、V，表示為：

通過Q 矩陣與K 矩陣相乘并流經(jīng)softmax 處理后，可以得到序列間的相似度得分，最終通過與V 矩陣進(jìn)行加權(quán)得到最終的注意力輸出。整個過程可以表示為：

其中dk是k 矩陣的維度。為了從多尺度學(xué)習(xí)到不同潛在空間中更加豐富的特征，在自注意力機制的基礎(chǔ)上又引入了多頭自注意力的計算方式，即在p 個頭上進(jìn)行并行化計算，對于輸入需要使用p 個q、k、v 矩陣對其進(jìn)行映射，最終輸出的MSA（Multi-head Self-Attention，多頭自注意力）是學(xué)習(xí)每個頭的權(quán)重并應(yīng)用并行點積注意力后得到的結(jié)果。

2 基于變分自編碼器的異常檢測算法

2.1 模型算法

根據(jù)上述算法理論，使用自動編碼器結(jié)構(gòu)能夠訓(xùn)練得到一個學(xué)習(xí)了正常序列模式的算法模型，該模型在對異常序列進(jìn)行重建時會表現(xiàn)出較大的重建損失，而變分自編碼器在自動編碼器的基礎(chǔ)上能夠?qū)π蛄羞M(jìn)行更好的建模，因此可以作為異常檢測算法的基礎(chǔ)模型。

依托于注意力機制對序列的建模能力，本文提出了一種注意力變分自動編碼器的時間序列異常檢測模型，在使用卷積神經(jīng)網(wǎng)絡(luò)提取較長序列特征后，采用注意力機制在低維度進(jìn)行全序列的關(guān)聯(lián)度建模。通過這種模式能夠較好地捕捉序列之間的依存關(guān)系，能提高整個變分自動編碼器特征提取與重建的性能。

本文采用10 層CNN（Convolutional Neural Networks，卷積神經(jīng)網(wǎng)絡(luò)）與4 層注意力機制層來構(gòu)建網(wǎng)絡(luò)模型，其中編碼器與解碼器各對應(yīng)7 層（圖2）。注意力變分自編碼器模型的輸入層接受經(jīng)過預(yù)處理后的時間序列數(shù)據(jù)，其可接受的數(shù)據(jù)量占5000 個位點，輸入模型前轉(zhuǎn)換為1*1*5000*batch size（批量大?。┑膹埩扛袷?，批量大小表示一次性傳播到網(wǎng)絡(luò)中的樣本數(shù)，兩次注意力層能一次性建模的位點數(shù)分別為832、276，稀疏表示（或瓶頸層）的設(shè)計大小為1*90*27，卷積層采用一維（1D）卷積，并配合有批處理歸一化和激活層，激活層采用tanh 激活函數(shù)用于在模型訓(xùn)練中引入非線性，模型的解碼器部分（Decoder）是編碼器（Encoder）的逆對稱，其中模型的卷積層采用（3，3）、（5，5）、（7，7）和（9，9）四種不同大小的濾波器進(jìn)行上采樣和下采樣。環(huán)境中進(jìn)行訓(xùn)練，訓(xùn)練過程包括3 個階段：第一階段，將輸入信號（1*1*5000*batch size）被轉(zhuǎn)發(fā)到模型中進(jìn)行重建，其中批量大小為100；第二階段，涉及基于均方誤差（MSE）和Kullback-Leibler（KL）散度損失找到輸入和輸出之間的差異；第三階段及最后階段涉及網(wǎng)絡(luò)模型的優(yōu)化，通過反向傳播來傳遞損失并改變網(wǎng)絡(luò)的權(quán)重以減少損失的大小。該模型使用Adam 優(yōu)化器進(jìn)行訓(xùn)練，dropout 設(shè)為0.5，每個epoch 的學(xué)習(xí)率為0.001。

圖2 基于注意力變分自編碼器的網(wǎng)絡(luò)模型

2.2 異常檢測流程

使用變分自動編碼器進(jìn)行時間序列的異常檢測，主要分為3 步驟。

（1）第一步是構(gòu)建好網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型是基于本文提出的、基于注意力變分自動編碼器的時序異常檢測算法。

（2）第二步是將訓(xùn)練集的數(shù)據(jù)按照原數(shù)據(jù)量的80%、20%進(jìn)行劃分。其中，占比為80%的數(shù)據(jù)集單純用于模型訓(xùn)練，這部分?jǐn)?shù)據(jù)被輸送到網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練來確保網(wǎng)絡(luò)模型隨著迭代次數(shù)的增加而優(yōu)化，隨著模型的訓(xùn)練，重建損失也相應(yīng)的減?。徽急葹?0%的數(shù)據(jù)用來評估已訓(xùn)練后的模型來確定異常閾值，在模型訓(xùn)練之后，將來自隔離的正常狀態(tài)的20%數(shù)據(jù)輸入模型，并計算重建損失從而確定異常數(shù)據(jù)閾值。閾值是根據(jù)計算的重建損失分布計算的，它是平均值和3 個標(biāo)準(zhǔn)偏差的總和，表示為：

（3）第三步則是進(jìn)行模型的測試。這一步是將帶有標(biāo)簽的數(shù)據(jù)傳遞給模型并比較重建損失，重建損失低于計算閾值的信號被標(biāo)記為正常狀態(tài)，否則為異常狀態(tài)，從而計算模型檢測異常的準(zhǔn)確率。

簡單來說，該方法背后的原理是模型學(xué)習(xí)了它經(jīng)過訓(xùn)練和熟悉的數(shù)據(jù)的分布，并且無法重建任何其他不熟悉的分布。基于變分自編碼器的異常檢測算法流程流程如圖3 所示。

圖3 基于變分自編碼器的異常檢測算法流程

3 實驗分析

本實驗采用一套服務(wù)器監(jiān)測數(shù)據(jù)集，它是一個記錄了服務(wù)器5 周監(jiān)測時長的數(shù)據(jù)集。該數(shù)據(jù)集包含3組實體，自28 臺不同機器的數(shù)據(jù)組成，并提供標(biāo)簽來表明某個點是否異常以及每個異常的維度。整個數(shù)據(jù)集的異常率占比4.1%，其中訓(xùn)練集的時序步長為708 400 個時間步，測試集的步長為708 420 個時間步。

本實驗的硬件條件為，CPU 為AMD EPYC 7302 CPU@2 GHz、GPU 為NVIDIA GeForce RTX 3090 GPU、64G RAM，實現(xiàn)的模型基于Pytorch、CUDA 11.2、Python 3.8 環(huán)境完成。對于異常檢測的評價指標(biāo)設(shè)定為精確率（Precision）、召回率（Recall）和F1 值（F1-score），計算方式可以表示為：

其中，TP 表示真正例、FP 表示假正例、FN 表示假反例，F(xiàn)1 是綜合考慮了精確率和召回率，調(diào)和二者的平均值。

在本實驗的數(shù)據(jù)集上，將基于注意力變分自編碼器的無監(jiān)督時間序列異常檢測算法與現(xiàn)有的方法進(jìn)行對比，這些模型包括密度估計模型LOF[3]、基于子序列的聚類模型OCSVM[3]、基于孤立森林算法的IForest[5]、變化點檢測和時間序列分割方法U-Time[6]以及基于自回歸重建的模型VAR[7]，實驗結(jié)果如表1 所示。

表1 異常檢測實驗對比結(jié)果

實驗結(jié)果表明，本文方法在Precision、Recall 和F1-score 這3 個指標(biāo)方面比現(xiàn)有方法均有提升。其中，對于基于傳統(tǒng)統(tǒng)計學(xué)及無監(jiān)督聚類的3 種方法LOF、OCSVM、IForest 方法有大幅性能提升，這也得益于深度學(xué)習(xí)強特征提取的優(yōu)勢；與時間序列分割的方法UTime 相比也有較大提升，這也驗證無監(jiān)督學(xué)習(xí)方法在少標(biāo)簽學(xué)習(xí)的過程中具有較強的優(yōu)勢；本模型也與VAR 進(jìn)行了對比，在Recall 與F1-score 上有明顯提升。這也驗證了本方法在模型設(shè)計方面的先進(jìn)性。

4 結(jié)束語

針對各種應(yīng)用場景中高通量多源異構(gòu)時間序列的產(chǎn)生，現(xiàn)有的方法很難在無異常標(biāo)簽或少量異常標(biāo)簽的狀態(tài)下對異常情況進(jìn)行準(zhǔn)確識別，本文提出了一種無監(jiān)督異常序列檢測方法，即基于注意力變分自編碼器的時序異常檢測算法，通過對正常序列重建的方法確定異常閾值?；谶@種思路設(shè)計了一套異常檢測流程，與現(xiàn)有的基于非重建的方法相比，其在準(zhǔn)確度、召回率和F1 得分3 個方面的性能明顯提升。此外，通過在模型中引入自注意力機制，加強了對序列的特征關(guān)聯(lián)度計算，增強了模型對序列的特征提取以及序列重建能力，其較現(xiàn)有的3 種評估方法也有不同程度的提升，證明了本文方法的有效性。