999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間序列的異常檢測算法的研究

2023-04-29 00:00:00臧晶張經緯
科技資訊 2023年10期

摘要:在時間序列數據下,針對傳統的器件故障檢測技術對不同的器件檢測率低、小樣本數據分類不平衡等問題,對數據異常檢測準確率造成很大的影響。該文構建一種機器學習和深度學習相結合的時間序列異常檢測算法,針對時間序列數據分類不平衡問題,引入smote算法,使得各類別之間的數據達到均衡狀態,用Lasso算法進行特征選擇,從而得到對異常檢測結果影響較大的特征項,最后,使用基于添加注意力機制的LSTM網絡作為異常檢測分類器,完成基于時間序列異常檢測算法的實現。

關鍵詞:時間序列 異常檢測 smote lasso LSTM 注意力機制

中圖分類號:P14" " " " 文獻標識碼:A

Research of the Anomaly Detection Algorithm Based on Time Series

ZANG Jing" ZHANG Jingwei

(School of Information Science and Engineering, Shenyang Ligong University, Shenyang, Liaoning Province, 110159 China)

Abstract: Under time series data, the traditional device fault detection technology has a great impact on the accuracy of data anomaly detection due to the problems such as the low detection rate of different devices and the unbalanced classification of small sample data. This paper builds an anomaly detection algorithm of time series combining machine learning and deep learning, introduces the smote algorithm in view of the data classification imbalance of time series to enable the data between each category to reach the equilibrium state, uses the Lasso algorithm for feature selection to obtain the feature items that have great influence on anomaly detection results, and finally uses the LSTM network based on the added attention mechanism as the anomaly detection classifier to complete the realization of the anomaly detection algorithm based on time series.

Key Words: Time series; Anomaly detection; Smote; Lasso; LSTM; Attention mechanism

在時間序列數據中,研究一個問題往往涉及到很多可能的影響因素,明確哪些因素對異常檢測分類結果有更大的影響程度,就涉及特征選擇問題。

近年來,基于回歸分析地提取特征的正則化技術受到更多關注和研究[1-3]。Patil A R等人[4]使用自適應Lasso方法對基因的重要性進行選擇, 通過自適應Lasso處理后的基因有助于獲得更高的分類性能;朱海龍等人[5]將嶺回歸與Lasso算法分別與財政收入影響因素做特征選擇,結果表明Lasso回歸模型更優;吳進等人[6]基于lasso回歸的網絡剪枝結合SVD分解算法,提高模型性能。在實踐中,很多研究通常先使用Lasso算法進行特征選擇,然后將獲得的子集作為模型的輸入以提高模型效率。

鑒于以上原因,該文構建一種新的基于時間序列數據的檢測模型。首先對數據采用合成少數類過采樣技術[7](Synthetic Minority Oversampling Technique, Smote)解決數據中樣本分類不均衡的問題,避免在檢測中出現過擬合;其次以最小絕對收縮和選擇算法[8](Least Absolute Shrinkage and Selection Operator, Lasso)為基礎,達到時間序列數據重要特征信息提取的目的;最后以基于添加注意力機制的LSTM網絡為異常檢測模型,完成對時間序列數據進行異常檢測分類。

時間序列數據

時間序列是在一個統一的統計指標下,數值按照時間先后順序排列形成的序列。時間序列數據是對這些隨著時間變化而變化的數據的統稱,它用于描述事物或是現象隨時間變化的情況。例如:溫度傳感器讀數、股票價格、機器狀態等都屬于時間序列數據。

時間序列數據異常檢測算法構建

2.1 數據預處理

解決數據分類不平衡問題的一種典型的過采樣方法是smote算法,該算法采用了合成新樣本的方法,避免隨機采樣方法在檢測過程中的過擬合。實驗表明,用smote方法在提高少數類數量的同時,分類器的準確性會隨之提高。實現過程如下:

Step1 對于少數類中每一個樣本X,用歐式距離計算它在少數類中的K和近鄰,通常K值由自己設定;

Step2 在K個近鄰中隨機選擇一個樣本。

Step3隨機生成一個(0,1)之間的隨機數,用下式合成一個新樣本:

2.2特征選擇算法

Lasso的核心是利用L1范數的稀疏性來解決回歸相關的懲罰優化問題。該算法可以將一些不重要特征的系數縮減為零從而降低解釋變量矩陣的維數,在模型選擇方面具有較低的結構風險,從而快速處理高維數據。Lasso算法的目標函數可以表示為:

其中: 表示lasso算法的非負正則化參數,用于調節懲罰項對模型的壓縮強度。增大的值,被壓縮的解釋變量數目增加,不重要變量的系數可以壓縮為零,從而去除不重要的特征項。

2.3基于添加注意力機制的LSTM網絡模型檢測模型

長短期記憶(Long Short-Term Memory Network , LSTM)神經網絡是一種能夠很好地處理時間序列數據的網絡。通過對LSTM網絡引入注意力機制[10],對于該文采集泵的傳感器數據中,將泵的多個傳感器作為輸入數據,將泵的工作狀態作為異常檢測分類的輸出,重點關注對象是對異常檢測結果起主導作用的輸入特征,對相關性和依賴性較弱的特征應減少關注,可以做出更精準的異常檢測分類。LSTM添加注意力機制的模型如圖1所示:

3實驗仿真及算法應用

3.1實驗數據采集及說明

該文采用Kaggle上公開的泵的傳感器時間序列數據,采集的時間從2018年4月1日至2018年8月31日。該數據集通過52個傳感器獲取的數據來表示系統故障信息,每條樣本數據由3個部分組成:(1)時間戳數據(timestamp),表示每條數據采集的時間;(2)傳感器數據(sensor00~sensor51),表示52個傳感器的信息;(3)機器狀態(machine_status),表示泵的工作狀態信息。實驗所用的數據信息如表1所示。測試環境條件如下:操作系統Windows10,實驗平臺為PyCharm。

3.2實驗結果分析

3.2.1數據處理

根據圖表1數據可知,數據集分類存在不均衡,使用smote方法對數據集作均衡化處理,均衡后的實驗數據如表2所示:

為了評價訓練后的算法特性,該文將通過AUC值、測試損失值、測試準確率,對構建的時間序列異常檢測模型作出評估。

由圖2的AUC值曲線圖可知,選擇不同個數的特征數量對檢測結果的影響不同。當特征項為22個時,AUC值最大,對檢測模型影響最大,使用lasso特征選擇算法,選出對檢測結果影響較大的22個特征項,如圖3所示。

根據特征選擇結果,為了進一步說明構建的時間序列異常檢測模型的可行性,該文用LSTM網絡和LSTM-attention網絡分別作為檢測模型進行對比分析,從測試損失值和測試準確率兩方面說明模型的有效性。

如圖4所示,兩種模型的訓練的epoch均為15。兩種模型的損失值均呈下降趨勢。LSTM網絡在第三、第四epoch稍稍提升,在后面的epoch中呈緩慢下降。基于添加注意力機制的LSTM-attention模型中,在epoch等于6、7時稍有增長,在epoch等于8時又下降,在epoch為9、11時稍有波動,可能的原因是數據存在噪聲。在最后的epoch中,LSTM_attention的損失值比LSTM的損失值低。

如圖5可知,兩種模型在整體上都呈上升趨勢,中間稍有波動。LSTM網絡在前三個epoch中稍有下降,在第五個epoch中突然升高,隨后略有下降,但是還是呈上升趨勢。LSTM-attention模型epoch為6、7、9時有較大的震蕩,經過10個epoch后一直上升,在最后的異常檢測準確率上比單一的LSTM網絡準確率高。

5結語

對于多特征的時間序列數據集,存在樣本分類不平衡問題時,首先進行樣本均衡化處理,然后使用lasso算法對數據進行特征選擇,再使用基于添加注意力機制的LSTM網絡作為異常檢測模型進行分類檢測。最后該文從AUC曲線,測試損失值以及測試準確率4個角度對構建的時間序列異常檢測算法模型進行實驗驗證,說明了模型的有效性和可行性。

參考文獻

[1]李雪珂.基于正則化稀疏模型與Xgboost算法的估值預測研究[D].武漢:中南財經政法大學,2019.

[2]Verstraete G,Aghezzaf E,Desmet B.A leading macroeconomic indicators ’based framework to.automaticallygenerate tactical sale forecasts[J].Computersamp;Industrial Engineering,2020,139(1):106169.

[3]王格華,王璞玉,張海.分布式變量選擇:MCP正則化[J].工程數學學報,2021,38(3):301-314.

[4]Patil A R,Park B K,Kim S.Adaptive lasso with weights based on normalized filtering scores in molecular big data[J].Journal of Theoretical and Computational Chemistry,2020.

[5].朱海龍,李萍萍.基于嶺回歸和LASSO回歸的安徽省財政收入影響因素分析[J].江西理工大學學報,2022,43(1):59-65.

[6]吳進,吳漢寧,劉安,等.一種基于Lasso回歸與SVD融合的深度學習模型壓縮方法[J].電訊技術,2019,59(5):495-500.

[7] 王俊紅,段冰倩. 一種基于密度的SMOTE方法研究[J].智能系統學報,2017,12(6):865-872.

[8]陳細軍.基于Lasso及其改進方法的仿真和GDP實證分析[D].武漢:武漢大學,2019.

[9] 唐蕾霞.自注意力LSTM在時間序列分析中的應用研究[D].大連:大連理工大學,2021.

主站蜘蛛池模板: 黄色网页在线播放| 奇米影视狠狠精品7777| 亚洲成年人网| 日韩精品欧美国产在线| 亚州AV秘 一区二区三区| 91精品国产自产91精品资源| 日韩大片免费观看视频播放| 亚洲一区二区无码视频| 69综合网| 亚洲综合在线最大成人| 538国产在线| 第一区免费在线观看| www欧美在线观看| AV老司机AV天堂| 婷婷亚洲最大| 欧洲精品视频在线观看| 5555国产在线观看| A级毛片高清免费视频就| 日日摸夜夜爽无码| 九九这里只有精品视频| 久久福利网| 亚洲黄色激情网站| 免费国产在线精品一区| 婷婷开心中文字幕| 久久semm亚洲国产| 亚洲性一区| 日韩毛片免费| 国产青榴视频在线观看网站| 亚洲美女视频一区| 国产精品第一区在线观看| 精品三级网站| 超碰精品无码一区二区| 在线国产你懂的| 国产自视频| 国产偷国产偷在线高清| 韩国自拍偷自拍亚洲精品| 婷婷99视频精品全部在线观看| 国产精品久久自在自线观看| 美女无遮挡免费视频网站| 日韩美女福利视频| 久久人与动人物A级毛片| 国产jizz| 无码高潮喷水专区久久| 青青草原国产| 日韩福利在线视频| 99视频在线免费观看| 日韩精品无码免费一区二区三区| 又粗又硬又大又爽免费视频播放| 久久人妻xunleige无码| 国产精品v欧美| 久久熟女AV| 国产欧美在线| 中文字幕日韩视频欧美一区| 91福利国产成人精品导航| 精品视频一区在线观看| 成人无码一区二区三区视频在线观看| 日韩av电影一区二区三区四区| 色综合久久88| 午夜不卡福利| 亚洲欧美成aⅴ人在线观看| 精品国产福利在线| 亚洲中文制服丝袜欧美精品| 熟女成人国产精品视频| 国产一区二区三区免费| 狠狠五月天中文字幕| 中文字幕第1页在线播| 欧美成人二区| 欧美日韩专区| 婷婷99视频精品全部在线观看| 日本人妻一区二区三区不卡影院| 国产不卡国语在线| 国产黄色片在线看| 亚洲国产成人自拍| 国产成人精品视频一区二区电影| 国产精品嫩草影院av| 91区国产福利在线观看午夜| 911亚洲精品| 国内熟女少妇一线天| 一本色道久久88| 在线观看国产精美视频| 国产第二十一页| 8090午夜无码专区|