基于CNN-LSTM-PSO的私有云故障檢測

2022-08-26 05:24:00曹炳堯侯佩儒

計算機測量與控制 2022年8期

曹炳堯，柏杰，侯佩儒

(上海大學特種光纖與光接入網重點實驗室，上海 200444)

0 引言

私有云的高可靠性是保障業務系統及云上作業正常運行的關鍵因素，在基于私有云環境本身高可靠的基礎上實現對私有云的故障檢測可以及時排除故障因素，進一步增強系統可靠性。目前在故障檢測方面大多直接對系統級別故障數據進行檢測，該方式在故障種類單一時可獲得較好的預測結果[1]，但在私有云這類多因素故障的場景中效果并不理想。同時在正常私有云環境下，單靠運維人員對監控指標、運行日志等海量數據進行分析，排查潛在風險，也存在數據處理困難，排查準確率低，流程效率緩慢等缺點。

因此，針對上述問題，本文根據私有云監控指標的時間序列數據，采用X11分解算法對監控指標數據進行預處理獲取特征數據并作為神經網絡輸入，將卷積神經網絡(CNN)和長短期記憶(LSTM)循環神經網絡融合進行模型構建，實現對監控指標時間序列的訓練和預測。由于LSTM網絡克服了RNN對時間序列預測時存在的梯度爆炸和梯度消失等問題，目前LSTM模型在時間序列上得到了廣泛應用，并且在私有云監控指標的預測中表現也比較突出。

文獻[2]驗證了LSTM模型在云環境下對監控指標時間序列比單一模型在預測上具備精度更高的優勢。Sudhakar[3]結合RNN和LSTM模型對服務器工作負載進行預測，并通過對比驗證了預測效果其優于ARIMA模型，但相較而言其預測時間更長。Zhang等人[4]將螢火蟲智能優化算法對LSTM預測模型進行優化實現對云主機負載的預測，提高了峰谷值處的預測精度。文獻[5]提出了GRU-LSTM組合模型對云計算資源負載進行預測，提高了預測精度的同時減少了預測時間。文獻[6]進一步對LSTM模型進行優化，結合PF模型提高了突發負載時預測精度。文獻[7]結合果蠅優化算法對LSTM模型進行改進，通過對果蠅算法的尋優能力的提高加強了預測的精確度，但是存在突發狀況變化的預測精度低的缺點。

上文實驗中，通過將LSTM模型和其他算法結合的方式實現時間序列預測，這種多模型體系往往在預測精度上高于單一模型，但是一方面部分模型在LSTM超參數的選擇往往采用試錯法或者只進行簡單的優化，而忽略超參數對模型預測效果的影響，另一方面在簡單優化超參數的模型中往往僅采用單一LSTM網絡結構進行預測，預測精度又沒有復合模型高。本文在將LSTM神經網絡模型和CNN神經網絡結合的基礎上，利用PSO算法實現超參數的優化工作，并采用采用高斯正態分布實現確定預測的波動范圍，設定其上下限閾值，從而對真實數據進行故障檢測，使其在預測結果及故障檢測中產生更好的效果。最后通過和單一模型以及多模型結合的預測方法進行多方面對比，從而展示、分析本文設計算法的優缺性。

1 相關理論與技術

本節主要介紹卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶神經網絡(LSTM)以及粒子群優化算法(PSO)。神經網絡是一門重要的機器學習技術，它通過模擬人腦的神經網絡以期實現近似人腦功能的人工智能技術，而粒子群優化算法是群集智能的一種，為多主體優化系統體系中的一種算法。

1.1 卷積神經網絡

卷積神經網絡(CNN，convolutional neural network)是一種可以同時學習多種特征的深度神經網絡，目前在已被廣泛應用于多個領域，包括圖像、語言識別，資源預測等[8]。CNN的網絡結構由輸入層、卷積層、池化層、全連接層以及輸出層構成，其中卷積層和池化層通過相互配合可以學習并總結歷史數據的抽象特征信息，其中卷積層對輸入數據進行濾波工作，計算提取出數據的建模特征，具體計算方式如公式(1)，從而挖掘出數據特征向量關聯關系，池化層會在獲取的特征信息基礎上保留卷積后的主要特征的同時降低網絡復雜度，提升模型特征信息提取效果。基于CNN算法的優越性已經有很多研究人員將CNN成功應用于故障診斷中[9]。

(1)

式中，?表示卷積計算；F表示卷積層輸入數據；ω表示卷積核的權重參數；C、Wf、Hf分別為卷積核的通道數、寬度以及高度。

一般情況下一維CNN網絡處理時間序列數據具有更佳效果，二維CNN網絡則在圖像處理方面效果更好，本文中數據為時間序列數據，選擇一維CNN網絡。在經過池化層后將數據輸入全連接層，將多維數據轉化為一維。一維CNN網絡結構如圖1所示。

圖1 一維CNN結構圖

此外，CNN網絡的神經元之間共享一個卷積濾波器的參數，從而大幅度減少網絡冗余參數，避免過擬合現象。

1.2 循環神經網絡

傳統的神經網絡如CNN神經網絡在同層之間神經元不會互相傳遞信息，輸出信號僅與輸入信號相關，因此無法處理具有連續關系的輸入信號且無記憶能力，對本文中的時間序列數據處理效果不佳。為此要構建具備記憶功能的神經網絡模型，可采用循環神經網絡(RNN，recurrent neural network)，通過梯度下降算法、權重共享以及前向反饋機制實現對時間序列的預測，目前循環神經網絡已被廣泛應用在自然語言處理[10]、計算機視覺[11]、計算機生物學等領域，在計算機及IT系統領域中的應用還較少。

未展開的循環神經網絡結構如圖2(a)所示，其網絡結構同傳統神經網絡相同，包含輸入層、隱藏層和輸出層。圖中A表示神經網絡模型，xt表示輸入時間序列在t時刻的數據，ht表示在t時刻的輸出數據，其中區別于CNN網絡的是隱藏層輸出的數據除了會將信息流輸出到ht，同時會將當前時刻的神經元信息傳遞到下一時刻的神經元，并在下一時刻加以利用，U、W、V為神經網絡中的權重矩陣。這種鏈式結構揭示了RNN本質上是與時間序列相關的，但是RNN雖然理論上可以保留所有的歷史時刻的信息，在實際情況下，信息的傳遞會因為時間間隔造成衰減效應，即梯度消失，這種情況下會嚴重降低對數據有長期依賴的信息在處理上的效果。并且RNN模型由于在訓練時需要預先確定延遲窗口長度，但是該值的改變難以確定，其最優值也難以獲取。所以本文將進一步研究其優化算法LSTM。

圖2 RNN和LSTM結構圖

1.3 LSTM神經網絡原理

由于RNN上述的問題，文獻[12]提到了長短期記憶神經網絡(LSTM，long short-term memory)。LSTM通過實現時間遞歸，將隱藏層中RNN細胞替換為LSTM細胞，并在細胞內采用“門”的概念實現長距離的保留長期歷史信息[13]。圖2(b)為LSTM神經網絡結構圖。和RNN網絡相比，此處LSTM網絡添加了表示細胞狀態，用以表示當前LSTM網絡的狀態信息并用來傳遞到下一時刻的LSTM網絡中，其次在隱藏層中設計了3個門結構：ft遺忘門、it記憶門和ot輸出門，LSTM神經元隱藏層網絡結構如圖3所示。

圖3 LSTM神經元隱藏層網絡結構

遺忘門決定了上一周期的時間序列是否從歷史數據中進行過濾，記憶門與之相反，它決定輸入信息Xt和Ht-1中需要保留的信息，主要將該循環周期內的需要存儲的時間序列信息存儲到神經元狀態中，Ct細胞狀態通過更新傳遞到下一時刻Ct-1，輸出門并非最終輸出狀態，僅為當前時刻輸出信號，需要作為下一時刻輸入信號傳遞到下一階段，詳細計算方式如公式(2)～(6)：

ft=σ(Wf·[ht-1,xt]+bf)

(2)

it=σ(Wi·[ht-1,xt]+bi)

(3)

c′=tanh(Wc·[ht-1,xt]+bc)

(4)

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot·tanh(c)

(6)

式中，W是門的權重矩陣，σ表示sigmod函數，b是門的偏置項。

由獲取到的時間序列數據輸入當前時刻數據Xt，前一時刻的細胞狀態Ct+1作為該網絡神經元狀態輸入，將當前時刻的信息Xt通過遺忘門ft處理，去除冗余信息以后和輸入門合并生成當前時刻的細胞狀態Ct，同時由處理過的歷史信息與經過記憶門it處理后的輸入信息進行運算得到當前時刻輸出信號ht，該信號也將傳遞到下一時神經元。

LSTM神經網絡通過增加細胞狀態，并經過遺忘門和記憶門更新細胞狀態，從而長時間保存了時間序列數據的歷史信息，有效緩解了梯度消失、梯度爆炸以及長期依賴的問題。

1.4 粒子群優化算法

在LSTM算法中，除了LSTM內部網絡結構的參數需要通過訓練得到，還存在大量需要在訓練網絡模型之前預設的參數，這些參數被稱為超參數(hyper-parameters)，這些參數在訓練過程中保存不變，但其值對模型訓練具有較大影響，訓練完成后通常需要進行調優，找到一組全局最優超參數。目前超參數優化算法包括網格搜索法、隨即搜索算法、貝葉斯算法等，本文采用粒子群優化算法(PSO，particle swarm optimization)對LSTM模型的超參數進行優化。

PSO算法是由Eberhart和Kennedy提出，通過模仿大自然群居動物的集群覓食行為，通過在群體中的個體間的互相關系來尋找最優解[14]。其憑借易于實現、參數少等優點被廣泛應用于神經網絡訓練、遺傳算法等領域。粒子群通過粒子間信息交換保留記憶進行迭代向全局最優解進行演變，獲取最優粒子實現尋優。

尋優超參數被包含著粒子群的向量內，設置M個參數構成搜索空間創建粒子群，粒子群內包含N個粒子，計算具體方式如公式(7)：

(7)

式中，Xi表示粒子的位置，Vi表示粒子的尋優速度，Pbest表示第i個粒子的搜索到的最優位置，gbest表示迭代后整個粒子群搜索到的最優位置。

本文將PSO應用于LSTM的超參數優化中，并建立LSTM-PSO模型，以尋找超參數的全局最優解。

2 方案設計

根據私有云監控指標時間序列數據的特點，結合第1節相關理論，本節提出CNN-LSTM-PSO模型的故障檢測的方案，首先采用X11分解法等技術對時間序列進行數據預處理，并在此基礎上選擇為LSTM模型添加卷積層的方案實現對模型的訓練及預測，最后基于多層PSO算法完成對超參的選優算法以進一步優化預測效果，并使用高斯正態分布進行閾值選定。

2.1 整體方案設計

本文以LSTM神經網絡為核心，將實現過程分為七層，包括數據預處理層、卷積層、輸入層、隱藏層、網絡訓練場、超參優化層和輸出層，其基本實現框圖如圖4所示。實現過程描述如下：

步驟1：數據預處理層將短采樣周期監控指標時間序列進行平滑處理，并將數據分解得到周期和趨勢數據。

步驟2：卷積層將數據歸一化，并使用CNN網絡模型進行特征學習并提取。

步驟3：輸入層對特征數據進行訓練集劃分，數據分割以滿足LSTM神經網絡輸入要求。

步驟4：隱藏層為LSTM核心層，構成網絡訓練模型核心，實現網絡訓練及結果預測。

步驟5：網絡訓練層通過對訓練過程中的模型輸出和實際數據計算損失模型loss，并采用adam優化網絡算法優化權重矩陣，完成模型參數的訓練。

步驟6：超參優化層初始化粒子群，并使用PSO優化算法迭代訓練獲取全局最優超參數。

步驟7：輸出層通過訓練完成的神經網絡對測試數據集進行預測，同時通過高斯正態分布計算預測值的閾值，通過比較真實數據是否在該范圍內以檢測該時刻監控指標數據是否存在異常。

圖4 整體方案設計

2.2 基于X11分解法的時間序列預處理

本文監控私有云監控指標其周期粒度一般為30 s或者1 min，考慮到短周期時間序列的波動性大，易造成毛刺等現在，同時為了統一周期粒度指標，對數據先進行平滑處理，將周期重置為3 min，單周期值取該周期范圍內子周期的平均值。同時時間序列通常可以被分解為趨勢、周期及殘差3個變量，如經典分解法可將時間序列分解為周期成分、趨勢成分和殘差，其計算方式如公式(8):

y(t)=S(t)+T(t)+R(t)

(8)

式中，S(t)為周期成分(seasonal component)，T(t)為趨勢成分(trend-cycle component),R(t)為殘差成分(remainder component)。

但在本文中的監控指標的時間序列除了會被上述因素影響之外，還會受到季節、月度變化等因素的影響，為此本文采用X11算法以去除月份和季節因素，在獲得的趨勢周期成分中，在使用經典分解法即公式(8)進而獲取到精確的周期數據和趨勢數據，其中X11算法基本公式如式(9)：

Yt=CtStItPtDt

(9)

式中，Yt是原始序列，Ct是趨勢周期成分，St是季節成分，It是先驗月因子，Pt是工作日因子，Dt是不規則成分。

通過結合X11分解法和經典分解法獲取到精確的周期和趨勢數據。X11分解法(X11 decomposition)可以獲得完整數據的所有趨勢成分，對于假期、季節等已知的影響因素都有著更好的處理結果。

2.3 基于CNN-LSTM網絡模型訓練及預測

傳統的LSTM模型雖然可以對中長時間序列進行預測，但是由于其遺忘門的存在，在對大規模數據進行訓練時，會遺忘部分重要信息，造成模型訓練效果出現退化現象。而卷積神經網絡CNN通過其卷積層可以挖掘歷史數據中更深層次的特征信息。因此通過CNN網絡先進行特征信息學習后再傳入LSTM網絡進行時間序列學習將使模型對未來時間數據的數據更精準。

網絡訓練和預測的核心是隱藏層，通過訓練獲取隱藏層矩陣參數，并以該模型對數據進行預測。經過2.2小結預處理后得到處理后的周期和趨勢時間序列分別為S(t)和T(t)。此處以周期序列S(t)為例，設S(t)={s1,s2,…,sn}，在卷積層采用z-score對特征值的訓練集進行歸一化處理，將其映射為均值為0，方差為1的標準序列，以此消除特征單位及尺度等影響，其計算方式如公式(10),完成歸一化的數據表示為

(10)

式中，x為實際值，μ為均值，σ為標準差，z為歸一化結果。

初始訓練模型采用64單元的LSTM層，時間步長為12，預測長度為10。同時為防止過擬合的發生，采用EarlyStop和Dropout技術，其中早停法(EarlyStop)通過在模型驗證集上表現開始下降時停止訓練避免過擬合，隨機丟棄層(Dropout)通過一定概率的讓部分神經元不參加模型訓練以減少過擬合現象。損失模型(loss)采用均方誤差(MSE，mean-square error)進行計算，并以該損失函數最小為目標，給定初始的超參數，并使用Adam優化算法對隱藏層的網絡權重進行更新，進而獲得訓練模型并對測試集進行預測。

2.4 基于PSO算法的超參數優選

LSTM常見超參數包括學習率η、迭代訓練次數C、分割窗口長度L、神經元個數N、狀態向量大小Sstate等。其中學習率η絕對目標函數的收斂能力，合適的學習率可以其在合適時間內收斂到局部最小值，反之學習率過大可能會造成模型震蕩導致無法收斂，過小則學習效果欠佳，易造成模型訓練用時增加，本文學習率的設置范圍為[0.01,0.001]。訓練次數C表示本文需要進行圖3中網絡訓練層Adam優化網絡權重參數的次數，訓練次數過小無法得到最優網絡權重參數，過多會增加訓練時長，浪費計算機計算資源，對實時檢測的時效性有一定影響[15]。

本文將基于PSO對4個關鍵超參數(學習率η、迭代訓練次數C、分割窗口長度L、神經元個數N)進行選優，將這4個超參數作為PSO粒子，通過更新粒子的速度和位置獲取每個粒子全局最優值，LSTM-PSO模型流程如圖5所示。

圖5 LSTM-PSO預測模型流程圖

在圖4的基礎上，將LSTM模型訓練過程置于PSO模型內，對于關鍵的超參數先設置經驗值進行模型訓練，然后根據表1中超參數取值范圍通過計算粒子適應度更新粒子迭代訓練獲取最優解。如表1為本文設置超參數取值范圍。

表1 超參數取值范圍

PSO通過適應度來評價解的好壞，本文中適應度函數通過設置真實值和預測值的平均百分比誤差(MAPE，mean absolute percentage error)的最小值來實現，公式如(11)和(12):

(11)

F(x)=min(M)

(12)

式(11)中,n表示預測時間序列的監控項個數，Pact表示監控項的真實值，Ppre表示監控預測值，M表示MAPE，式(12)中F表示適應度。

2.5 基于高斯正態分布的閾值選定

高斯正態分布模型計算簡單，且運算速度快，在進行故障實時檢測中更快速、準確。通過對樣本值的均差和方差來計算整體概率分布，設隨機變量服從一個位置參數、尺度參數為的概率分布，且其概率密度函數為式(13)，則該隨機變量為正態隨機變量，且符合正態分布[16]。

(13)

本文進行預測的趨勢周期模型符合正態分布。正態分布進行閾值計算求得閾值上限和閾值下限，在本文中必須當趨勢周期實際值超過閾值時，將其判定為出現故障。異常檢測的實際原理就是小概率事件一般不會發生，當出現時即視為出現故障[17]。

3 實驗測試與分析

3.1 數據集及故障類型

在私有云環境中，按照固定時間采集到監控項指標數據作為時間序列，其中監控項指標包括CPU、內存等基本監控指標、電源開斷、物理服務器風扇轉速等物理指標以及應用服務狀態、端口狀態等監控指標。本文主要以已搭建私有云內某虛擬主機CPU、內存、磁盤3種監控指標作為時間序列進行數據分析和模型對比，每條指標選取1年的數據，初始周期統一取3 min，將前3個月數據作為訓練集，后9個月數據作為測試集。

而在上述指標中呈現的故障類型也存在不同的形式，通常包括點異常、集合異常以及峰值異常，如圖6所示。其中點異常可以在檢測期間單獨處理而無需考慮時間關系，所以最好處理，通常簡單閾值設定的方法即可處理。峰值異常則取決于其相鄰數據點的值，因此需要檢測局部信息，而集合異常是由于一系列數據點同時表現出異常而產生的，所以需要對時間序列進行處理，本文采用的CNN-LSTM-PSO模型對此有著很好的檢測效果。

圖6 私有云監控指標故障類型

同時為對模型預測結果進行比較，本文采用標準差(SD, standarddeviation)來反映實際值與預測值的離散程度[18]，模型監控指標的預測值和實際值分別進行均方根誤差(RMSE，rootmeansquareerror)、平均絕對誤差(MAE，mean absolute error)和平均百分比誤差(MAPE)的計算對預測結果的精確度進行比較，這3個值越低，表示誤差越小，精度越高。其中RMSE、MAE計算方式如公式(14)、(15)，MAPE如公式(11)：

(14)

(15)

式中，yact表示第i個樣點監控項的實際值，ypre表示第i個樣點監控項的預測值。

故障檢測的能力則使用精度(precision)、召回率(recall)和F1分數來評估，精度越高表示檢測準確率越高，召回率越高表示漏檢故障可能性越低，F1越高表示整體效果越好，計算方式如公式(16)～(18)所示：

(16)

(17)

(18)

式中，TP(truepositive)表示正確檢測出的異常數，FP(false positive)表示正常數據被檢測為故障的數量，FN(false negative)表示異常數據被檢測為正常的數量。

3.2 對比模型

本文將會從以下幾個時間序列模型和所提出的CNN-LSTM-PSO模型進行實驗對比。

1)自回歸移動平均(ARIMA，autoregressive integrated moving average model)模型基于時間序列的趨勢變化、周期性和隨機干擾實現對平穩時間序列的預測[19]。模型表示為ARIMA(p,d,q,其中p為自回歸項數，d為差分項數，q為移動平均項數[20]。本文基于ARIMA模型，并結合網格搜索法對ARIMA模型的3個參數進行調優，從而實現對監控指標的時間序列預測。

2)Holt-Winters指數平滑不同于常見的時間序列分解法，其基本思想是通過加權平均移動法來實現時間序列預測[21]。Holt-Winters可以在捕捉周期分量和趨勢分量的同時直接進一步捕捉到季節分量，以表示序列數據的局部特征變化，其原理是通過將時間序列上遠近時刻的數據進行權重劃分，其中較近時刻給予較大權值，較遠時刻給予較小的權值從而同時兼顧所有時刻，實現時間序列的預測[22]。

3)將本文第一節提到的RNN模型以及單獨使用LSTM模型的預測進行效果比對。

4)采用論文[5]的模型，將GRU和LSTM組合構建GRU-LSTM模型進行模型訓練和預測。該模型先使用GRU網絡提取監控指標的輸入變量特征，構成高維映射空間時序性特征向量，然后將結果輸入到LSTM網絡進行訓練。

3.3 平臺環境

本文使用計算機配置如下：處理器為Intel(R) Core(TM) i7-8750H，CPU頻率為2.2 GHz和2.21 Hz；內存為32 GB；操作系統為Windows11(64位)；程序設計語言位Python3.7，采用pandas、keras、states等程序包。

3.4 實驗結果

為直觀體現本文模型的預測效果，以監控指標CPU使用率作為預測數據，選取數據的間隔時間作為橫坐標，CPU使用率作為縱坐標。圖7、圖8分別為本文設計模型CNN-LSTM-PSO和GRU-LSTM模型對CPU指標進行預測的結果，可以看到兩種模型都可以大致預測到數據的走向，但本文預測擬合效果更好，精度更高，而GRU-LSTM在線性上升或者下降部分效果較好，但在谷峰值位置處明顯有部分數據預測效果不佳，不如本文模型。由此可看到CNN結合LSTM的模型對極端峰、谷值都有著更好的擬合效果。且在抖動頻繁的時間點，CNN-LSTM-PSO模型的預測結果更接近真實值，這也證明了通過PSO實現超參選擇在一定程度上提高了模型的精確度。

圖7 CNN-LSTM-PSO模型預測效果

圖8 GRU-LSTM模型預測效果

為進一步說明CNN-LSTM-PSO模型預測性能，將其分別與ARIMA、Holt-Winters、RNN、LSTM以及GRU-LSTM五種模型進行對比，并以RMSE、MAE以及MAPE作為參考指標，同時計算模型訓練和預測的耗時，結果如表2所示。

表2 ARIMA、Holt-Winters、RNN、LSTM、GRU-LSTM及本文模型預測效果對比結果

從表2可以看出，RNN和LSTM神經網絡模型誤差都比較大，預測準確度最不理想，Holt-Winters預測效果略有提升，但是其耗時過長，ARIMA模型耗時最短，但是其預測效果較差，論文[5]中所提的GRU-LSTM模型在可控耗時情況下其預測效果也較好，但是相比于本文的CNN-LSTM-PSO模型在預測效果上還有一定差距，其中對于監控指標波動處的預測效果差距更大。并且本文模型在訓練和預測的總耗時上雖比ARIMA和LSTM模型略高，但相比于Holt-Winter、RNN和GRU-LSTM都要略快一些。可以看出，本文提出的CNN-LSTM-PSO在模型性能上有著較好的優化。最后本文通過高斯正態分布進行閾值選定。當實際值超過圖中陰影部分上下閾值時，即判定此時出現故障。

本文通過精度、召回率和F1值來比較本文設計模型的故障檢測效果，如表3為內存使用率的性能比較結果。由上文預測效果可以分析出單RNN模型和LSTM模型效果較差，此處將不在進行比較。

表3 ARIMA、Holt-Winters、GRU-LSTM及本文模型故障檢測效果對比結果

結果表明，相對于本文提出的模型，ARIMA、Holt-Winters模型的精度、召回率和F1值都有所欠缺，整體效果較差。而GRU-LSTM模型和本文模型召喚率都較好，但是本文模型精確率更優，因此F1值也最好。可以看出，本文提出的CNN-LSTM-PSO模型在故障檢測效果上有著明顯的優勢。

3.5 參數選優

在進行超參選優時，LSTM網絡的超參數范圍根據表格1中的范圍進行設置，同時設置種子群規模seed為30，最大迭代次數40。尋優主要通過2.4節中提高的LSTM預測模型的參數得結果，包括適應度F(x)和超參數學習率η、迭代訓練次數C、分割窗口長度L、神經元個數N的變化趨勢，詳細結果如如圖9所示。

圖9 PSO優化結果曲線圖

通過PSO對LSTM網絡的超參數進行選優，當迭代次數達到19時適應度最優，且迭代次數最少，如圖9(a)所示，此時3個超參數都達到最優效果。此時通過圖9(b)、9(c)、9(d)可以看出學習效率為0.007 6，分割窗口長度為652，神經元個數為369。通過對超參數變化曲線圖分析可以發現超參數都有兩個峰值，在迭代次數為19和迭代次數為27分別有一個高峰值，但是迭代次數在19時效果更好。

4 結束語

針對私有云故障檢測的問題，本文提出了CNN-LSTM-PSO模型對關鍵監控指標故障的檢測方法，采用X11分解法和經典分解算法可以獲取時間序列的周期成分和趨勢成分，同時使用CNN-LSTM模型可以對長時間序列預測有更好的擬合效果,利用PSO對LSTM模型網絡的超參數進行選優工作，在避免簡單人為確定超參數導致無法取得全局最優的同時，將超參選優的時間控制在確定時間內，保障模型預測的實時性。采用高斯正態分布確定閾值大小，最終實現了私有云的故障檢測工作。

測試結果表明，相比較其他時間訓練模型，本文提出的CNN-LSTM-PSO模型能夠有效提高預測的精確度和準確性，同時訓練及預測耗時在可控范圍之內，在對私有云的故障檢測中有著較好效果。