侯國蓮,呂志恒,張文廣,吳凱利
(1.華北電力大學 控制與計算機工程學院,北京 102206;2.上海新華控制技術集團科技有限公司,上海 270062)
電動執行器作為重要的調控部件,廣泛應用在電力、航天、煤炭等工業領域中,其結構復雜且長期處于惡劣運行環境中,不可避免出現性能劣化以及故障,影響工業正常生產,甚至造成人員傷亡和財產損失[1-2]。 因此,及時發現其故障并加以識別,對控制系統安全運行具有重要意義。
近年來,國內外學者對執行器故障診斷進行了大量研究。 文獻[3]針對單一診斷方法容易誤判的情況,提出了一種基于證據融合的執行器故障診斷方法;文獻[4]針對閉環控制回路反饋作用導致故障表現不明顯的問題,提出了一種基于特征指標信息融合的診斷方法;文獻[5]針對航天領域機電執行器提出了一種基于長短期記憶神經網絡的故障診斷方法。
深度森林(deep forest,DF)是2017年提出的深度學習新算法[6],目前已應用在生物信息、軸承故障診斷、電力系統穩態研究等領域[7-9]。 文獻[10]提出一種加權級聯森林用于化工過程故障診斷; 文獻[11]通過主成分分析降低DF 特征維度,用于齒輪箱的故障診斷。
綜上, 本文將DF 算法引入電動執行器故障診斷領域, 提出一種基于改進DF 的故障診斷方法。首先,對試驗數據進行預處理;其次,基于改進的DF算法建立故障診斷模型,通過超參數試驗確定了模型的最佳參數;最后,將所提方法與支持向量機(support vector machine,SVM)和一維卷積神經網絡兩種方法進行對比,驗證了所提故障診斷方法的有效性。
DF 是一種決策樹集成學習算法[12],主要包括多粒度掃描和級聯森林(muti-grained cascade forest,GcForest)兩部分。
多粒度掃描結構如圖1 所示,核心思想是采用滑動窗口對樣本采樣。 對于一組包含K 維特征的樣本,通過一個長度為L 的滑動窗口進行滑動采樣,每次滑動的步長為S,則滑動采樣結束后會有N=(K-L)/S+1 個L 維的特征向量。 將得到的所有子樣本作為普通隨機森林和完全隨機森林的輸入,則每種森林獲得N 個維度為P 的概率向量。將這些概率向量拼接,構成了多粒度掃描的最終輸出。

圖1 多粒度掃描結構圖Fig.1 Structure diagram of multi-granularity scan
級聯森林包含多個級層,每一級聯層中包含若干個普通和完全隨機森林,用于逐層處理數據特征。級聯森林的整體結構如圖2 所示。
在完全隨機森林中,決策樹隨機選擇一個特征在其分支節點上進行分割,直到每個節點僅包含相同的類;在普通隨機森林中,決策樹隨機選擇個特征進行分割(D 為輸入特征的數量),并計算信息增益值,選擇信息增益值最大的特征生長樹。 這樣,每個決策樹都輸出一個類向量形式的結果,隨后對隨機森林中所有決策樹的輸出類向量取均值,即為隨機森林的決策結果;最后,對同一級中所有森林決策結果取均值,取最大值對應的類別作為樣本在該級聯層的預測結果。
在圖2 中,多粒度掃描的輸出不僅作為級聯森林的輸入,而且會與級聯森林每層輸出拼接,構成增強特征作為下一級輸入。 這樣層層迭代,每當擴展一個級聯層, 輸入特征都經過k-折交叉驗證,在驗證集上進行診斷準確率評估,當分類準確率不再上升時,則停止訓練。 因此,級聯森林能夠根據數據集的大小自適應地確定模型層數,降低了人為調整參數的工作量。

圖2 級聯森林結構圖Fig.2 Structure diagram of cascade forest
當應用DF 算法解決故障診斷問題時, 直接將預測結果拼接多粒度掃描結果作為下一級的輸入,會造成特征向量冗余。 為此,本文提出了一種基于D-S 證據理論的改進方法。
1.3.1 D-S 證據理論
D-S 證據理論使用概率對各個命題發生的可能性進行度量,能夠處理不確定性問題[13-14]。 D-S 證據理論的識別框架中包含有限個基本命題,設同一識別框架下兩個獨立證據的基本概率分配函數分別為m1和m2,對應命題分別為{A1,A2,…,As}和{B1,B2,…,Br},利用Dempster 組合規則得到證據融合后新命題的基本概率分配函數[15],具體計算公式為

式中:A 為Ai和Bj融合后的新命題;m(A)表示命題A 的基本概率分配函數,為沖突系數,用來衡量不同證據對同一命題的相悖程度。
1.3.2 D-S 證據理論與級聯森林結合
本文基于D-S 證據理論對級聯森林改進,將每個森林視為獨立證據體,根據Dempster 組合規則得到證據融合后這一級聯層所有森林輸出的融合特征向量。 為了避免高沖突證據導致沖突系數為1 而無法計算概率問題,本文將隨機森林決策結果進行轉換得到各個命題的基本概率分配函數,具體計算公式如下:

式中:Ak表示情況類別;Mj(Ak)表示第j 個森林預測第k 類情況發生的基本概率分配函數;mj(Ak)表示第j 個森林預測第k 類情況發生的原始輸出概率;n為當前級聯層包含森林的總數。
通過上式獲得各類情況在當前級聯層的基本概率分配函數,然后根據公式(1)得到證據融合后的特征向量。 為了彌補特征融合可能帶來的信息缺失,隨機選擇一個森林決策結果與融合特征向量拼接,同時與多粒度掃描輸出拼接作為下一級層的輸入特征。 改進后的級聯森林結構如圖3所示。

圖3 改進后級聯森林結構圖Fig.3 Structure diagram of improved cascade forest
針對電動執行器監測數據含有噪聲擾動,無法直接作為DF 算法輸入的問題, 本文基于時頻域分析法提出一種特征提取方法。 信號時域信息指標分為有量綱和無量綱兩類,本文提取了數據集的7 種有量綱指標:方根幅值、均方幅值、均值、峭度、自相關系數、標準方差、變異系數;以及5 種無量綱指標:裕度、波形、脈沖、峰值和峭度。 具體計算公式如表1 所示。 此外,為了兼顧信號的頻域信息,采用文獻[16]提出的改進0 能量函數計算采樣數據能量和能量熵。 其中能量函數具體計算公式如下:

表1 信號時域指標含義Tab.1 Meaning of signal time domain index

式中:N 為信號的長度;p 為一個較小的正值,本文取0.02;xi為正值時,加上p,反之減去p。
能量熵計算公式如下:

綜上,本文提取了采樣數據的12 種時域特征和2 種頻域特征,為確保特征向量在相同范圍內,對每個特征進行歸一化處理,以構建原始特征向量。
基于DF 的電動執行器故障診斷流程主要包括離線訓練和在線故障診斷兩個流程, 如圖4 所示。具體步驟如下:

圖4 基于改進深度森林的故障診斷方法Fig.4 Framework of fault diagnosis method based on improved deep forest
步驟1電動執行器流量信號預處理。 首先對采集到的流量反饋信號進行時頻域指標計算和歸一化處理,再進行多粒度掃描得到高維特征向量;
步驟2離線訓練級聯森林。 將步驟1 獲得的高維特征輸入到級聯森林進行訓練,每擴展一個級聯層,都進行k-折交叉驗證,并計算準確度,當準確度滿足要求時停止訓練;
步驟3在線故障診斷。 將電動執行器實時監測的流量反饋信號經過步驟1 處理后輸入到完成訓練的級聯森林模型中獲得診斷結果。
本文所采集的電動執行器流量信號來自實驗室故障診斷試驗平臺,如圖5 所示。 本文基于試驗平臺模擬閥門阻塞、閥芯與閥桿脫開、閥座卡死和內部泄漏4 種典型故障,分別標記為F1,F2,F3,F4。通過改變故障注入時間、電動執行器初始閥位設定值、25 s 時閥位設定值進行不同工況下的電動執行器故障模擬試驗,共采集4 種故障和正常狀態在8 種工況下的執行器流量信號作為試驗數據,共計400 組,每類狀態包括80 個樣本,每個樣本長度為50000,工況設置情況如表2 所示。 截取部分數據如圖6 所示。

表2 不同工況描述Tab.2 Description of different working conditions

圖5 基于dSPACE 的電動執行器試驗平臺Fig.5 Electric actuator experiment platform based on dSPACE

圖6 故障模擬試驗數據Fig.6 Faults simulation experiment data
多粒度掃描中超參數對診斷模型影響較小。 根據經驗設置,具體如下:1 個普通隨機森林,1 個完全隨機森林,每個森林中決策樹數量為60,滑動窗口大小為4 和8。級聯森林中,為了平衡不同森林的分類結果, 設兩種森林及其包含決策樹個數一致,k-折交叉驗證設為4 折。 由于電動執行器數據集較小, 增加決策樹數量會造成診斷模型結構的冗余,因此將隨機森林中決策樹個數設為60。每種隨機森林的個數決定了DF 模型的整體復雜度, 相較于決策樹對模型更具影響,因此本文針對隨機森林數量展開研究。 森林個數從2 開始增加,為了避免偶然因素的干擾,每增加一次算法都運行20 次,取每次k-折交叉驗證結果的均值作為準確率,記錄每次算法運行時間,并在試驗結束時記錄其均值,試驗結果如表3 所示。
表3 表明,增加隨機森林個數能夠有效提高診斷準確率,但同時也會增加模型復雜度,導致訓練時間隨之遞增,并且當森林個數達到5 個以后,診斷準確度穩定在94.0%左右。因此,綜合模型診斷準確率和訓練時間因素,考慮降低運行內存消耗,將每種隨機森林個數設為5 個。

表3 隨機森林數量試驗結果Tab.3 Results of random forest number experiments
為了驗證本文提出的基于改進DF 的電動執行器故障診斷方法,使用3.1 節獲得的電動執行器多種工況下執行器流量信號進行診斷, 根據3.2 節確定的模型參數構建級聯森林。 故障診斷方法根據某次k-折交叉驗證結果整理出的混淆矩陣,如圖7 所示,可以看出本文方法在測試樣本集上的分類準確度為96.2%,整體診斷準確率較高。

圖7 故障診斷混淆矩陣Fig.7 Confusion matrix for fault diagnosis
為驗證所提方法的有效性,設計多個對比試驗方案:
方案1基于粒子群算法優化SVM 的故障診斷方法。粒子群算法用于SVM 的罰參數和核參數尋優,其范圍分別為[0.1,50]和[0.1,50],其它參數設置如下:迭代次數為200、粒子群大小為50、最大權重為0.9、最小權重為0.3、學習因子c1=c2=2。 輸入到SVM 中的數據是前文所述的時頻域特征。
方案2無改進的GcForest 算法。 其參數設置與3.2 節一致。
方案3基于一維卷積神經網絡的故障診斷方法。 模型整體結構按Lenet-5 網絡設置,卷積核大小設置為24,激活函數為ReLu,優化算法為Adam,學習率為0.001,迭代次數為100 次。
使用上述3 種對比方案進行試驗。 本文將準確率、精度、召回率和F1值4 個指標用于評價上述3個方案診斷準確性、誤判和漏判情況,結果如表4所示。

表4 不同診斷方法與本文方法性能對比Tab.4 Comparison of diagnosis performance between the other diagnosis methods and proposed method
從表4 可以看出,SVM 算法用時最短,但診斷能力最差,這與數據特征提取相關,說明通過多粒度掃描提取多級特征的必要性; 一維卷積神經網絡診斷效果較好但用時最長,這說明深度神經網絡在參數優化上耗時太長,而DF 所需數據集更小,參數魯棒性更好;未改進的GcForest 算法在評價指標和運行時間上的表現都不如本文模型,說明了D-S 證據理論克服級聯森林特征冗余缺陷的可行性。
本文提出一種改進深度森林算法,并將其應用于電動執行器故障診斷。 基于D-S 證據理論對級聯森林改進,克服了特征冗余問題,降低了運行成本。所提方法在多種工況下仍能保持一定診斷準確率,說明其具備較好的泛化能力;通過對比試驗表明所提方法具有評價指標良好、運行時間短、參數魯棒性高以及訓練數據需求小的優勢。