于達,王學慧
(解放軍理工大學,江蘇南京 210007)
基于人工智能的診斷方法已成為液壓系統故障診斷的重要方法之一[1]。GMM是一種非監督學習方法[2],其目標是發現輸入數據的族或分組,進行聚類,并以概率的形式表現出來。在用GMM方法建立挖掘機液壓系統故障檢測模型前,為了完整地獲得挖掘機液壓系統的運行狀態,通常采用多測點、多傳感器的采集方式,這就需要采用多元統計分析的方法來對多維測量數據進行分析處理,提取狀態特征[3]。PCA是多元統計分析中常用的多維數據分析方法,可以將高維數據投影到能夠準確表征原數據的低維空間中,在數據壓縮中有著廣泛的應用。傳統的PCA方法首先假定數據時序無關,而挖掘機的運行過程數據一般在時間上序列相關,這樣就使得傳統PCA方法所得到的主元不能真實地反應數據的動態特性。為解決該問題,Ku[4]等學者提出了 DPCA,用時滯數據增廣陣進行主元分析以獲取數據的動態聯系信息。
本文將動態PCA及GMM相結合,首先用動態PCA方法將多維數據壓縮至一維,分別建立訓練樣本集和檢驗樣本集,然后運用GMM方法建立挖掘機液壓系統的故障檢測模型。經過實驗檢驗,該方法對挖掘機液壓系統故障檢測是有效的。
挖掘機液壓系統由斗桿液壓回路、動臂液壓回路、鏟斗液壓回路、回轉液壓回路、行走液壓回路等多個子系統回路構成。這些子系統回路可以按液壓元件分解成為液壓泵模塊、多路閥模塊、執行機構模塊。將子系統回路分解成為液壓元件模塊,其結構具有相似性。賀湘宇[5]提出可以將挖掘機液壓系統故障檢測轉化為研究一個基本的液壓回路的故障檢測,然后推廣到各個子系統回路當中。本文亦采取這種策略,以斗桿液壓基本回路為研究對象進行故障檢測研究。挖掘機液壓系統基本回路結構圖如圖1所示。

圖1 挖掘機液壓系統基本回路結構圖
首先運用動態PCA方法將挖掘機液壓系統第i次運行時采集的多維數據降至一維數據x(i),進行m次實驗,獲得訓練樣本集{x(1),x(2),…,x(m)},同時用同樣的方法建立檢驗樣本集;其次運用GMM方法對訓練樣本集進行分析處理,建立挖掘機液壓系統故障檢測模型,用檢驗樣本集對模型進行檢驗,并對誤差進行分析,調整模型直到誤差控制在合理范圍內。
PCA方法可以將高維數據投影到能夠準確表征原數據的低維空間中,可以分析大量測量數據的相關性,并能提取重要的系統特征,使獲得的低維數據很好的反映原變量所提供的信息,通過對新變量的分析即可達到解決問題的目的。
從幾何角度上看,PCA是一種投影方法,目的是找到一個從原n維輸入空間到新的k(k<n)維空間的、具有最小信息損失的映射。映射如下式所示:

原先的數據投影到U上之后被廣泛的散布,使得樣本點之間的差別變得明顯,具有最大方差。向量預先進行過標準化處理,消除由于量綱不同帶來的影響。y(i)稱為得分向量,U稱為的負荷矩陣。負荷矩陣U由協方差矩陣A的前k個特征向量組成,這前k個特征向量稱為數據的主元,協方差矩陣A如下式所示:

其中:X={x(1),x(2),…,x(m)}是一個由n個過程變量m個采樣點組成的數據矩陣。
PCA方法能夠有效分析變量間的相關性問題,但是對于時序相關性卻無能為力,這就需要對觀測向量進行擴展。動態PCA方法在分析數據中引入了時滯數據增廣矩陣。對于動態系統,變量的當前值與過去值相關,因此采用時滯數據增廣矩陣X(s)進行分析,如下式所示:

其中s為時滯長度,X(t-s)為t-s時刻的n維變量矢量。傳統PCA方法是對矩陣X進行特征值分解,動態PCA則是對時滯增廣矩陣X(s)進行特征值分解。
時滯長度的確定方法有兩種,1)結合平行分析和得分的自相關互相關檢驗來確定時滯長度[4],2)按照動態系統辨識中的定階方法如AIC及BIC準側來確定系統階次[6]。
高斯混合模型(Gaussian mixture models,GMM)是一種“軟分配聚類”方法,它假設數據集是由一個潛在的混合概率分布產生的,而每個高斯分量表示一個不同的聚類。
對于包含k個高斯成分的GMM模型,觀測向量x的概率密度可以表示為下式[7]:


對于高斯混合分布,第i個分量g(x|θi)的多元高斯密度函數可由下式表示:

θi={μi,∑i}為第i個分量的參數集,即均值向量μi和協方差矩陣∑i。
EM算法就是根據已知的樣本序列(訓練樣本),估計出模型的混合權值、各個單高斯分布的均值矢量及協方差矩陣等參數,使GMM能最佳地表示樣本的分布概率。這一過程叫模型的訓練,用EM算法來完成。
對數似然函數定義如下式所示:



本文中的實驗平臺是湖南山河智能機械股份有限公司生產的SWE17E-ED型挖掘機,如圖2所示,工作裝置部分主要由大臂、斗桿、鏟斗、大臂油缸、斗桿油缸、鏟斗油缸以及連桿機構組成。
信號測量儀器為高性能壓力傳感器,測量范圍為0-600 Bar,輸出為4-20 mA的模擬電流信號,外形如圖3所示。


對于挖掘機液壓系統,壓力和流量信號中往往包含著豐富的故障信息,但考慮到實驗條件、以及以斗桿回路為檢測對象的策略,選取液壓泵出口壓力P1及斗桿回路進出口壓力P2,P3為信號變量。
通過CAN總線和壓力傳感器采集正常、活塞磨損、閥芯卡滯、閥芯泄漏等條件下的壓力信號作為原始數據。為了消除由于量綱不同帶來的影響,在使用動態PCA前一個公共的過程就是對原始數據進行預處理,使得每個維都有0均值和單位方差,過程如下所示:

根據故障檢測策略,選擇斗桿液壓基本回路為研究對象。由于斗桿在伸出和縮回時的狀況不同,因此選擇斗桿液壓缸縮回這一過程為研究對象,采集這一過程的信號變量。為了減少外部因素對實驗結果的可能干擾,需要將一些外部輸入變量值設定為常量[5],如下所示:
1)發動機的轉速設定為2 200 r/min。
2)動臂液壓缸及鏟斗液壓缸均伸出到極限位置,固定不變。
本文采取交叉驗證(cross validation)的方法,訓練樣本約占整個樣本的70%,檢驗樣本約占整個樣本的30%,訓練樣本用于訓練建立模型,檢驗樣本用于檢驗模型的正確性。訓練樣本及檢驗樣本的數目如表1所示:

表1 訓練樣本及檢驗樣本的數目
按照平行分析法,比較各個時滯條件下所反映的靜、動態關系的數目,選取時滯長度為2。其對應的增廣矩陣為:

本文的目的是建立挖掘機液壓系統故障檢測模型用以判斷挖掘機液壓系統是否處于正常狀態,而不對故障進行隔離,結果只有兩種,即正常與不正常,因此選取高斯成分數目為2。

圖4 故障檢測模型對訓練樣本及檢驗樣本的錯誤識別率
如表1所示,取不同數目的訓練樣本和檢驗樣本時,所建故障檢測模型對訓練樣本及檢驗樣本的錯誤識別率如圖4所示。隨著訓練樣本的增加,故障檢測模型對訓練樣本的錯誤識別率增加,而對檢驗樣本的錯誤識別率隨之減小。當訓練樣本達到800以上時,所建故障檢測模型對訓練樣本和檢驗樣本的錯誤識別率趨于不變,約為5%,對樣本的正確識別率達到95%以上。
在合理選擇訓練樣本數目的前提下,本文采用的基于動態PCA和GMM的方法對樣本的正確識別率達到95%以上,可以有效的用于挖掘機液壓系統故障檢測。
[1]金毅,項昌樂,馬越.車輛液壓系統遺傳神經網絡診斷技術研究[J].流體傳動與控制,2009(7):1-4.
[2]Ethem Alpaydin著,機器學習導論[M].范明,昝紅英,牛常勇,譯.北京:機械工業出版社,2009.6.
[3]何清波.多元統計分析在設備狀態監測診斷中的應用研究[D].杭州:浙江大學,2007.
[4]Wenfu Ku ,RobertH.Storer,Christos Georgakis.Disturbance detection and isolation by dynamic principalcomponent analysis[J].Chemometrics and Intelligent Laboratory Systems,1995,30(1):179-196.
[5]賀湘宇.挖掘機液壓系統故障診斷方法研究[D].長沙:中南大學,2008.
[6]Li W H,Oin S J.Consistent Dynamic PCA Based on Errors-invariables Subspace Identification[J].Journal of Process Control,2001,(11):661—678.
[7]許仙珍,謝磊,王樹青.基于GMM的多工況過程監測方法[J].計算機與應用化學,2010,27(1).