劉敬東
(赤峰市平煤投資公司,內蒙古 赤峰 024000)
診斷機械故障時由于采集到的監測數據大都包含較多噪聲在內的非線性分布的高維數據,導致經降維處理后的數據給原有高維觀測數據幾何結構造成影響。因此有必要在ISOMAP算法基礎上,將采集到的機械故障數據轉移到特征空間提取和選擇故障特征,進而識別不同故障類型。
經典ISOMAP算法無法進行監督和學習,尤其在數據降維處理過程中,不能有效利用故障類型這一重要參數進行計算,因此很多專家紛紛展開研究,其中較具代表性的為Vlachos等人提出的加權ISOMAP算法。該算法對經典ISOMAP算法進行了改進,在確定任意不同數據點歐拉距離時,將影響數據點的樣本標簽考慮進去,即在傳統計算歐式距離時引入一個權值因子η,如兩個數據點具備相同的樣本標簽滿足η<1,表示歐式距離減小,相同類的數據點類內距離也隨之減小;如兩個數據點樣本標簽有差別則η>1,歐式距離增大,不同類別的數據點類間距增大。很顯然,該種算法中權值因子的作用在于調節歐式距離,從而進行有效的分類。不過該種算法中的權值因子會給分類結果帶來較大影響,而且在選擇合適的權值因子上也存在較大難度。
有關專家經過研究提出了ISOMAP算法,能夠對數據進行有效的分類。將高維觀測空間數據記錄為(xi,yi),并且xi∈RD,其中yi為xi的標簽值。則隨意選擇兩個數據點A(xi、yi)、B(xj,yj),則兩個數據點相似度可用下列公式表示:

上式中的d(xi,xj)表示兩個數據間的歐式距離,調節因子為α、β。
d(xi,xj)處在指數位置上,如果兩個數據點之間的歐式距離過大,此時調節因子β會發揮作用,阻止兩個數據點相似度過快的增加。所以選擇條件因子β值時,應綜合分析數據點的分布情況。一般而言將各個數據點間的歐式距離求和平均后即可當做β值,計算公式如下:

而調節因子α主要負責調整類別不同的數據點之間的相似度。為了更清楚的理解調節因子α發揮的作用,研究時可以忽略調節因子α,則不同類別數據點間的相似度,可有下列公式確定:

繪制D’(xi,xj)跟隨d2(xi,xj)/β變化曲線,認真分析曲線走勢可知,如果兩個數據點具備不同的標簽且無調節因子α,則兩個數據點相似度至少為1。如兩個數據點具有相同的標簽,則相似度值會小于1。利用該種處理方法類間距離會增大,而類內間距縮小,對分類有著積極的作用。不過當類間間距非常大時,往往導致輸入數據鄰域圖出現短路邊或空洞,導致鄰接圖無法統一,使經典ISOMAP非線性數據不能成功降維。因此很有必要將α調節因子引入進來適當調節類間間距,不僅能夠進行準確分類,又能防止鄰域圖出現間斷。另外,分析知調節因子α最小值不能小于0,而且取最大值時應保證曲線相切。在實際應用時通常將α的值控制在[0.38,0.65]范圍內,一般取0.5。
計算數據點間相似度時,將標簽信息考慮在內,對非線性數據分類比較適合,其優勢主要體現在以下幾方面:
首先,任意選取兩個數據點其間的歐式距離均相等,且不同類數據點間的相似度就會大于同類數據點間的相似度,進而有助于相似度的分類;其次,類別不同的數據點間的相似度至少為1-α,則同類數據點間的相似度必然小于1,此時無論獲得的機械故障含有多少噪聲,均可在調節因子α的作用下保持在一定范圍內,所以從這個層面分析有監督的相似度矩陣的魯棒性和抗噪性性能較強;最后,對相似度變化情況進行監督,能夠剔除噪聲。
通過分析我們對有監督的相似度矩陣優勢有個充分的了解,將這種優勢引入到經典ISOMAP算法中,并結合LMDS算法,最終形成SL-ISOMAP算法。利用該算法對機械故障類型進行分類,其步驟如下:
首先,計算出任意兩個數據點間的歐式距離矩陣d(xi,ji),并在遵守K-臨近原則基礎上,繪制鄰域圖。同時將數據點的標簽信息考慮進來,利用公式1計算出有監督的相似度矩陣D(xi,ji);其次,利用Dijkstra算法計算出位于臨域圖上任意兩點的最小路徑dG(i,j),對流行M上的測地距離dM(i,j)進行逼近。然后利用LMDS算法降維測地距離矩陣,進而獲得降維后的數據矩陣;最后,利用支持向量機方法分類降維后的數據,并將其分為測試和訓練樣本集,并在此技術上訓練和學習模型,分類測試測試集獲得相關圖示和分類正確率。
大型機械設備故障診斷信號數據具備數據量大、隨機性強、維數高等特點,因此如將高維空間的流行轉化至低維空間能夠減小計算繁瑣程度,本文探討的SL-ISOMAP算法,在提高故障診斷效率上具有重要參考價值。
[1]尹煥.基于ISOMAP的機械故障診斷方法研究與應用[D].華南理工大學2012.
[2]黎敏,陽建宏,徐金梧,楊德斌.基于高維空間流形變化的設備狀態趨勢分析方法[J].機械工程學報.2009(02).