



摘 要:為進一步提高自來水設備過濾軸承故障檢測效率,本文將機器學習中的聚類算法應用于軸承故障診斷中,引入最大均值差異技術對故障數據進行預處理,并提出堆疊自動編碼器(SAE),從軸承的振動信號中學習和提取特征。試驗結果表明,當故障直徑為12mm~16mm時,故障識別準確率均>95%,最大識別準確率為99.56%。當故障直徑為16mm時,滾珠故障、內滾道故障和外滾道故障的識別準確率分別為98.02%、98.99%和99.56%,機器學習的平均識別精度為96.75%,隨機森林和蟻群算法的平均識別精度分別為89.75%和86%。
關鍵詞:機器學習;自來水設備;軸承故障
中圖分類號:TU 991" " " 文獻標志碼:A
在自來水設備中,軸承是一個關鍵的零部件,軸承的性能好壞直接影整個機械設備的使用壽命[1]。在自來水設備過濾軸承故障中,內外滾道故障是最常見的故障。故障通常發生在滾珠和滾道間。當滾動體滾道表面與其外徑間存在磨損時,會引起一系列振動[2]。因此,必須準確掌握自來水設備過濾軸承的運行狀態,及時維護受損部件。目前,工業生產中常用的軸承故障分析方法包括包絡譜分析、小波分析和經驗模態分解等[3]。王海泉等[4]采用幾何方法解決故障檢測和隔離問題,并驗證所提技術的實用性。但是該方法只適用于離散系統,因此無法廣泛推廣。隨著機器學習技術應用于機械故障診斷[5],該技術已經取得了較大進展。對自來水設備軸承故障診斷模型進行訓練和測試,可以進一步提高其診斷準確率和識別率。基于此,本文將機器學習中的聚類算法應用于軸承故障診斷,引入最大均值差異技術對故障數據進行預處理,并提出堆疊自動編碼器(SAE),從軸承的振動信號中學習和提取特征,同時利用故障識別準確率和精度評估軸承故障診斷效果。
1 機器學習模型建立
1.1 機器學習(聚類算法)模型建立
聚類分析是一種無監督學習算法,其目標是將數據空間劃分為若干個部分,使每個部分中的數據具有一定相似性,從而達到分類的目的。聚類分析可以從大量的數據中提取故障特征信息[6],不需要事先給定分類模式。聚類算法是一種反復迭代求解的聚類分析方法,也是一種無監督學習的聚類算法。無監督學習方法利用數據樣本相互間存在相似性與非相似性將數據集聚類,更注重分析數據集的特征。將聚類算法設定為2個初始聚類中心,分別取值為3和2,再處理剩余的數據,并對數據進行數據分割、重新定義中心、更新簇中心并計算簇類平均值。最后利用聚類結果進行故障診斷[7]。
假設聚類算法中心具有較高的局部密度,采用高斯函數方式來求解局部密度。自來水設備過濾軸承故障數據點i的局域密度ρi[8]如公式(1)所示。
(1)
式中:dij表示數據點i與數據點j間的距離;dc表示截止距離。
1.2 數據預處理
為避免數據采集過程中可能存在的誤差,當搭建自來水設備過濾軸承數據采集平臺時,需要將數據分為訓練集和測試集,并對數據進行預處理,以降低數據的復雜性。為減少訓練集數據量,可以選擇最小化的目標函數,以在一定程度上降低計算成本。另外還可以糾正一些不符合標準的數據,包括缺失值、重復值和不符合標準的特征等。例如,某自來水設備中的過濾軸承可能會出現故障,但是在故障數據中卻沒有該故障。對這種不符合標準的數據進行糾正,可以有效減少模型的訓練時間。其中,最簡單有效的方法是將所有缺失值補全。
當不同故障源域數據差異較大,并且過濾軸承在實際運行中出現的故障數據多、數據維度較高時,自來水設備過濾軸承故障目標域數據與不同源域數據間會存在不同程度的相關性。因此本文使用最大均值差異技術(MMD)計算故障目標域數據與源域數據間的相關性,并使故障數據降維,提高過濾軸承故障處理效率。目標域數據和源域數據間的最大均值差異(MMD)值越小,其相關性就越大。因此,MMD值越小的源域數據對目標域的影響越大,源域數據的權重也就越高。目標域與源域間的相關性由反演MMD值得到,如公式(2)所示,并利用公式(3)計算每個源域的權重。
(2)
(3)
式中:ri為目標域與源域間的相關性;xsi為源域數據;xt為目標域數據;K為源域的數量;wi為源域的權重。
選出權重較高的源域,并從源域中隨機抽取相同比例的樣本組成新的源域。假設有4個源域數據,分別為源域數據1、源域數據2、源域數據3和源域數據4。公式(2)和公式(3)用于計算目標域數據和4個源域數據間的權重。假設源域數據4的權重遠小于其他源域數據的權重,因此放棄源域數據4。然后隨機抽取源域數據1、源域數據2和源域數據3中三分之一的數據,組合成混合工況數據。將混合工況數據作為新的源域來訓練本文模型。新的源域數據有利于提取自來水設備過濾軸承故障的共同特征,增加故障數據多樣性。此外,當生成新的源域數據時,可以消除與目標域數據差異較大的源域,緩解不同源域間存在較大差異的問題,進一步提高自來水設備過濾軸承故障的識別準確率。
1.3 堆疊式自動編碼器(SAE)
堆疊式自動編碼器采用無監督訓練方法,可以自主學習數據特征,有效避免人工對故障數據進行分類的問題。堆疊式自動編碼器是由編碼器堆疊而成的神經網絡。該方法基于統計學原理,由自編碼器生成一組新的、無關的向量,并訓練這些向量,使其能夠從原始數據中學習到對原始數據更準確的表示。編碼器經過訓練和學習來調整網絡權重,最終使網絡輸出等于網絡輸入。SAE中所使用的損失函數是線性函數,在訓練過程中,需要使用學習率、學習速率、正則化因子和優化算法來更新模型參數。堆疊式自動編碼器網絡結構如圖1所示,原始數據從輸入層到隱藏層的傳輸過程稱為編碼,從隱藏層到輸出層的傳輸過程稱為解碼。
機器學習模型中的聚類算法對初始中心點十分敏感,如果初始中心點選取不當,會導致整個聚類結果不準確。因此需要控制隱藏層的神經元數量,進一步提高過濾軸承故障特征提取效率,從復雜的過濾軸承輸入信號中學習特征信息,并對原始數據進行有效壓縮。此時,隱藏層的神經元數量會少于輸入層的節點數量。高維原始數據在隱藏層中被壓縮,會進一步減輕編碼器學習原始數據特征的難度。還可以限制神經元數量,降低軸承故障數據維度。但是網絡在隱藏層能學習到的特征較少,在保證隱藏層特征多樣性的基礎上,本文引入稀疏約束的方法來改進堆疊式自動編碼器。其主要思想是限制神經元的活動,降低輸入數據的維度。基于機器學習模型的故障檢測步驟如下所示。1) 將原始信號導入機器學習算法(聚類算法)中,進行降噪處理和信號重構,再將重構后的信號輸入機器學習模型中進行特征提取。2) 利用機器學習模型預測自來水設備過濾軸承故障原始信號,并引入堆疊式自動編碼器,得到故障特征值。3) 利用機器學習模型對故障特征值進行訓練,將訓練好的網絡用于過濾軸承的故障診斷。4) 分別測試測試集和診斷集,測試集包括10個不同工況的樣本,每個工況樣本有4個不同的故障樣本。5) 比較不同模型的故障識別性能,選擇合適的聚類算法參數。6) 通過多次試驗確定聚類算法模型參數。
2 結果與討論
2.1 試驗環境設定
本文數據來自自來水設備過濾軸承數據集。由電機、扭矩傳感器和功率測試儀進行數據采集。電機負載為0?kW~3?kW,電機轉速為1797r/min~1730r/min。過濾軸承振動信號包括正常數據、驅動端加速度數據和基礎數據。本文僅采集驅動端故障數據并對其進行分析,采樣頻率為12kHz。針對內滾道、外滾道和滾動體引入4種不同的故障直徑,故障直徑分別為10mm、12mm、14mm和16mm。過濾軸承可分為3種故障工況狀態,即內滾道故障、滾珠故障和外滾道故障。計算機運行環境配置如下:Intel Core i7-10700 CPU,頻率為2.9GHz,RAM為16G,64位Windows10操作系統。自來水設備過濾軸承故障數據采集平臺開發采用Python語言。
2.2 故障準確率變化
為進一步驗證機器學習模型在電機故障診斷中的有效性,本文將自動編碼器獲得的數據特性發送到softmax分類器進行訓練,得到電機軸承的故障類型輸出。進而對不同故障工況進行仿真分析,對于每種類型的故障工況,均選擇1000組數據作為訓練集,200組數據作為測試集。基于機器學習的軸承故障識別準確率如圖2所示。
由圖2可知,當故障直徑為10mm時,內滾道故障的準確率識別較低,準確率僅為89.56%,比滾珠故障、外滾道故障分別下降7.40%、7.24%。主要原因是內滾道發生的故障直徑較小,因此故障特征較小,并且內滾道在自來水設備過濾軸承的內部,故障檢測難度較大,因此內滾道的故障識別準確率較低。隨著故障直徑增加,機器學習模型可以識別更多的故障特征,并利用最大均值差異技術緩解不同源域間存在較大差異的問題,提高自來水設備過濾軸承故障的識別準確率。當故障直徑為12mm~16mm時,故障識別準確率均>95%,最大識別準確率為99.56%,說明聚類算法在收斂速度和準確率方面均具有良好效果。當故障直徑為16mm時,滾珠故障、內滾道故障和外滾道故障的識別準確率分別為98.02%、98.99%和99.56%。在故障直徑相同的條件下,滾珠故障的識別準確率高于內滾道故障與外滾道故障。主要原因是當滾珠發生故障時,其特征較明顯,因此識別準確率較高。試驗結果表明,本文構建的機器學習模型具有較高的自來水設備過濾軸承故障識別能力。使用該算法對自來水設備過濾軸承進行故障診斷是可行、有效的,能夠提高設備運行效率,并降低成本。
2.3 故障識別精度對比變化
機器學習模型具有較好的識別準確率,可準確識別內滾道故障、滾珠故障和外滾道故障。為進一步探究機器學習模型的檢測精度,本節將機器學習、蟻群算法和隨機森林算法的故障檢測精度進行比較,如圖3所示。從圖3可以看出,機器學習的平均識別精度為96.75%,隨機森林和蟻群算法分別為89.75%和86%。在內滾道發生故障的情況下,機器學習的識別精度為95%,蟻群算法和隨機森林分別為86%和92%。而當滾珠發生故障時,3個算法模型的識別精度均為91%以上,進一步表明滾珠的故障特征較明顯,因此3種算法的識別精度均較高。當外滾道發生故障時,機器學習的識別精度為97%,比蟻群算法和隨機森林方法分別提高15.46%和8.25%,蟻群算法和隨機森林算法的識別精度低于87%,無法對自來水設備過濾軸承故障進行高效監控。主要原因是機器學習能夠利用自編碼器生成一組新的、無關的向量,并訓練這些向量,使其能夠從原始數據中學習到對原始數據更準確的表示。因此,機器學習模型中的聚類算法可用于自來水設備過濾軸承的故障診斷,滿足實際設備檢測需求。在上述試驗中,根據本文提出的故障診斷方法能夠對過濾軸承故障進行有效識別,其識別精度為97.84%。在實際應用中,由于時間、人力和精力有限等問題,一般很難準確識別過濾軸承所有狀態下的故障,本文所提方法可以在一定程度上減少人工干預,使自來水設備過濾軸承故障診斷結果更客觀、準確。而且經過訓練學習后的機器學習模型也可以直接應用于其他類型的設備故障診斷中。
3 結論
在相同故障直徑條件下,滾珠故障的識別準確率高于內滾道故障和外滾道故障。機器學習模型具有較好的識別準確率,可準確識別內滾道故障、滾珠故障和外滾道故障,其識別精度遠高于蟻群算法和隨機森林算法,蟻群算法和隨機森林算法無法對自來水設備過濾軸承故障進行高效監控。因此,機器學習模型能夠用于自來水設備過濾軸承的故障診斷,并滿足實際設備檢測需求。
參考文獻
[1]甄冬,孫赫明,馮國金,等.基于包絡譜語義構建的零樣本滾動軸承復合故障診斷方法[J].振動與沖擊,2024,43(14):189-200,283.
[2]劉敏,程軍圣,謝小平,等.基于改進的辛周期模態分解的滾動軸承復合故障診斷方法[J].振動與沖擊,2024,43(14):47-56.
[3]瞿紅春,韓松鈺,賈柏誼,等.基于GADF融合RDSAN的跨工況軸承故障診斷[J].組合機床與自動化加工技術,2024(7):182-187.
[4]王海泉,王亞輝,楊岳毅,等.樣本不均衡情況下的航空發動機軸承故障診斷方法[J].鄭州航空工業管理學院學報,2024,42(4):5-11.
[5]彭國良,鄭近德,潘海洋,等.集成全息希爾伯特譜分析及其在滾動軸承故障診斷中的應用[J].振動與沖擊,2024,43(13):98-105,125.
[6]胡文浩,吳金龍,董建林.基于混合域特征優選的電機軸承故障診斷[J].機械工程與自動化,2024(4):32-35.
[7]甄冬,孫赫明,馮國金,等.基于包絡譜語義構建的零樣本滾動軸承復合故障診斷方法[J].振動與沖擊,2024,43(14):189-200,283.
[8]劉敏,程軍圣,謝小平,等.基于改進的辛周期模態分解的滾動軸承復合故障診斷方法[J].振動與沖擊,2024,43(14):47-56.