王振亞,劉 韜,王廷軒,楊永燦
(昆明理工大學機電工程學院,云南 昆明 650500)
軸承在各類制造業中應用廣泛[1]。工程環境中因機械裝備部件故障失效時間短、數據難以獲取,以及不同工況和應用場景差異等原因,往往造成監測數據的不平衡問題。訓練一個新的模型又會依賴大量數據和時間,不利于不同工況下故障診斷的推廣[2]。數據不平衡問題會嚴重影響設備的故障診斷率,導致機械裝備無法正常工作,嚴重者甚至損毀設備,嚴重影響生產效率,造成很大的經濟損失。
目前,針對數據不平衡問題,國內外學者提出了不同種類的解決方法[3]。基于生成對抗式網絡、遷移學習、對抗遷移等機器學習的數據增強模型層出不窮,但存在訓練不穩定、干擾因素大、耗費時間、在實際工程中難以應用等問題;EML、SVM、CNN等處理不平衡數據的模式識別方法存在尋找穩定性弱、參數選擇困難、在故障樣本較少情況下難以應用的問題;過采樣和欠采樣技術因計算速度快、應用范圍廣等優點,仍是實際工程中應用最為廣泛的處理手段[4-5]。隨機過采樣(random oversampling,RAMO)是通過隨機選取少數類樣本進行復制從而達到數據量上的均衡,但是該方法沒有考慮到數據的分布,非常容易形成過擬合;隨機欠采樣(random underdamping,RAMU)是通過隨機選取多數類的樣本進行刪除進而達到數據集的均衡,但是該方式很容易刪除掉含有重要信息的樣本點。Chawla等[6]提出了一種合成少數類過采樣技術(synthetic minority oversampling technique,SMOTE),用來解決隨機過采樣存在過擬合的問題;Tomek’s Links是對數據集進行數據清洗的一種關鍵性技術,用來清洗因為過采樣而產生的噪聲數據以及數據重疊、堆集的情況[7]。提高不平衡數據的分類準確率是當前機器學習領域研究的熱點之一[8]。
本文在軸承故障模擬實驗中,運用了過采樣與欠采樣結合的數據處理技術。首先,對少數類樣本使用高斯混合模型聚類算法進行聚類;其次,根據簇密度分布函數計算簇密度;最后,在每個簇中使用改進的 SMOTE 算法進行過采樣,同時使用Tomek’s Links數據清洗技術進行類內清洗,達到類內平衡;得到類內平衡數據后再使用GMM-SMOTE算法進行過采樣,同時運用Tomek’s Links數據清洗技術進行類間的清洗,得到不平衡技術處理好的新的樣本訓練集。運用主成分分析法(PCA)對所選特征進行降維處理,并結合文中提出的技術路線生成數據。實驗結果表明,提出的方法對軸承故障數據不平衡條件下的數據生成和診斷具有較好的魯棒性,該方法具有較好的工程應用前景。
為了提高少數類樣本的生成質量,在下文所述理論的基礎上提出了GMM-SMOTE算法。
1.1.1 SMOTE算法
合成少數類過采樣技術SMOTE[6],是基于隨機過采樣算法的一種改進方案。由于隨機過采樣采取簡單復制樣本的策略來增加少數類樣本,這樣容易產生模型過擬合的問題,即使得模型學習到的信息過于特別而不夠泛化,而SMOTE算法的基本思想是對少數類樣本進行分析,并根據少數類樣本人工合成新樣本添加到數據集中。
SMOTE算法流程如下:
a.對于少數類中每1個樣本x,以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離,得到其k近鄰。
b.根據樣本不平衡比例設置1個采樣比例以確定采樣倍率N,對于每1個少數類樣本x,從其k近鄰中隨機選擇若干個樣本。
c.對于x的每1個隨機選出的近鄰樣本xj,分別與原樣本按照式(1)構建新的樣本。
xnew=x+rand(0,1)(xj-x)
(1)
x為原始不平衡故障數據樣本集;xj為x的第j個鄰近樣本,j=0,…,N;xnew為過采樣后新的樣本集;rand為0到1之間的1個隨機數。將新生成的樣本集與不平衡數據集組合,生成平衡后的數據集。
1.1.2 高斯混合聚類模型
混合模型是一個可以用來表示在總體分布中含K個子分布的概率模型,換句話說,混合模型表示了觀測數據在總體中的概率分布,它是一個由K個子分布組成的混合分布。混合模型不要求觀測數據提供關于子分布的信息,來計算觀測數據在總體分布中的概率[9]。
a.高斯分布(多元)。對于n維樣本空間χ中的隨機向量x,若x服從高斯分布,其概率密度函數為
(2)
μ為n維均值向量;Σ為n×n的協方差矩陣。根據式(2)能夠清晰直觀地了解到,高斯分布主要取決于2個因素:一是均值向量,二是協方差矩陣。
b.高斯混合分布為
(3)

c.高斯混合聚類。高斯混合聚類是首先假設樣本集具有一些規律,包括以參數α作為比例分為k類,且每類內符合高斯分布。然后根據貝葉斯原理利用極大似然法同時求出決定分類比例的α和決定類內高斯分布的μ和Σ。最后將樣本根據α、μ和Σ再次通過貝葉斯原理求出樣本對應的分布簇。通過找到可以刻畫樣本的原型(α、μ和Σ參數),迭代得到α、μ和Σ參數的最優解。
1.1.3 GMM-SMOTE
GMM-SMOTE 算法流程如圖1所示,主要包括3個步驟:高斯混合模型聚類;計算簇密度分布函數;根據簇密度分布函數確定采樣權重。

圖1 GMM-SMOTE算法流程
a.對于不平衡的少數類數據進行高斯混合模型聚類,得到簇劃分。
b.根據式(4)計算簇的密度分布函數,得到不同簇所對應采樣權重。原始少數類樣本經過高斯混合模型聚類之后,得到不同簇,為了解決類內不平衡的問題,對于每個聚類簇,簇密度分布函數如式(4)所示,即為簇中所包含樣本點的個數與其他所包含樣本點構成的超球體體積的比例型函數[10]。
(4)
NCi為簇中樣本點的個數;vol(S(ri))為簇中樣本點構成的超球體體積;ri為簇中離質心最遠的樣本點到質心的歐氏距離;Ci為第i個簇。簇密度分布函數值越大,代表簇中的數據分布越密集。
c.根據步驟b得到的采樣權重對不同簇進行SMOTE過采樣,解決少數類樣本簇內不平衡問題。
Tomek’s Links是對數據集進行數據清洗的一種關鍵性技術,可以用來清洗因為過采樣而產生的噪聲數據以及數據重疊、堆集的情況[7]。
樣本A與樣本B為2個不同的類別,當滿足不存在其他樣本C使得d(A,C) 圖2 Tomek’s Link原理示意 本文著重探索不平衡技術在軸承故障中應用,即用少量數據訓練出一個能夠診斷多種故障類型模型研究。主要的技術路線可以分為數據預處理模塊與不平衡技術應用模塊。 本次實驗選擇UT6818的機械振動故障模擬實驗臺,如圖3所示。利用模擬故障實驗,采集故障類型為正常、外圈故障、內圈故障和滾動體故障4種信號(轉速為600 r/min,采樣頻率為25.6 kHz)。 圖3 故障模擬實驗臺 數據預處理模塊對采集的信號進行特征提取、PCA特征降維,確定最終的不平衡數據集。 a.故障模擬實驗臺數據特征提取。為使不同類型的數據可以更好地代表各自的故障信息,將故障模擬實驗臺實驗采集到的1×256 000的每組信號分為250×1 024的大小用于特征提取,在每1 024個點中提取時頻域共11個特征指標,分別為有效值、標準差、裕度、峭度、峭度因子、能量、峰值指標、波形因子、脈沖因子、峰值系數和裕度因子。 經過特征提取后將變成大小為250×11的特征數據矩陣。 b.PCA特征約減。提取特征兩兩之間交互,通過繪制的特征提取散點圖發現部分特征混淆,為提高數據處理速度,用主成分分析法對提取的11個特征進行特征約減處理,選擇累計主元貢獻率為98%的4個主成分[11]。經過PCA約減后保留的4個主成分貢獻率如表1所示。 表1 主成分貢獻率情況 c.不平衡數據集的構造。采集信號經過特征提取與PCA特征約減后,各工況的數據大小為250×4;選取故障類型為正常、外圈和滾動體故障160組,故障類型為內圈故障的20組作為少數樣本,建立初始不平衡數據集。4種工況選取剩余的90組作為測試集。數據集的樣本不平衡率為12.5%(不平衡率的計算為少數類數據20組與正常數量160組的比值)。不平衡數據集的情況如表2所示。 表2 不平衡數據集情況 故障模擬實驗臺采集的信號經過數據預處理模塊后,將2種少數類樣本(內圈和滾動體故障)通過該模塊生成為充足數量樣本。本模塊為研究重點,不平衡技術模塊的流程如圖4所示。 圖4 不平衡技術處理訓練集模塊 具體步驟如下: a.少數類高斯混合模型聚類進行簇劃分,得到每個樣本所對應的簇。 b.計算簇密度分布函數確定每個簇的采樣權重,根據采樣權重對每個簇進行GMM-SMOTE過采樣,形成類內平衡的數據集。 c.根據初始不平衡率確定少數類與多數類的過采樣倍率N,使用GMM-SMOTE進行過采樣后,使用Tomek’s Links進行數據清洗,直至不再清洗掉生成樣本為止,生成最終的訓練集。若2種特征邊界清晰,并不存在任何1組Tomek’s Links,則直接按照N生成,不會進行Tomek’s Links數據清洗。 d.將步驟c中生成的故障樣本與其他3種正常數量的樣本組成訓練集,并送入SVM模型中訓練,剩余的90組作為測試集進行算法驗證。 采用數據預處理-不平衡技術的處理后,將平衡后的數據送入SVM模型[12]中進行故障診斷,并對實驗結果進行規范合理、全面細致的檢驗。 a.根據傳統為二分類問題混淆矩陣,建立軸承故障診斷中的多分類問題混淆矩陣。 分類的混淆矩陣如表3所示。TN、TI、TO、TR為各種工況被正確分類的樣本;FIN為內圈故障工況被誤判為正常工況的樣本;FNI為正常工況被誤判為內圈故障工況的樣本。此混淆矩陣的信息以此類推。 表3 多分類混淆矩陣 通過查準率(precision)、G-mean和正確率(accuracy)等指標客觀準確地評估診斷性能。其中,查準率表示為正常狀態的查準率;G-mean為少數類分類精度與多數類分類精度的集合平均值,可以用來衡量數據集的整體性能;正確率則是支持向量機模型(SVM)的整體分類準確率。 b.費舍爾(Fisher)準則。費舍爾(Fisher)準則中,判別函數的系數是按照類內差異最小和類間差異最大同時兼顧的原則,來確定判別函數[13]。使用分散度作為標準偏差的度量,類內離散度矩陣Si如式(5)所示,總類內離散度矩陣Sw如式(6)所示,類間分散度矩陣SB如式(7)所示,其中mi為各類樣本的均值向量。 (5) Sw=S1+S2 (6) SB=(m1-m2)(m1-m2)T (7) 通過Fisher準則,計算算法改進前后的類內距離以及不同工況下的類間距離,可以有效地說明算法改進前后生成數據的變化。此評價標準對實驗結果分析非常適用。 故障模擬實驗臺數據經過技術路線處理后, 根據不平衡率確定過采樣倍數N,利用初始過采樣倍數N=4進行過采樣,同時經過Tomek’s Links進行清洗,算法最終生成的樣本個數(內圈故障)與Tomek’s Links清洗后保留的情況如圖5所示。可以看出,最終生成的內圈故障樣本為162個。當再次過采樣時則生成648個樣本,Tomek’s Links不再清除樣本。 圖5 算法樣本生成情況 將算法生成的162個內圈故障樣本與其他3種正常數量為160組的故障樣本構成最終的訓練集,送入支持向量機模型中進行訓練,并用4種工況剩余的90組作為測試集進行驗證,算法分類效果驗證如圖6所示。其中,標簽0、1、2、3對應軸承的正常工況、外圈故障、內圈故障、滾動體故障4種故障類型。 由圖6可知,SVM的分類準確率為98.28%,經過算法生成的故障樣本訓練后在分類器上具有良好的分類效果。 圖6 SVM算法分類效果驗證 改進后的算法與原始SMOTE算法的各個指標之間的對比如表4所示。通過表4可以看出,改進后的算法在G-mean值上由原來的89.16%提升到98.12%,提升了8.96%;SVM的分類準確率由90.01%提升到98.28%,提升了8.27%。評價指標的明顯提升,充分說明了改進后的算法生成的故障樣本具有更好的分類效果。 表4 算法改進前后指標變化 為了驗證算法生成數據的有效性,得到更多算法改進前后類內類間的變化關系。根據Fisher準則,分別計算算法改進前后生成數據的類內間距和改進前后的不同類的類外間距,類內間距的變化如表5所示,不同類的類外間距如表6所示。 表5 算法改進前后類內間距(標準歐式距離)對比 表6 算法改進前后類外間距(標準歐氏距離)對比 通過改進前后的類內類間的間距,可以看出算法生成的數據各個特征之間類內間距下降,類外間距特征之間距離變大。改進后算法生成的數據具有更好的可分性。 本文利用模擬實驗臺數據,創建不平衡數據集并進行提出的技術路線處理后,得到生成得到故障樣本數據,結合SVM模型進行故障診斷,可以得到以下結論: a.改進的SMOTE算法與Tomek’s Links數據清洗技術結合后的技術路線具有良好的數據生成效果,比原始SMOTE算法在分類準確率上提升了8.27%,特征的類內類間距也有較好的可分性,可以明顯提高分類器的分類性能。 b.數據預處理-不平衡技術在設備數據不平衡條件下進行故障診斷取得了較好的診斷率,具有一定的實際工程應用性。
2 基于數據預處理-不平衡技術處理的故障診斷方法
2.1 數據處理模塊



2.2 不平衡技術應用模塊

3 實驗結果分析
3.1 評價指標

3.2 結果分析





4 結束語