王喆 徐曦 張畢生 黃曉瑋 胡萬里



摘? 要:汽車零部件的齒輪裝配過程中往往伴隨著多種類型的故障,快速且精準地判斷故障類型,對保證齒輪裝配工位穩定運行具有重要意義。因此,提出一種基于SMOTE采樣方法和隨機森林(RF)分類方法的故障診斷模型——SMOTE-RF。首先,在實際齒輪裝配過程中,故障數據是不平衡的,可以使用SMOTE算法生成平衡的故障數據;其次,將平衡后的數據作為隨機森林算法的輸入實現故障分類;最后,對模型進行性能評估。實驗結果表明,SMOTE-RF模型的分類效果優于SVM和XGBoost。
關鍵詞:故障診斷;不平衡數據;SMOTE算法;隨機森林
中圖分類號:TP391.4;TP181 文獻標識碼:A 文章編號:2096-4706(2023)06-0139-05
Fault Diagnosis Method of Gear Assembly under Imbalanced Data Set
WANG Zhe1,2, XU Xi1,2, ZHANG Bisheng3, HUANG Xiaowei3, HU Wanli4
(1.School of Computer Science, Hunan University of Technology, Zhuzhou? 412007, China; 2.Key Laboratory of Intelligent Information Perception and Processing Technology of Hunan Province, Hunan University of Technology, Zhuzhou? 412007, China; 3.Bosch Automotive Products (Changsha) Co., Ltd, Changsha? 410100, China; 4.Changsha Robot Technology Co., Ltd., Changsha? 410100, China)
Abstract: The gear assembly process of automobile parts is often accompanied by various types of faults. It is of great significance to quickly and accurately determine the fault type to ensure the stable operation of the gear assembly station. Therefore, a fault diagnosis model based on SMOTE sampling method and Random Forest (RF) classification method, SMOTE-RF, is proposed. Firstly, in the actual gear assembly process, the fault data is unbalanced, and the SMOTE algorithm can be used to generate balanced fault data. Secondly, the balanced data is used as the input of Random Forest algorithm to realize fault classification. Finally, the performance of the model is evaluated. The experimental results show that the classification effect of SMOTE-RF model is better than that of SVM and XGBoost.
Keywords: fault diagnosis; imbalanced data; SMOTE algorithm; Random Forest
0? 引? 言
裝配是將各種零部件按照一定順序組合在一起以實現產品預定的功能,它不僅是制造過程中的最后一個環節,還是保證產品質量的重要一環,所以確保產品裝配過程中的可靠性、持續性是提高產品質量的有效方法之一[1]。在汽車裝配線中,零部件的裝配是一個很重要的過程,而齒輪裝配正是汽車零部件裝配的重要組成部分之一[2]。在齒輪裝配的過程中,難免會發生異常或故障,如果不能迅速正確地處理好這些故障問題,不僅影響產線的生產,還可能造成嚴重的安全事故。因此為了保證齒輪裝配能夠安全、有效地運行,對其進行故障檢測與診斷是很有必要的。
故障診斷在尋找設備監測數據和設備健康狀態之間的關系時尤為重要。傳統上,這種關系是由經驗豐富的工程師用專業知識來把握的[3]。例如目前長沙某汽車零部件公司的IPB產線中的齒輪裝配工位在裝配過程中發生故障后,需要相關專家根據設備的壓裝曲線圖進行分析,判斷故障類型。然而,在工程場景中,更需要有一種自動化的方法能夠在提高診斷準確率的前提下,盡可能縮短診斷時間。同時,隨著5G技術及AIoT解決方案在該公司的不斷落地,數字化轉型的推進進一步深入,建立基于實時數據鏡像映射的工業數字孿生被提上日程,而齒輪裝配工位的故障診斷正是其中的重要組成部分之一。因此,通過分析歷史故障數據信息,采用有監督學習方法將其相關屬性與故障類型標簽進行映射,以實現故障類型的識別,可有效提高故障診斷的效率,對齒輪裝配穩定運行具有重要意義。
隨著機器學習的快速發展,在智能故障診斷領域中多類別的故障分類技術是非常重要的研究方向之一,目前主流的分類方法包括支持向量機(Support Vector machine, SVM)[4]、決策和回歸樹(Classification and Regression Tree, CART)[5]以及神經網絡[6]等。在大數據樣本下,單個分類器的性能已經難以達到分類精度需求,所以需要將多個分類器組合在一起,集成分類器擁有更高的準確率。隨機森林(Random Forest, RF)[7]是一種有監督的集成學習算法,它是由Leo Breiman等在2001年提出的一種機器學習方法。該算法具備分類性能好、不易過擬合、訓練效率高等優點,因此常常應用于故障診斷領域,如徐佳慶提出的對高性能互連網絡阻塞故障檢測方法[8]。
此外,在齒輪裝配過程中不同故障出現的頻率相差很大,會出現部分故障樣本過少的情況,導致在進行故障分類時,分類模型無法準確識別出故障樣本過少的故障類別,反而對多數樣本類型過于敏感,使得分類模型泛化能力較差。因此,在訓練分類模型之前需要解決樣本不平衡的問題。通常我們會對原始數據集進行重采樣,分為過采樣、欠采樣和混合采樣[9]。合成少數類過采樣(Synthetic Minority Oversampling, SMOTE)是Chawla等[10]在2002年提出的,該算法是基于K-最近鄰算法(K-Nearest-Neighbors, KNN)[11]在鄰近樣本中隨機插值,在不平衡問題中常常采用SMOTE對少數類樣本過采樣來平衡數據集。
本文針對齒輪裝配過程中不同故障類型樣本數據不平衡的問題,提出了首先利用SMOTE算法對不平衡的原始數據集進行處理生成新的均衡數據集,然后將均衡數據集放入隨機森林模型進行訓練,構建SMOTE與隨機森林結合的算法模型,即SMOTE-RF模型。最后為了避免在對模型性能評估時偏向于多數類,使用綜合考慮所有類別各自的召回率和準確率的評估指標來對分類模型進行評價。結果表明SMOTE-RF模型的分類效果優于不進行平衡處理的模型,同時也驗證了在分類效果方面,相較于SVM和XGBoost,隨機森林的分類效果更優。
1? 基于SMOTE-RF的故障診斷
1.1? SMOTE算法
SMOTE算法的基本思想是通過少量樣本與其相鄰樣本之間的隨機線性內插來獲得新樣本。SMOTE算法為少數類中的每個樣本搜索其最近的相鄰樣本。通過合成一定數量的人工少數樣本使類別分布平衡,降低過擬合的可能性,從而提高不平衡數據集的分類效果,并且提高分類器的泛化性能。SMOTE的具體過程如下:
Step1:對于每個少數類樣本xi (i=1, 2,…, n),按照一定的規則計算其與少數樣本中其他樣本的距離,得到其k個最近鄰域。
Step2:根據過采樣放大倍數,選擇每個樣本x的隨機m個最近鄰作為k個最近鄰集合的子集,記為xij ( j=1, 2,…, m),然后用式(1)計算人工構造的少數樣本pij:
pij=xi+rand(0, 1)×(xij-xi), i=1, 2,…, N? ? ? ? ?(1)
其中,rand(0, 1)是在[0, 1]范圍內均勻分布的隨機數。直到新生成的少數類數據與多數類數據達到一定的不平衡比才停止式(1)的運算。
1.2? 隨機森林算法
隨著機器學習領域的快速發展,隨機森林因其高容錯性和強分類性能而得到廣泛應用。傳統的隨機森林算法被用來處理平衡數據集,但在實際問題中,不平衡數據集更為常見。隨機森林是由多棵相互之間獨立的決策樹組合在一起的一種袋裝集成學習算法。隨機森林中的每一顆決策樹都是通過Boostrap進行有放回的抽樣方法從原始樣本中抽取多個樣本得到的,然后將這些決策樹組合在一起,并行的完成學習任務,通過投票的方式得到最終的預測和分類結果。隨機森林的構建過程如下:
Step1:構建訓練子集。給定原始數據集D,總樣本數為M,特征屬性總數為R;利用Boostrap有放回的隨機抽樣方法從原始數據D中抽取n個樣本,并重復n次,構建訓練子集,其中訓練子集小于M,其余的構建為袋外測試集OOB。
Step2:構建決策樹。從R個特征屬性中隨機抽取r個(r<R),利用訓練子集構建完全分裂的決策樹。
Step3:生成隨機森林。重復Step2步驟K次,直至構建K棵決策樹,以組成隨機森林{ti, i=1, 2, …, K}。
Step4:結果預測。通過K棵決策樹分別對OOB測試集進行分類,匯總K次決策樹分類的結果{ti, i=1, 2, …, K}。
{t1(x), t2(x),…, tk(x)},用少數服從多數的投票方式得出最終的分類結果,該結果即為隨機森林的分類結果:
(2)
1.3? SMOTE算法與隨機森林算法組合
將RF算法應用于齒輪壓裝故障診斷時,診斷結果通常會傾向于多數類,盡管整體的分類準確率較高,但是對少數類樣本分類的準確率很低。在齒輪壓裝運行的實際數據中,故障樣本遠遠少于正常樣本,但是在故障診斷模型中對少數類的故障樣本的分類精度更為重要。為了解決上述問題,本文提出了基于SMOTE-RF的齒輪壓裝故障診斷模型,模型的整體結構如圖1所示,具體步驟為:
(1)數據預處理。對數據進行篩選,剔除異常數據,去除冗余數據,提取合適的特征來構建原始數據集。
(2)SMOTE過采樣。通過SMOTE算法對原始數據集中少數類的故障數據進行過采樣,并把過采樣所生成的新的數據與多數類樣本合并,以此得到類別均衡的數據集。
(3)隨機森林算法訓練。將處理后產生的均衡數據集使用隨機森林進行訓練,利用網格搜索算法對隨機森林模型進行參數優化,來提升分類結果的準確率。
(4)模型評估。構建齒輪裝配故障診斷模型評估指標,將測試集輸入到已經訓練好的模型中進行故障類別的分類,然后再將分類結果與測試集對應數據的真實類別對比,以此來驗證模型的準確性。
2? 實驗結果與分析
2.1? 數據集
本文實驗所采用的數據源自長沙某汽車部件公司IPB產線的齒輪壓裝工位2022年4月11日至2022年4月15日的實際運行數據。其中包含齒輪壓裝的正常運行狀態和故障狀態。數據特征包括齒輪類型、壓裝時間、壓裝位移和壓裝力矩。檢定的故障原因包括壓入力超過上限、壓入力超過下線、無壓入力或壓入力很小以及其他故障,為了方便表示,下文將各類故障名替換為類別編碼。
本文所用模型為有監督學習,因此需要將部分缺失故障樣本或者故障樣本數量不足10個的故障類別進行舍去,經過處理后數據集共有10 177條數據,包括4個輸入特征和4種故障類別,各類故障樣本數量如表1所示。
由表1可得,其中正常類別的樣本量最多,故障類別2的樣本量最少,相對于正常類別來說,故障類別1、2、3不平衡率均較高,都屬于少數類樣本,需要在實驗分析時更為關注。
2.2? 評價指標
常用的分類評價標準是針對平衡數據集的。但這些評價標準并不適用于不平衡的數據集。例如,分類的正確率。考慮一個極端情況,假如一個數據集中有99個負樣本和1個正樣本,即使分類器判斷所有樣本都是負樣本,分類器的整體預測準確率也能夠達到99%。但這個分類器顯然是沒有意義的。
為了有效地評估分類器對不平衡數據集的效果,本人使用的指標為F1-Score值、AUC(Area Under the Curve)值[12]和ROC(Receiver Operating Characteristic)[13]曲線,這三類評價指標都是基于混淆矩陣得到的,混淆矩陣如表2所示。
F1-Score值是一個從正樣本的角度評價不平衡集的分類性能的指標。F1-Score值越高,模型的分類效果就越好。AUC表示被正確分類的樣本總數與樣本總數的比率。AUC一般在0到1之間,AUC越高,表示分類器的性能越好。如果AUC為0.5,則完全是隨機猜測的結果。ROC曲線則是不平衡數據分類問題最為常見的評價指標,在評價隨機森林的整體分類性能,可以通過ROC曲線來展現。ROC曲線在坐標軸上的位置越靠近左上方就代表該分類器的處理不平衡數據的性能越出色。同時ROC曲線下的面積即為AUC值,AUC值也可以更為直觀的反應分類器的效果:
(3)
(4)
其中β∈(0, 1),但β通常為1。并且:
(5)
(6)
2.3? 實驗結果與分析
為了驗證本文所用SMOTE-RF算法的有效性,將本文提出的方法與支持向量機(SVM)和極端梯度提升(XGBoost)算法進行實驗對比與分析,分別測試在原始數據集下隨機森林算法的分類效果、在SMOTE過采樣的數據集下SVM和XGBoost的分類效果,比較他們的分類性能。實驗環境均是在PyCharm基于Python 3.9的sklearn庫來實現。其中原始數據集和均衡數據集均按照4:1的比例隨機分為訓練集和測試集。
首先用原始數據集輸入到隨機森林進行訓練,然后再將過采樣后的數據集逐次輸入到SVM、XGBoost和隨機森林中進行訓練,可以得到各分類器的F1-Score值,如表3所示,該值越高所對應的分類器故障分類的性能就越好。
從表3可以看出:
(1)通過SMOTE算法對少數類進行插值來平衡數據,一定程度上提上了隨機森林的分類性能,相比于未經過不平衡數據處理的原始數據集放入隨機森林中訓練后模型的分類效果,均衡數據集下模型分類效果更好。
(2)在均衡數據集下,將隨機森林、SVM和XGBoost分別進行訓練后,SMOTE-RF的F1-Score值可以達到0.997 0,和SVM和XGBoost兩種分類器相比,隨機森林的分類效果明顯優于他們。
ROC曲線圖的橫軸為負正類率,縱軸為真正類率。根據圖2的ROC曲線可以看出,相比于原始數據集訓練的隨機森林,通過SMOTE算法對原始數據集過采樣之后的隨機森林AUC提高了2.19%,說明經過SMOTE過采樣后,均衡的數據集能夠一定程度上提高隨機森林的分類性能。
由圖3可以得出,在相同的經過SMOTE過采樣的均衡數據集下,隨機森林算法的AUC值比SVM和XGBoost的分別高了1.88%和2.6%,隨機森林的ROC曲線整體在其他兩種算法之上。
通過實驗結果表明,經過SMOTE過采樣之后隨機森林的分類性能很優異,說明本文所提的方法可以在讓隨機森林的分類性能進一步得到提升;從分類器來看,在同一均衡數據集下,隨機森林的分類性能明顯高于SVM和XGBoost,具有較強的綜合分類能力,在齒輪裝配的故障分類的問題會更有效。
2.4? 應用場景
本文所提出的基于SMOTE-RF的故障診斷模型可以用于汽車零部件中齒輪裝配的工位上,對數據實時采集,將壓裝的實時數據輸入到故障診斷模型中,通過故障診斷模型對每一次的壓裝數據進行判斷,如若出現故障,則迅速在顯示屏上顯示故障類型和故障原因,及時告知產線工作人員出現故障的原因,方便工作人員能夠及時地解決故障問題,保證產線的正常、可靠的運行。現場效果圖如圖4和圖5所示。
3? 結? 論
考慮到齒輪裝配的實際情況下數據不平衡問題,本文提出了一種考慮到多種類型數據不平衡的齒輪裝配故障診斷方法,通過SMOTE過采樣方法降低原始數據集的不平衡性,再將經過處理后的數據作為隨機森林的輸入以提高算法分類的精度。本文利用長沙某汽車部件公司IPB產線的齒輪壓裝工位的故障數據對所提方法進行驗證,實驗表明本文方法能夠有效提高齒輪裝配故障分類的精度,同時證明了相比于SVM和XGBoost的故障分類精度,SMOTE方法和隨機森林的結合具有顯著的優勢。后續將收集更多齒輪裝配的故障樣本數據,可以研究在不同樣本量分別進行采樣時分類器的性能變化;同時還需要尋找更多潛在的數據特征,以提高分類器的泛化性。
參考文獻:
[1] 吳清偉,葛茂根,王強.面向機械產品裝配過程的在線故障診斷策略研究 [J].機械工程師,2014(7):60-62.
[2] 謝宇嬋.基于物聯網的汽車裝配線智慧電動工具控制研究 [D].長春:長春工業大學,2022.
[3] LEI Y G,YANG B,JIANG X W,et al. Applications of machine learning to machine fault diagnosis:A review and roadmap [J/OL].Mechanical Systems and Signal Processing,2020,138:106587[2022-09-20].https://doi.org/10.1016/j.ymssp.2019.106587.
[4] KANG Q,SHI L,ZHOU M C,et al. A distance-based weighted undersampling scheme for support vector machines and its application to imbalanced classification [J].IEEE transactions on neural networks and learning systems,2017,29(9):4152-4165.
[5] LIU W,CHAWLA S,CIESLAK D A,et al. A Robust Decision Tree Algorithm for Imbalanced Data Sets [C]//Proceedings of the 2010 SIAM International Conference on Data Mining. Society for Industrial and Applied MathematicsA Robust Decision Tree Algorithm for Imbalanced Data Sets,2010:766-777.
[6] JIANG G Q,HE H B,YAN J,et al. Multiscale convolutional neural networks for fault diagnosis of wind turbine gearbox [J].IEEE Transactions on Industrial Electronics,2018,66(4):3196-3207.
[7] BREIMAN L. Random Forests [J].Machine learning,2001,45(1):5-32.
[8] 徐佳慶,胡小月,唐付橋,等.基于隨機森林的高性能互連網絡阻塞故障檢測 [J].計算機科學,2021,48(6):246-252.
[9] 翟嘉琪,楊希祥,程玉強,等.機器學習在故障檢測與診斷領域應用綜述 [J].計算機測量與控制,2021,29(3):1-9.
[10] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:synthetic minority over-sampling technique [J].Journal of artificial intelligence research,2002,16(1):321-357.
[11] GUO G D,WANG H,BELL D,et al. KNN Model-Based Approach in Classification [C]//OTM 2003:On The Move to Meaningful Internet Systems 2003:CoopIS,DOA,and ODBASE.Catania:Springer,2003:986-996.
[12] 王誠,趙曉培.基于混合采樣的改進隨機森林算法研究 [J].計算機技術與發展,2021,31(12):50-54+91.
[13] 汪力純,劉水生.基于混合采樣和特征選擇的改進隨機森林算法研究 [J].南京郵電大學學報:自然科學版,2022,42(1):81-89.
作者簡介:王喆(1997—),男,漢族,湖南長沙人,碩士在讀,研究方向:工業物聯網。
收稿日期:2022-10-20
基金項目:湖南省教委科研基金(19K026);湖南省重點實驗室建設項目(2020KF02)