肖 圳,何 彥,李育鋒,吳鵬程,劉德高,杜 江
(1.重慶大學機械傳動國家重點實驗室,重慶 400030;2.重慶矢崎儀表有限公司,重慶 401123)
隨著制造技術的不斷改進,現代先進制造業正朝著高精度、高效率以及智能化的方向發展[1-2]。在當前的電子產品制造過程中,智能化轉型升級使得原有的大規模生產模式轉變成了多品種、小批量的生產模式[3]。為了滿足汽車用戶多樣的個性化需求,汽車組合儀表制造企業不得不面對儀表種類增加、訂單調整頻繁及工藝參數多變等一系列挑戰,亟須進一步提升生產效率。
鑒于汽車組合儀表在保證駕駛安全中具有重要作用,對缺陷儀表進行準確篩選始終是制造企業關注的重點。因此,各制造企業在汽車組合儀表的生產過程中設置了眾多質檢項目,使得檢測時間變長,這在一定程度上制約了生產效率的提升。
為了改善傳統的產品質量控制過程,常采用傳感器與分布式控制系統(distributed control system,DCS)來獲取海量的生產數據,并通過這些易測量的過程變量來構建預測模型[4]。例如:陳鑫等[5]選取關鍵工序歷史質量數據,通過貝葉斯理論建模實現了柴油機噴油孔鏜削工序的質量控制;吳雙等[6]結合反向傳播(back propagation,BP)神經網絡和極限梯度提升(extreme gradient boosting,XGBoost)算法建立了產品質量預測控制模型,并將其應用于薄膜晶體管液晶顯示屏的質量分類,為其加工過程的優化提供了可靠參考。
由于在實際生產過程中,合格產品占絕大多數,而缺陷產品數量較少,產品質量數據呈現出類別極不平衡的特點,常規的機器學習預測模型難以對其進行準確分類。針對生產數據不平衡的產品分類問題,大量研究集中于數據預處理、特征選擇和分類算法三個方面[7]。例如:張鑫等[8]基于拉普拉斯特征映射改善了機械設備故障標簽樣本不足的問題;Khan等[9]提出一種基于代價敏感學習的深度神經網絡,用于自動學習多數和少數類別的魯棒特征表示;楊浩等[10]將Boosting算法應用于代價敏感學習,建立了基于近鄰樣本間距的K最近鄰分類模型。但是汽車組合儀表生產數據具有的高維特性可能會導致特征選擇過程存在信息丟失的問題,從而對最終的分類精度產生不利影響;而以代價敏感學習為主的分類算法由于缺少準確、統一的錯分代價估計方法,難以保證分類預測模型的泛化性。因此,在汽車組合儀表的分類中,基于重采樣的數據預處理方法得到了廣泛應用。
重采樣包括欠采樣和過采樣方法。相比于欠采樣方法要舍棄部分產品質量數據,過采樣方法不僅能夠保留所有原始生產數據的信息,還可通過增加少量缺陷產品的數量來改善分類效果。Chawla等[11]提出了經典的合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE),通過在少數類樣本中線性插值來隨機生成新的數據,降低了簡單重復過采樣帶來的過擬合風險。Han等[12]提出了Borderline-SMOTE,通過在種類邊緣數據中插值來避免經典SMOTE易生成噪聲數據的問題。羅康洋等[13]提出了一種SMOTE與混合核支持向量機(support vector machine,SVM)相結合的迭代算法,利用較少的迭代采樣次數來改善數據的不均衡性。張忠林等[14]提出了一種基于SVM的過采樣方法,根據少數類樣本到分隔超平面的距離賦予權重,經多次迭代合成新樣本以滿足SVM的運算需求。劉云鵬等[15]制定了不同的決策機制,通過SMOTE對分類邊界上的支持向量進行插值,提高了變壓器故障診斷精度。
目前,針對不平衡生產數據的過采樣方法主要側重于多次迭代或插值,但這些方法改變了原始數據的分類邊界,無法完全反映產品的實際分類情況,且會使分類預測模型的復雜程度增加及運算時間變長。為此,筆者提出一種基于改進最遠點SMOTE(max distance SMOTE,MDSMOTE)的SVM分類預測方法,旨在對汽車組合儀表生產過程進行準確的質量控制。針對獲取的汽車組合儀表貼片、組裝等生產過程的數據,結合專家經驗篩選與儀表質量相關的工序數據并將其作為分類預測模型的輸入。首先,運用改進MDSMOTE對少數類缺陷汽車組合儀表的生產數據進行插值處理,保證預測模型得到的分類邊界更加貼近實際;然后,建立基于粒子群優化(particle swarm optimization,PSO)算法優化參數的SVM分類預測模型;最后將優化后的SVM分類預測模型應用于汽車組合儀表的分類預測,以改善其質量控制過程,提高整體生產效率。
SMOTE通過人工合成少數類樣本來改善各類樣本間的不平衡性。針對任意r維樣本Xp=(xp1,xp2,…,xpr)和Xq=(xq1,xq2,…,xqr),其歐氏距離Dpq為:

基于過采樣倍率為N,在每個少數類樣本Xp的M個同類最近鄰樣本中隨機選擇N個樣本。根據聚類思想可知,與正類樣本在空間上距離較近的樣本也為正類[16]。利用SMOTE對N個近鄰樣本中的每一個樣本Xq(q=1,2,…,N)按照式(2)在其與少數類樣本Xp的連線上進行插值以獲取新樣本,遍歷所有少數類樣本后形成類別平衡的數據集。

式中:Xnew為新生成的樣本;rand(0,1)為0~1之間的任一隨機數。
由于SMOTE是在少數類樣本的鄰域中隨機生成新樣本,增大了各類樣本在分類邊界處的重疊程度,并顯著提高了處理較高維度數據時的計算復雜程度。而MDSMOTE僅針對少數類樣本的質心及距離質心最遠的少數類樣本,在二者的連線上隨機生成新樣本,大幅減少了運算次數。但是MDSMOTE將新樣本的生成區域限制在特征空間內部的一條直線上,針對數據量較大且類不平衡率較高的數據集,生成的新數據集分布過于集中,導致訓練得到的預測模型難以反映實際產品的分類情況。
針對上述不足,提出改進的MDSMOTE,以改善新生成樣本的分布情況。以二維樣本為例,其原理如圖1所示,即通過引入類不平衡率IR對少數類樣本進行插值處理,具體方法如下:

圖1 改進MDSMOTE的原理Fig.1 Principle of improved MDSMOTE

式中:Xcen為所有少數類樣本的質心;Nmaj、Nmin分別為多數類和少數類樣本的數量;round()為四舍五入取整函數;Xk為第k個距離質心最遠的少數類樣本,k=1,2,…,IR。
改進MDSMOTE的具體步驟如下:
1)對任一輸入樣本集X,通過計算得到少數類樣本的質心Xcen,并遍歷少數類樣本確定距離質心最遠的 IR個樣本 Xk。
2)利用式(3)分別在質心Xcen與IR個最遠樣本Xk的每條連線上隨機生成新的少數類樣本Xnew,從而達到平衡原始數據集的目的。
改進MDSMOTE僅迭代IR次,可降低數據預處理過程的復雜程度,同時在不改變原始分類邊界的情況下使數據分布得更加均勻,從而提高人工合成少數類樣本的質量。
SVM以統計學習理論為基礎,是一種適用于小樣本、泛化能力強的監督學習算法。SVM通過非線性映射將樣本空間映射到更高維的特征空間中,找到分隔正、負樣本的最佳超平面,保證2種類型的樣本到分隔超平面的距離總和最大,其具備優良的分類性能。

式中:Xi為輸入向量,Xi∈ Rn;yi為對應的標簽數據,yi∈{-1,1};ω為分隔超平面權重矢量;b為偏差量;ξi為非負的松弛變量;C為懲罰因子;φ()為非線性映射函數,可將樣本數據映射到更高維的特征空間中,避免了原始數據線性不可分的問題。
構建上述方程(4)的拉格朗日函數,根據Karush-Kuhn-Tucker(KKT)條件,對ω和b求偏導并作置零處理,從而求解得到最優判別函數,表示為:

式中:αi(i=1,2,…,n)為引入的拉格朗日乘子。
定義SVM的核函數K(Xi,Xj)=φ(Xi)Tφ(Xj)。SVM常用的核函數主要有線性核函數、多項式核函數、徑向基函數(radialbasisfunction,RBF)和sigmoid核函數等。鑒于RBF的參數較少,對預測模型復雜程度的影響小,且具有較寬的收斂域和較強的泛化能力[17],本文選擇RBF作為SVM的核函數,其表達式如下:

式中:γ為核函數參數。
對于以RBF為核函數的SVM分類預測模型,誤差懲罰因子C和核函數參數γ是影響其預測精度的重要參數。為了提高汽車組合儀表分類的準確率,須對C和γ的取值進行優化。
PSO在動態目標尋優方面具有收斂速度快、搜索機制簡單和魯棒性好等優點,可有效避免陷入局部最優解的情況[18]。PSO對參數進行更新的方法如下:

式中:us為搜索空間中第s個粒子的位置;νs為第s個粒子的運動速度;t為當前更新次數;η為慣性權重;c1、c2為加速系數;r1、r2為0~1之間的隨機數;us,best為第s個粒子目前搜索到的最優位置;ubest為目前搜索到的全局最優位置。
綜上,基于改進MDSMOTE和PSO-SVM的汽車組合儀表分類預測流程如圖2所示。

圖2 基于改進MDSMOTE和PSO-SVM的汽車組合儀表分類預測流程Fig.2 Classification and prediction process of automobile combination instrument based on improved MDSMOTE and PSO-SVM
由圖2可知,基于改進MDSMOTE和PSO-SVM的汽車組合儀表分類預測流程具體如下:
1)結合專家經驗對獲取的汽車組合儀表生產數據進行篩選。
2)應用改進MDSMOTE對篩選后的數據進行預處理,形成類別平衡的汽車組合儀表生產數據集,以用于訓練SVM分類預測模型。
3)應用PSO算法對SVM的誤差懲罰因子C和核函數參數γ進行優化,并設置粒子的初始位置us,0和初始速度νs,0,種群規模為m,搜索空間為2維。
4)以汽車組合儀表分類準確率作為適應度函數f(u)。
5)利用式(7)和式(8)對粒子的位置與速度進行更新,得到迭代 t次的粒子位置 us,t與速度 νs,t。
6)計算當前位置的適應度f(us),并與當前最優位置的適應度f(us,best)進行對比,若f(us)>f(us,best),則更新當前最優位置 us,best=us,t;同理對全局最優位置 ubest進行更新。
7)若不能滿足終止條件,則返回步驟5)繼續迭代;若滿足則停止迭代,輸出優化的參數C和γ,建立最優的SVM分類預測模型。
為了測試所提出的基于改進MDSMOTE和PSO-SVM的分類預測方法的性能,以重慶某儀表制造企業的汽車組合儀表生產過程為例,選取不同種類儀表在不同批次的生產情況進行驗證。典型的汽車組合儀表主要由車速表、轉速表和印刷電路板(printed circuit board,PCB)組件構成,如圖3所示。

圖3 典型汽車組合儀表的內部結構Fig.3 Internal structure of typical automobile combination instrument
汽車組合儀表的生產過程主要包括PCB表面貼片和元器件組裝這2個環節,具體流程如圖4所示。為了進行可追溯的汽車組合儀表質量控制,采用Hitachi MS710印刷機、CKD VP5200L-V錫膏檢查設備、壓力傳感器和紅外距離傳感器等設備獲取各工序的實時生產數據。

圖4 汽車組合儀表生產流程Fig.4 Production process of automobile combination instrument
由于輸入數據的質量會直接影響分類預測模型的精度,須對生產數據進行特征篩選[19]。結合專家經驗與汽車組合儀表的生產工藝,選擇涉及儀表指示功能的錫膏印刷、指針壓入和高度確認等工序的生產數據作為分類預測模型的輸入,忽略貼片、組裝等非功能性工序對儀表質量的影響。篩選后的汽車組合儀表生產數據如表1所示。

表1 篩選后的汽車組合儀表生產數據Table 1 Screened production data of automobile combination instrument
本文選擇3種不同類型的汽車組合儀表的各2個批次的生產數據來構建數據集,其詳細情況如表2所示。隨機選擇每組數據的80%作為訓練集,用于分類預測模型的訓練;其余20%作為測試集,用于評估分類預測模型的性能。

表2 汽車組合儀表生產數據集詳細情況Table 2 Production data set details of automobile combination instrument
在各工序上采集的生產數據的數量級存在差異,為了提高分類預測模型的準確率和泛化能力,對原始數據進行歸一化處理:

式中:X*為歸一化處理后的數據;X為原始生產數據;Xmin、Xmax分別為原始生產數據的最小值和最大值。
引入混淆矩陣來評價分類預測模型的性能,定義少數類的缺陷產品為正值,多數類的合格產品為負值,如表3所示。

表3 汽車組合儀表分類混淆矩陣Table 3 Confusion matrix of automobile combination instrument classification
通常采用準確率A作為模型性能的評價指標,其表達式如下:

針對不平衡數據集,由于某一類樣本數量較少,使得整個數據集的分類準確率不足以對預測結果進行全面、有效的評價。因此,本文采用反映分類預測模型在缺陷產品中的分類精確程度的查準率P、衡量分類預測模型對缺陷產品的整體識別能力的查全率R、整體考慮查準率和查全率影響的F值Fβ以及綜合考慮對正、負樣本分類準確率的幾何平均值Gmean對所構建的分類預測模型進行評價[13]。
各評價指標的表達式如下:

式中:β為查全率與查準率的比值,本文取β=1(即Fβ=F1),表示查準率和查全率同樣重要。
為了驗證基于改進MDSMOTE的PSO-SVM分類預測方法的有效性與優越性,應用Borderline-SMOTE[12]、MDSMOTE[16]和改進 MDSMOTE 對不同的汽車組合儀表測試集進行數據處理,并對比其分類性能。
利用Python語言編寫過采樣方法的運行程序,并使用scikit-learn庫搭建SVM分類預測模型。在利用PSO算法對SVM分類預測模型的參數進行優化時,設置種群規模為20,空間維度為2,最大迭代次數為100。基于不同模型的汽車組合儀表分類預測結果如表4所示。在不同數據集上各模型的分類準確率、F值和幾何平均值對比曲線如圖5至圖7所示,其中橫坐標中的數據集按類不平衡率從小到大排序。

圖5 不同分類預測模型的準確率對比Fig.5 Comparison of accuracy of different classification prediction models

圖6 不同分類預測模型的F值對比Fig.6 Comparison of F value of different classification prediction models

圖7 不同分類預測模型的幾何平均值對比Fig.7 Comparison of geometric mean value of different classification prediction models

表4 基于不同模型的汽車組合儀表分類預測結果Table 4 Classification prediction results of automobile combination instrument based on different models
從表4中可以看出,基于改進MDSMOTE的PSO-SVM分類預測模型在汽車組合儀表分類預測中的效果較好。
在準確率方面,基于Borderline-SMOTE的PSO-SVM分類預測模型的準確率較低,基于MDSMOTE的PSO-SVM分類預測模型居中,基于改進MDSMOTE的PSO-SVM分類預測模型最高,且在數據集B2和C1中超過了96.00%,與其他2個分類預測模型相比,其準確率平均提高了4.94%和2.47%。但是各分類預測模型在類不平衡率較大的數據集上的準確率普遍低于類不平衡率較小的數據集。
在分類預測效果方面,基于改進MDSMOTE的PSO-SVM分類預測模型同樣表現最佳,相比于其他2個分類預測模型,其F值分別提高了4.32%和1.79%,幾何平均值分別提高了3.21%和1.34%,說明該模型的整體分類性能得到了提升。從提升程度上看,基于改進MDSMOTE的PSO-SVM分類預測模型相較于基于Borderline-SMOTE的提升程度更大,這是因為后者是在少數類樣本邊界上進行了數據擴充,使得模型分類難度增大,前者則針對少數類樣本的中心數據進行過采樣方法的優化,沒有改變邊界數據分布情況,因此分類性能得到顯著提升。
綜上可得:
1)在缺陷汽車組合儀表的篩選上,基于改進MDSMOTE的PSO-SVM分類預測模型的準確率、F值和幾何平均值最高,即分類效果最好,相比于基于MDSMOTE的PSO-SVM分類預測模型,其分類性能小幅度提升,而相比于基于Borderline-SMOTE的PSO-SVM分類預測模型,其分類性能的提升程度更高。這主要是因為MDSMOTE及其改進方法采用中心化思想,生成的新樣本均在特征空間內部,對分類邊界上的支持向量影響較小;而Borderline-SMOTE增大了邊界數據的重疊程度,不易獲得清晰的分類邊界,導致應用該方法的分類預測模型的性能仍存在提升空間。
2)隨著數據集類不平衡率的增大,各分類預測模型的性能均出現了明顯下滑。類不平衡率較大表示缺陷儀表的占比較小(如A1和A2),因此需要在特征空間內人工生成更多的正值樣本,以滿足SVM的訓練需求。這使得Borderline-SMOTE和MDSMOTE在分類邊界處生成的樣本數量增加,增大了對分類性能的負面影響,而改進MDSMOTE因具有較強的泛化能力,隨著類不平衡率的增大,其所生成的新樣本較分散,對分類邊界的影響較小,即其泛化能力較強。
3)對于類不平衡率相當的數據集,各分類預測模型在樣本數量較少的數據集(如A2)上均取得了更高的準確率、F值和幾何平均值,這進一步驗證了SVM在小樣本分類問題上的優越性。當樣本數量無較大差別(如B1和 B2、C1和C2)時,基于改進MDSMOTE的PSO-SVM分類預測模型的F值和幾何平均值的變化不明顯,而基于其他方法的分類預測模型的波動則相對較大,說明本文模型的分類性能更加穩定,對缺陷儀表的篩選結果更為可靠。
本文針對缺陷汽車組合儀表的篩選問題,提出了一種基于改進MDSMOTE的PSO-SVM分類預測方法,用于儀表生產過程的質量控制。通過在MDSMOTE中引入類不平衡率來對生成的新樣本進行改善,使得新數據集分布得更加均勻。并利用PSO算法對SVM分類預測模型的參數進行優化,以提升模型的分類預測性能。通過與其他分類預測模型在不同的數據集上的分類結果進行對比可知,基于改進MDSMOTE的分類預測模型在準確率、分類效果方面均取得了不同程度的提升,其分類性能優良,同時具有較強的泛化能力和穩定性,為儀表制造企業生產效率的提升提供了有效指導。
然而,基于改進MDSMOTE的PSO-SVM分類預測模型在類不平衡率較大的數據集上的分類性能仍有待提升,后續研究將對比其他分類預測模型和不同的啟發式參數優化方法,以期建立更優的模型,并降低參數尋優復雜程度。