沈維蕾, 楊雪春, 吳善春
(合肥工業大學 機械工程學院,安徽 合肥 230009)
隨著市場競爭壓力的增加,制造業生產方式已逐漸向多品種、小批量模式轉變,導致傳統的統計分析方法難以有效控制小批量生產過程質量[1]。傳統質量監控以及異常診斷方法通常假設采集的數據是連續的,并且遵循正態或多元正態分布,在此基礎上才能建立較高精度的統計過程控制圖來檢測生產過程質量是否受控[2-4]。
近年來,有研究者開始將數據挖掘與統計過程控制相結合來控制非正態生產過程質量,并取得了很好的效果[5]。針對中小批量生產過程,文獻[6]提出了一種結構化方法,將具有相似生產特征的生產過程進行聚類分析,用以獲得足夠的樣本數據監控小批量生產過程,并成功地用于鏜銑床的制造過程中;文獻[7]提出一種基于共軛貝葉斯方法的多批次小批量生產的控制圖,該方法首先從先前的批次中找出適當的先驗信息,然后基于過程均值和過程方差的貝葉斯估計量,提出了用于計算控制極限的共軛貝葉斯方法;文獻[8-9]使用支持向量機技術通過歸一化的監控統計數據來構造魯棒的K控制圖,結果表明,除了非常規數據的靈活性外,強大的K圖還可以有效地處理自相關過程數據;文獻[10]根據支持向量數據描述 (support vector data description,SVDD) 算法提出了基于核距離的K控制圖,K控制圖的監測統計量根據觀測點與SVDD算法生成決策邊界之間的距離得到,并通過調節SVDD算法的參數調整控制限制;文獻[11-12]研究了基于SVDD算法控制圖控制限計算問題,在此基礎上提出了基于核距離的D2控制圖,該控制圖根據多個統計量均值確定控制圖的控制上限,因此不依賴于用戶設置第一類錯誤和統計量分布類型;文獻[13]提出了基于D2統計量的多元加權移動平均控制圖S-EWMA,實驗結果表明該控制圖對小偏移較為敏感,且對于數據分布沒有特定要求。
上述文獻在解決質量過程異常監測時大多假設數據符合正態分布,但是當數據本身分布不均勻、分布較為分散時,通過SVDD算法訓練得到的SVDD模型無法準確檢測,導致漏報、虛警率增加。針對此問題,本文結合密度峰值聚類(density peaks clustering,DPC)與SVDD方法對小批量生產過程建立基于內核距離的DPC控制圖,實現對小批量生產過程質量波動的實時監控,從而實現制造過程的多元質量監控與異常診斷。
SVDD是一種單分類數據描述算法,具有極強的模式識別能力和推廣能力,因此被廣泛應用于模式識別和異常檢測領域[14-15]。該算法的核心思想是尋找一個能夠包含全部或大部分目標類樣本數據的最小超球體,同時使非目標類樣本點位于超球體之外,而超球體的確定僅依靠目標集的訓練樣本。為了降低尋找超球體的難度,通常將訓練樣本數據映射到高維空間。若新樣本點在高維特征空間的像落入超球體內部,則認為該樣本屬于目標類;反之,該樣本點落入超球體外,則該樣本點被識別為異常點[16]。SVDD分類結果如圖1所示。

圖1 SVDD分類示意圖
假設需要對包含N個樣本點的訓練數據集進行描述,令{xi|xi∈X,i=1,2,…,N}為已知的訓練數據集,超球體的球心和半徑分別為A和R,則SVDD算法尋找的超球體應滿足如下關系:
(1)
(2)
其中,xi·xj表示xi和xj的內積,可用核函數K(xi·xj)替換,考慮到核函數對分類器性能的影響,本文選擇使用較為廣泛的高斯核函數,即
(3)
通過求解二次規劃問題可以得到最優解集α=(α1,α2,…,αn)。其中,存在少部分不為0的αi對應的變量xi使不等式中的等號成立,這些變量共同確定了分類器邊界的支持向量。
通過計算球體中心到權重因子小于C(0<αi R2=‖xk-α‖2=K(xk·xk)- (4) 為了判斷測試數據z是否在超球體內部,可計算測試數據到球心A的距離D2。當測試點z到球心A的距離小于球體半徑R時,測試點z位于球體內,即滿足D2≤R2,則此樣本點屬于目標類,否則屬于異常點。 距離D2的計算公式如下: (5) 此外,文獻[17]定義了參數f,f=1/(NC),其中,N為目標類樣本個數;C為控制超球體之外的目標類樣本數的懲罰參數,通過調整f的大小可以達到控制超球體內部樣本數的目的,適合的f有利于提高分類器性能。 SVDD算法屬于典型的單分類算法,只能通過目標類數據對分類器進行訓練,但是對于分布較為分散的樣本數據,核函數的計算復雜度會導致SVDD訓練難度增加。 此外,由于數據集各個區域的數據密度相差較大,原始的支持向量數據描述算法訓練出的超球體體積較大,分散的決策邊界導致非目標類樣本點落入超球體內部的概率增加,最終引起分類器漏報率增加,降低模型的異常檢測性能力。而且SVDD算法只能對目標數據集進行整體的邊界描述,無法對數據集中所包含的多個不同樣本之間的差異進行分析[17]。 不同參數下SVDD分類邊界的分布情況如圖2所示。 圖2a所示為當數據本身分布不均勻時,訓練得到的超球體體積較大導致無法對異常樣本進行準確監測的情況。調整核函數參數以及懲罰參數后所得結果如圖2b~圖2f所示,出現將正常的目標類樣本排除在超球體之外的情況,導致分類器虛警增加。 因此,在實際生產制造過程中,使用SVDD算法檢測生產過程質量仍存在諸多限制。而本文提出的基于DPC改進的DPC-SVDD算法,可以有效解決上述缺陷,降低數據分布密度不均勻對SVDD分類器的消極影響。 為解決數據分布不均勻對SVDD分類的消極影響,本文采用基于樣本分割的并行學習算法,提高算法效率。同時為了提高分類準確性,采用基于密度峰值的聚類算法DPC對SVDD算法進行改進,將訓練樣本集劃分為K個高密度的子集,降低算法尋找超球體的難度。 DPC聚類算法的核心通過局部密度與相對距離這2個特征對聚類中心進行描述:① 每個聚類中心的局部密度高于周圍所有的其他樣本;② 聚類中心到其他密度較高點的相對距離較大。根據局部密度和相對距離這2個指標,該聚類過程可分為2步:第1步快速搜索密度峰值;第2步將密度峰標記為聚類中心,再將其余的點分配到各個簇中,最終得到若干個彼此之間相似度較低、密度較高的子集[18-19]。 DPC與傳統密度聚類算法的不同之處在于該算法提出了從2個維度對聚類中心進行描述,即樣本點的局部密度ρi、到局部密度比它大的樣本點的距離δi。 假設存在數據集S={xi|xi∈X,i=1,2,…,N},dij=dis(xi,xj)表示樣本點xi與xj之間的距離,對于S中的任何一點xi,都可以求出該點的局部密度ρi和相對距離δi,且這2個值僅取決于兩點之間的距離dij。 任意一點i的局部密度ρi可以通過下式進行計算: (6)式中的dc為截斷距離,是一個超參數,因此局部密度ρi可看作距離點i的距離小于dc的點的個數。 通過計算樣本點i與其他具有更高密度的樣本點之間的最小距離,計算相對距離δi,即 (8) 對于具有最高密度的點,其相對距離計算公式如下: (9) 最終可以得到所有點的局部密度ρi和相對距離δi,根據局部密度和相對距離得到基于ρ和δ的二維聚類決策圖。根據決策圖將具有最高局部密度和相對距離的樣本點標記為聚類中心,最后將其他的樣本點歸入局部密度大于自身且距離最近的樣本點所在的子類簇中,完成對所有樣本點的聚類處理。 為解決小批量生產環境下生產過程數據分布不均勻的問題,本文將SVDD算法與聚類算法相結合,提出基于DPC-SVDD算法的質量診斷模型,模型整體框圖如圖3所示。 離線建模過程如下: (1) 數據預處理,將質量數據標準化后隨機取樣。 (2) 利用主成分分析法對采集到的生產過程特征數據進行主元分析計算各主元貢獻度并提取其中貢獻度較高的若干主元。 (3) 利用DPC算法對提取出的主元進行自動聚類分析,根據樣本點的局部密度與相對距離得到決策圖,最后依據決策圖得到k個分布相對緊湊的子集。 (4) 訓練SVDD模型建立k個超球體對樣本空間進行劃分。 (5) 依據各超球體決策邊界和圓心建立K個控制圖,根據(4)式計算控制限D2。 圖3 DPC-SVDD質量監控模型 本節以某企業生產制造的再制造發動機曲軸生產過程為例來驗證所提出方法的有效性。 某再制造企業生產的發動機曲軸有5個主軸頸,如圖4所示。 圖4 某再制造曲軸結構 該企業主要采用三坐標測量儀來測量主軸頸的圓度,該類型的測量儀精度為0.9 μm;對于曲軸的直線度,通常使用帶千分表的專用測量平臺進行測量,測量精度為1 μm。針對該企業連續生產的15個批次的曲軸,初步整理了各批次曲軸主軸頸圓度和直線度的檢測數據總計150組,曲軸制造過程的部分數據見表1所列。 表1 再制造曲軸頸圓柱度和直線度數據 單位:μm 研究發現,該企業生產的再制造曲軸的徑向跳動合格率較低,其合格率均值為85%,經分析影響曲軸徑向跳動的主要因素為曲軸各主軸頸的圓度和曲軸的直線度。因此,本文以曲軸5個主軸頸的圓度和曲軸直線度作為監測指標,對再制造曲軸生產制造過程進行質量控制與優化。 在再制造過程中,廢舊曲軸的數量與回收時間不確定,導致收集的數據可能不再符合多元正態分布。各主軸頸以及直線度的正態分布概率如圖5所示。 由圖5可知,曲軸各個變量均偏離正態分布,因此傳統的質量控制方法使用受到限制。 圖5 曲軸各變量正態分布性檢驗 為此,本文采用基于DPC-SVDD的質量控制方法進行再制造曲軸頸質量過程的監控。 (1) 利用主成分分析法進行數據降維,根據85%的方差貢獻率確定主元數量。方差貢獻率解釋見表2所列。由表2可知,前2個主元包含了原始數據86.5%的分類信息。因此可以用主元Y1和Y2代替原始信息,主元Y1和Y2合成系數見表2所列。 (2) 利用DPC聚類算法對得到的二維特征數據進行聚類分析。使用DPC算法得到的二維決策圖如圖6所示。由圖6可知,該二維數據可自動聚類為2個子類,聚類中心分別為二維決策圖右上方2個點代表的數據;此外根據決策圖可知,該數據集包含3個異常點,異常點距離正常樣本較遠且局部密度較大。因此,在訓練SVDD超球體的過程中將導致超球體體積過大,在實際過程中增加漏報的概率。故將異常點放入測試樣本集,用來測試分類器的識別率。 表2 方差貢獻率解釋 圖6 二維決策圖 原始SVDD算法和改進后的DPC-SVDD算法的運行結果如圖7所示。其中:圖7a和圖7b為原始算法訓練得到的超球體和相應的D2控制圖;圖7c和圖7d為改進后的DPC-SVDD算法的訓練結果。 由圖7的對比結果可知:改進后的算法分類邊界比較貼近質量受控數據集且具有更高的分類準確率,在測試的30組樣本數據中存在3個質量異常點;而依據原始算法建立的控制僅對其中2個點(10、13)進行報錯。 圖7 SVDD算法改進前、后對比結果 對于偏移量較小的數據無法做出準確判斷;在DP-SVDD算法下的DPC控制圖通過綜合比較樣本點到2個圓心的距離可以準確判斷出全部質量異常點,并及時發出警報,從而監測過程失控。 DP-SVDD和SVDD算法的性能比較結果如圖8所示。其中:ROC曲線的橫坐標表示假正類率(FPR);縱坐標表示真正類率(TPR)。 圖8 DP-SVDD和SVDD算法的S比較 將模型的每個閾值(FPR,TPR)當作坐標畫在坐標系中即可得到ROC曲線,該曲線下的面積用S表示,當S=1時,分類器接近完美。從圖8可以看出,改進后的DP-SVDD算法SDPC=0.990 64,遠大于SVDD算法的SSVDD=0.840 47。由此可以判斷改進后的DP-SVDD算法對于質量異常波動的監測能力遠高于傳統的SVDD算法,在實際的質量過程異常監控中有著積極的意義。 針對生產過程中由于過程數據分布類型未知引起的傳統質量控制圖異常檢測精度低的問題,本文提出結合SVDD和DPC的生產過程質量異常檢測方法。首先,利用主成分分析法對質量特征數據進行特征提取、融合,降低算法的計算量、提高分類準確率;其次,采用DPC方法根據樣本點局部密度和相對距離對樣本數據進行自動聚類,相較于傳統聚類,本文聚類算法不需要人為確定聚類數量,同時可以識別出噪點,保留質量受控數據,有利于提高算法準確率;然后,利用聚類得到的子集訓練出相應的SVDD模型,根據超球體圓心A和半徑R2建立DPC控制圖監測生產過程;最后,將本文提出的DPC-SVDD方法與SVDD方法應用到再制造曲軸質量監測中,對本文方法的有效性和優越性進行比較,結果表明DPC-SVDD方法可以有效識別制造過程質量異常,并且識別速度較快、對質量偏移較為敏感。1.2 SVDD缺陷分析
2 改進的DPC-SVDD算法
2.1 DPC算法簡介
2.2 DPC-SVDD算法過程質量監控模型


3 實例分析









4 結 論