詹 君 程龍生 彭宅銘 胡多海
1.南京理工大學經濟管理學院,南京,2100942.南京科瑞達電子裝備有限責任公司,南京,211100
控制圖作為統(tǒng)計過程控制最基本的工具,在產品生產的質量監(jiān)控中起著重要的作用。基于統(tǒng)計假設檢驗的原理,控制圖用于記錄和監(jiān)測某一關鍵部件質量特性的波動情況[1]。當一個點或多個點超過控制圖的限制或者控制圖呈現(xiàn)出非正常的控制圖模式(control chart pattern,CCP)時,通常認為監(jiān)控過程失控。隨著研究的深入,一些研究者發(fā)現(xiàn)僅僅通過觀察波動來判斷控制圖是否失控是很困難的[2]。1958年美國西部電氣公司發(fā)現(xiàn)有15種常見類型的控制圖模式,其中包含了6種最基本的控制圖模式[3],分別為正常模式(NOR),周期模式(CYC),上升、下降趨勢模式(UT/DT),向上、向下階躍模式(US/DS)。識別非正常模式可以有助于早期發(fā)現(xiàn)失控過程,有針對性地縮小故障搜索范圍[4]。例如,趨勢模式可能與刀具磨損有關;循環(huán)模式可能意味著電源電壓發(fā)生了波動[5]。精確的控制圖模式識別不僅可以帶來較低的報誤率,更可以有效地實施控制圖,而且對異常波動、變異來源的鑒定以及對質量保證與改進也至關重要[6]。近年來,隨著自動化制造、實時采集與監(jiān)控等技術手段的高速發(fā)展,控制圖從人工控制圖識別、計算機質量控制軟件識別發(fā)展到以人工智能與機器學習為主導的智能控制圖模式識別[7]。
研究學者對控制圖模式識別已嘗試了眾多的算法模型,其中一個關鍵步驟即是特征提取。特征提取的目的是獲取能反映數(shù)據(jù)特性的特征組合,為分類器提供識別參數(shù),從而實現(xiàn)各模式的分類識別,例如文獻中常選用的統(tǒng)計特征[8]、形狀特征[9]及融合特征[10]等。通過特征提取,能夠有效提高分類器的訓練效率,然而特征提取的不足會損失原始數(shù)據(jù)的部分特征信息,造成分類器模式識別精度降低。如果可以針對控制圖中各模式具有的典型特點,對控制圖的輸出信號構建數(shù)學模型,則模型中的參數(shù)就可表征該輸出信號,即作為該信號的特征變量參與分類器的訓練及識別,這是本文研究的一個出發(fā)點。
算法模型方面,從20世紀90年代開始,人工神經網絡(artificial neural network,ANN)被廣泛應用于控制圖模式識別中[2,11-15]。ANN優(yōu)點在于處理噪聲數(shù)據(jù)時,不需要假設監(jiān)控數(shù)據(jù)的統(tǒng)計分布及良好的自適應學習特性,但它也存在一些不足,它制約了神經網絡模型的識別能力,例如模型需要大量的訓練數(shù)據(jù),容易陷入局部最小值,此外,過擬合、收斂速度慢等問題也會對算法產生負面影響[16]。另一方面,支持向量機(support vector machine, SVM)在分類領域有著較高的分類精度,也有不少研究學者將SVM應用于控制圖模式識別中[6,16-17]。但SVM分類精度依賴于核函數(shù)和參數(shù)(成本參數(shù)、松弛變量及超平面)的選擇,且識別過程消耗成本過大,并不適用于生產過程中的實時監(jiān)測[2]。同時,雖然有學者開始使用其他方法對參與模型訓練的初始特征集合進行篩選,提取有利特征再帶入分類器中進行訓練和識別,但這兩類方法本身并沒有在訓練過程中對特征進行篩選,多余特征會大大增加算法的時間復雜度甚至影響分類效果,這是本文研究的另一個方向。
馬田系統(tǒng)(Mahalanobis-Taguchi system, MTS)是日本著名質量工程學家田口玄一博士提出的多元模式識別方法[18],系統(tǒng)中田口式信噪比實驗設計方法可以有效地進行變量約減,并通過構建正常樣品的基準空間,對未知樣品進行高效率的分類識別。近年來,馬田系統(tǒng)在模式識別領域有著廣泛的應用[19-20]。本文基于馬田系統(tǒng)在特征約減和分類識別中優(yōu)勢,將馬田系統(tǒng)應用于控制圖模式的識別問題中。馬田系統(tǒng)解決的是二分類問題,已有學者將馬田系統(tǒng)應用于多類識別領域[21-22]。但是基于二叉樹多類識別時,在某個節(jié)點處發(fā)生的分類錯誤將會延伸到下一級節(jié)點上,后續(xù)分類的錯誤率將會越來越高。如果僅僅依據(jù)馬氏距離的區(qū)間進行多類識別往往效果很不理想,會存在大量重疊區(qū)域。控制圖模式識別是多類識別問題,如何建立適合的多類判別準則,使得MTS更加有效精確地識別各模式,也是本文需要解決的問題。
田口博士提出的基于質量損失函數(shù)(quadratic loss function,QLF)確定閾值的方法,由于損失值的定義過于主觀且不易權衡,從提出之后極少有學者使用。本文選用訓練數(shù)據(jù)時的錯誤率重新定義了QLF中的損失值,使得損失不再主觀定義,從而通過改進系統(tǒng)閾值,提高算法的識別精度。
綜合以上分析,本文提出一種時間序列混合模型,用于識別控制圖模式中的典型特征。利用MTS在特征約減和分類識別中的優(yōu)勢,采用多分類MTS(multi-classification MTS,MMTS)方法對控制圖模式進行識別,并在算法中對閾值計算方法進行改進。將該算法應用于UCI數(shù)據(jù)集Synthetic Control Chart Time Series(SCCTS)及生產案例中,實驗結果表明所提出的算法具有更好的識別效果。

(s(t)a)+(μ+r(t)σ)
(1)
其中,q為余弦周期函數(shù)線性疊加的個數(shù);ωj為第j個余弦周期函數(shù)的角頻率;Aj為對應角頻率ωj的振幅;φj為對應角頻率ωj的初始相位,φj∈(-π,π);k為斜率;b為截距;s(t)為用來判斷t時刻是否發(fā)生階躍的函數(shù);a為階躍幅值;μ為剔除周期項、趨勢項及階躍項后的均值;σ為標準差;r(t)為無法避免的隨機波動函數(shù)。
參數(shù)估計包括以下4個階段。

xt=5+6cos(2π×10t-20π/180)+3cos(2π×30t-40π/180)
對xt添加隨機噪聲,通過MATLAB軟件產生模擬數(shù)據(jù)集,繪制出加噪聲的信號圖像,利用周期圖法繪制幅值頻譜圖及相位頻譜圖,見圖1。

圖1 幅值和相位的識別Fig.1 Identification of amplitude and phase





通過判定準則,基于控制圖的實時數(shù)據(jù),對式(1)的階躍項參數(shù)進行估計,以此表征控制圖的階躍特征。
式(1)剔除了周期項、趨勢項、階躍項后得到平穩(wěn)的時間序列x′t。選用均值和標準差用于表征該平穩(wěn)的時間序列。參數(shù)估計方法如下:
綜上所述,確定了各項參數(shù)估計方法后將參數(shù)用于MTS特征空間的構建,進行控制圖模式識別。
馬田系統(tǒng)實施步驟如下。
(1)構建基準空間。定義用于識別多元系統(tǒng)的特征變量,收集正常樣本特征數(shù)據(jù)。計算特征變量的均值、標準差,并對數(shù)據(jù)標準化,計算相關系數(shù)矩陣,從而計算各正常樣品的馬氏距離。
(2)基準空間有效性驗證。收集異常樣本數(shù)據(jù)。對異常樣本的數(shù)據(jù)使用正常樣本的均值和標準差進行標準化處理,再使用正常樣本相關系數(shù)矩陣,計算異常的馬氏距離。若正常樣本馬氏距離均在1附近,且異常樣本馬氏距離遠大于正常樣本馬氏距離,說明基準空間構建有效。
(3)正交表及信噪比識別有效指標。通過正交表設計正交試驗,基于正交表每次試驗所選的特征變量,重新計算異常樣本的馬氏距離,從而計算用于代表每次實驗運行響應的望大型信噪比。計算各特征參與實驗時的信噪比均值與未參與實驗時的信噪比均值,從而計算信噪比增量。若增量為正,則該特征被選用,否則將其剔除。
(4)未知樣品的識別。根據(jù)優(yōu)化后的特征,對正常樣本重新構建基準空間。對未知樣品,分別使用優(yōu)化特征后的正常樣本各特征均值,標準差及相關系數(shù)矩陣進行標準化處理和計算馬氏距離。最后將未知樣品的馬氏距離與閾值比較,從而實現(xiàn)馬田系統(tǒng)的識別。
馬田系統(tǒng)在優(yōu)化指標后,需要計算閾值從而進行下一步的未知樣品識別。田口博士選用QLF方法來確定閾值,本文用訓練集中的錯誤率替代損失值,使其損失值不再主觀,從而改進閾值的計算方法。

圖2 正常樣品的位置情況Fig.2 The position of the normal samples




田口博士認為系統(tǒng)的初始損失L0是與功能界限Λ0相關的損失,因此有如下定義。

因此,得到閾值計算模型:
(2)
參照馬田系統(tǒng)的基本步驟,MMTS算法打破了只構建一個馬氏空間的限制,為每個類別都建立了一個獨立的馬氏空間構建馬田系統(tǒng)。對于未知樣本,計算該樣本在各馬氏空間中的馬氏距離,再根據(jù)建立的多類判別準則實現(xiàn)多類識別。具體實施步驟如下:
(1)構建多個馬氏空間。多類識別中有p個類別,收集所屬類別的樣本數(shù)據(jù),以各類別分別建立馬氏空間。
(2)多個馬氏空間有效性驗證。以具體類別的樣本而言,其余類別的樣本均為異常樣本,計算所有異常樣本的馬氏距離。若每個類別的馬氏空間中,正常樣本的馬氏距離基本都在1附近,而異常樣本的馬氏距離遠大于該類別的馬氏距離,說明構建的多個馬氏空間性能均良好。否則,需重新挑選各類別正常樣本構建有效的馬氏空間。
(3)多個馬氏空間優(yōu)化。按照2.1節(jié)步驟(3),對各類別的馬氏空間通過正交表和信噪比篩選特征變量,從而對每個馬氏空間實現(xiàn)優(yōu)化。
(4)閾值的設定及多類判別準則。對各類別使用優(yōu)化的特征重新構建馬氏空間,基于2.2節(jié)改進的閾值計算方法計算第k個空間的閾值T(k),k=1,2,…,p。根據(jù)各馬氏空間的特征優(yōu)化結果對未知樣本執(zhí)行2.1節(jié)步驟(4),計算未知樣品在第k個空間的馬氏距離D(k),最后基于多類判別準則進行識別,識別準則如下:①若D(k)
綜上所述,識別算法的完整流程圖見圖3。

圖3 算法流程圖Fig.3 The flow chart of algorithm
為了驗證時間序列混合模型及MMTS在控制圖模式識別中的有效性,采用了UCI數(shù)據(jù)庫的控制圖數(shù)據(jù)集SCCTS。其中NOR模式樣本編號為1~100,CYC模式樣本編號為101~200,UT模式為201~300,DT模式為301~400,US模式為401~500,DS模式為501~600。圖4為數(shù)據(jù)集中各模式某一樣品的控制圖。


(a) 正常模式

(b) 周期模式

(c) 上升趨勢模式

(d) 下降趨勢模式

(e)向上階躍模式

(f)向下階躍模式圖4 各模式控制圖Fig.4 Patterns of control chart

表1 周期項特征Tab.1 The periodic term features

表2 趨勢項、階躍項、隨機項特征Tab.2 The trend, shift and random term features
本文采用五折交叉驗證法進行算法驗證,即將數(shù)據(jù)集600個樣品隨機分成5份,取其中4份共計480個樣品作為訓練集,1份共計120個樣品作為測試集,共進行5次算法驗證。以一次驗證結果來說明。
(1)構建多個馬氏空間。首先,收集各模式的樣本特征數(shù)據(jù),計算各模式下各特征的均值、標準差并標準化處理;接著使用標準化數(shù)據(jù)計算相關系數(shù)矩陣;最后計算各模式中的正常樣品所在馬氏空間的馬氏距離。
(2)多個馬氏空間有效性驗證。當控制圖模式中某個模式的樣本作為正常樣本時,其余模式便作為異常樣本用于空間有效性驗證。圖5是6種模式正常樣本和異常樣本的馬氏距離示意圖,圓圈內的點表示以該模式為正常樣本時的馬氏距離。

(a) 正常模式為基準

(b) 周期模式為基準

(c) 上升趨勢模式為基準

(d) 下降趨勢模式為基準

(e) 向上階躍模式為基準

(f) 向下階躍模式為基準圖5 6種模式樣品在不同空間的馬氏距離Fig.5 The MD of six pattern samples in different spaces
由圖5可知,正常樣品馬氏距離均在1附近,而其他類別的馬氏距離相比正常樣本馬氏距離差異較大,說明以各模式建立的馬氏空間性能良好。
(3)多個馬氏空間優(yōu)化。通過正交表和信噪比,對訓練樣本中各模式樣品12個指標進行篩選,從而優(yōu)化特征空間。同時根據(jù)式(2)計算各模式馬氏空間的閾值,篩選結果及閾值見表3。
由篩選結果可知,正常模式中,周期項、趨勢項、階躍項及隨機項特征參數(shù)均有選取,能更好地刻畫該模式下各項的平穩(wěn)性;周期模式中,算法更多地選取了刻畫周期項的特征,以區(qū)分周期與其他模式;上升、下降模式中,系統(tǒng)保留了趨勢項的關鍵特征;向上及向下階躍模式則篩選出刻畫階躍項的關鍵特征。由結果可知,通過MMTS中正交表和信噪比篩選的結果符合各模式實際情況,能更好地刻畫這些模式特點。同時,將篩選后的指標代入MMTS中計算正常和異常樣品的馬氏距離,發(fā)現(xiàn)馬氏距離差異更大,說明訓練效果較好。

表3 特征篩選結果及閾值Tab.3 The results of selected features and thresholds
(4)測試集模式識別。計算測試集各樣品到各模式的馬氏距離并與各模式馬氏空間的閾值比較,以一次實驗結果說明。①測試集中共有12個樣品均不屬于任何一類。由多類判別準則可知,需比較各樣品到各模式的馬氏距離,最小馬氏距離即識別為該模式。以樣品編號83、184、491、582為例(表4)。由表4可知,雖然這些測試樣品在各自模式判定時超過設定的閾值,但與其他模式的馬氏距離相比差異較大,說明特征空間的構建良好,能較好地刻畫各模式的特征。除列舉的樣品外,其余樣品根據(jù)多類判別準則,均落入各自所屬的模式中。②未出現(xiàn)同一樣品判定為多類情況。③剩余樣品均劃分為正確的類別。

表4 樣品在各模式中的馬氏距離Tab.4 The MD of samples in different patterns
綜上所述,6種模式共120個測試樣品,通過建立的多類判別準則,各類別的識別準確率均為100%,且五次交叉驗證結果均為100%。
本文經過五折交叉驗證,控制圖模式識別的結果均未出現(xiàn)誤判,識別精度為100%。實驗結果表明,基于時間序列混合模型及MMTS的控制圖模式識別方法是有效的且識別精度高。
基于時間序列混合模型對控制圖提取的12個典型特征,在參與MMTS算法訓練時,正常樣本和異常樣本的馬氏距離差異較大,說明這些典型特征可以有效表征控制圖的各模式特點,且參與分類器識別時,使得分類器的辨識度更高。同時,在控制圖模式模式中,經常會出現(xiàn)控制圖的混合模式,例如階躍趨勢上升模式、階躍趨勢下降模式。此時,由于時間序列混合模型既可以對趨勢項參數(shù)進行估計,又可以對階躍項參數(shù)進行估計,因此對于這種混合模式,時間序列混合模型可以有效識別出趨勢項和階躍項特征。所以,當MMTS對混合模式進行識別時,也會因為趨勢項和階躍項的參數(shù)都較為顯著而將混合模式從各種模式中識別出來。
在以往文獻中,特征約減與分類器是作為兩個獨立模塊共同參與模式識別的,而MMTS將特征約減與分類器作為一個整體。通過正交表和信噪比,將各模式特征從12個約減為5~8個,實現(xiàn)了基于訓練過程的特征約減,從而篩選出的有效特征能更好地輔助后續(xù)識別工作。
為了進一步驗證時間序列混合模型特征提取結合基于多類判別準則MMTS的有效性,選用了統(tǒng)計特征提取結合MMTS算法、分段線性模型特征提取結合MMTS算法、時間序列混合模型特征提取結合多分類支持向量機(MSVM)算法以及基于二叉樹算法的MMTS,比較降維前后特征數(shù)量及識別精度,識別效果見表5。

表5 識別精度對比Tab.5 The comparison of identification accuracy
由表5可知,統(tǒng)計特征及分段線性特征提取不僅提取特征較多,且并不能較好地刻畫典型特征,分類器識別精度低。基于時間序列混合模型與MSVM分類器結合,雖然識別精度較高,但MSVM并沒有剔除冗余特征。基于二叉樹算法的MMTS多類識別,效果也不如基于多類判別準則的識別效果好。對比結果說明,基于時間序列混合模型及MMTS算法相對于其他算法而言,特征約減有效,多類識別精度更高,這也說明本文的方法改進具有實踐意義。
某汽車制造商的發(fā)動機組裝工藝中,凸輪軸的長度必須為(600±2)mm。如果凸輪軸長度超出規(guī)格會引起生產線下道工序組裝失配,導致很高的廢品率和返工率。采用單值控制圖進行在線監(jiān)測以發(fā)現(xiàn)過程異常波動,從而判定異常類型。收集一個月內每個班次5個凸輪軸長度數(shù)據(jù),用于評估該產品的生產質量。系統(tǒng)監(jiān)控運行時,以寬度為30的窗口在控制圖上移動取值。控制圖上每插入一個值,便以窗口內的控制圖序列執(zhí)行特征提取及模式識別,從而對異常模式報警并識別模式類型。
在某時段系統(tǒng)共監(jiān)測了該長度的80次測量值,如圖6所示。系統(tǒng)在過程中出現(xiàn)以下問題:①當插入第70個數(shù)據(jù)點時發(fā)出報警,有向下趨勢模式出現(xiàn),系統(tǒng)中一直處于向下模式預警;②當插入第76個數(shù)據(jù)點時發(fā)出報警,有向下階躍模式出現(xiàn)。從控制圖的數(shù)據(jù)圖可以看出,系統(tǒng)反映情況與實際情況基本相符。同時根據(jù)異常模式類型分析原因且逐一排查,最終發(fā)現(xiàn)異常是由于刀具磨損所致。

圖6 凸輪軸單值控制圖Fig.6 Single-valued control chart of camshaft
上述案例說明了本文提供的特征提取模型及分類器能夠有效識別實際加工中產品質量波動情況,說明該方法在實際生產中有應用價值。
(1)本文通過時間序列混合模型特征提取,強化了控制圖各模式的特征表達,使得各模式的信息得到了完整的描述。
(2)運用多分類馬田系統(tǒng)方法進行特征降維,不僅有效剔除各模式中的冗余特征,降低分類模型復雜度,還提高了分類器的識別精度。
(3)改進的閾值和多類判別準則使得控制圖的多類模式均得以識別,實現(xiàn)了真正意義的智能識別。