齊德全,陳實
(長春理工大學 數學與統計學院,長春 130022)
統計過程控制(Statistical process control,SPC)是保證產品與服務符合規定要求的一種質量管理技術,可以為“優質”提供質量技術上的指導與幫助。SPC的理論研究始于對一元連續點數據的監控,目前已由一元豐富到多元及高維數據流,由連續數據豐富到離散數據,由點數據豐富到線數據及面數據,其理論研究結果已十分豐富。SPC現已廣泛用于工業質量控制[1]、醫學診斷[2]、交通流[3]和網絡安全[4]等諸多領域。
線性輪廓數據在實際生產中常常用到,例如,在半導體制造業,氣體的流動取決于流量控制器的壓力;在電氣工程領域,電容器的電荷取決于電容水平。關于線性輪廓數據的在線監控問題,許多學者給出了監控效果非常好的方法。2000年Kang等人[6]提出兩種控制圖在線監控線性輪廓數據,一種是多元T2控制圖,另一種是指數加權滑動平均(EWMA)控制圖與R控制圖的結合。Kim等人[7]于2003年提出將自變量x中心化,使自變量的平均值等于0,并通過三個獨立的EWMA控制圖分別監控截距、斜率和標準差,稱為KMW控制圖。但上述控制圖參數估計過于繁瑣、效率太低、控制圖不易構建。針對這些問題,2007年Zou等人[8]提出多元指數加權移動平均(MEWMA)控制圖來監控線性輪廓數據的截距、斜率和標準差。模擬結果表明MEWMA控制圖對中小漂移的監控性能要好于KMW控制圖。么彩蓮等人[9]在2020年提出一種基于加權似然比檢驗(WLRT)的方法用于在線監控線性輪廓數據。在監控截距和斜率漂移時,WLRT控制圖與KMW和MEWMA控制圖性能很接近。但在監控標準差漂移時,WLRT控制圖性能較好。
WLRT、MEWMA和KMW控制圖的監控效果都受到光滑參數的影響,較大的光滑參數對大漂移較有效,較小的光滑參數對小漂移較有效。當實際漂移大小不是所設計的光滑參數所考慮的情況時,控制圖會有很糟糕的表現。但是在監控生產過程中,很難準確地知道漂移大小。為了提高線性輪廓數據的監控效果,提出一種自適應的多元EWMA(AMEWMA)控制圖的方法。AMEWMA控制圖與Zou等人提出的MEWMA控制圖的區別在于是自適應的,光滑參數是監控時間的函數,這樣使得對不同大小的漂移都具有更有效的監控性能。為了說明AMEWMA控制圖監控線性輪廓數據的有效性,通過蒙特卡洛模擬和化學工業氣體傳感器案例的實際數據,對所提出方法進行檢驗,AMEWMA控制圖的監控性能比現有的控制圖更有效。
假設在任意時刻t得到的隨機樣本為(xi,yit),i=1,2,…,n,t=1,2,…,n。對于第 t條曲線,設響應變量yit與解釋變量xi之間的關系如下:

假設式(1)在第τ時刻,發生了未知的漂移。為了監控該變點模型,考慮檢驗如下假設:

根 據 Lowry[10]和 Prabhu[11]的 研 究 ,Zou 等人[8]提出了使用如下的MEWMA控制圖來監控線性輪廓數據。假設Zt=[Z1t,Z2t,…,Zpt]'是一個p×1的向量,服從多元標準正態分布,即Zt~Np(0,I),其中0是p×1的零向量和I是p×p的單位矩陣。
設{At}是基于{Zt}的MEWMA序列,定義如下:

當 t=1 時,則Al-1=A0。A0=0;λ ∈ (0,1]。當監控過程受控時,At的平均向量是0,漸近協方差矩陣是的情況下報警,其中L>0是控制限,λ是光滑參數。
MEWMA控制圖的監控效果受到光滑參數的影響,因此本節提出了如下的自適應的EWMA(AMEWMA)控制圖。將光滑參數定義為監控時間的函數,讓光滑參數λ隨著監控的時刻發生變化,在每個時刻可以根據模型的漂移大小選擇合適的λ,這樣同時兼顧了對大中小漂移的監控效果。
首先求序列Ut=Z'tZt的均值u,將光滑參數定義為如下監控時間t的函數:。MEWMA 控 制 圖 在

在監控過程中的每個時刻都可以通過定義的函數g(t)在較大漂移時選擇較大的光滑參數;在較小漂移時選擇較小的光滑參數。因此當模型發生漂移的時候,控制圖能夠快速發出報警信號。
然后計算基于g(t)和Zt的AMEWMA序列{Jt}:

當t=1時,則Jt-1=J0。其中,J0=0;g(t) ∈ (0,1]。當J'tJt超過控制限h時,AMEWMA控制圖發出失控的警告。
監控過程的流程圖如圖1所示。

圖1 監控過程的流程圖
先通過數值模擬將所提出的AMEWMA控制圖與WLRT、MEWMA和KMW控制圖進行性能比較,再通過化學工業氣體傳感器的數據集進行實證分析。
參考么彩蓮等人[9]的線性受控模型,設yit=A0+ A1xi+ εit= 3+ 2xi+ εit,εit~N(0,1),其 中t為任意時刻,x(ii=1,2,3,4)取固定值2、4、6、8。將xi中心化,得到模型為
在控制圖的比較中,平均運行長度(ARL)是非常重要且常用的評價指標。當過程受控時,ARL越大的控制圖比其他控制圖的誤報率越低。當過程失控時,ARL越小的控制圖監控過程漂移的效果越好。為了公平,本節中將所有控制圖的參數λ取為0.2,并將受控時的ARL(記為ARL0)取為200,然后比較失控時的ARL(記為ARL1)。本節后面的所有結果都基于100 000次模擬。
為了研究AMEWMA控制圖檢測模型漂移時的性能,設截距、斜率和標準差漂移的形式為:A0'=A0+ α,A1'=A1+ β,σ'= γσ。當截距A0發生漂移時,控制圖的ARL1結果如表1和表2所示。

表1 截距漂移時(0.1~0.5),控制圖的ARL1

表2 截距發生漂移時(0.6~2.0),控制圖的ARL1
根據表1和表2的ARL1對比可以看出:當截距發生小漂移或發生中大漂移的時候,AMEWMA控制圖的ARL1都小于WLRT、MEWMA和KMW控制圖的ARL1。由此可見,AMEWMA控制圖監控截距漂移的效果較好,KMW、WLRT和MEWMA控制圖的效果相近。例如,在α=0.1時,AMEW-MA、WLRT、MEWMA和KMW控制圖的ARL1分別為112.4、131.2、131.5、133.7。斜率和標準差發生漂移時,控制圖的ARL1結果如圖2和圖3所示。

圖2 斜率漂移時(0~0.25),控制圖的ARL1

圖3 標準差漂移時(1.0~3.0),控制圖的ARL1
由圖2和圖3可知,斜率漂移時,AMEWMA控制圖的ARL1曲線在WLRT、MEWMA和KMW控制圖的ARL1曲線下方。AMEWMA控制圖具有較好的檢測能力,能較快地發現過程變化,WLRT、MEWMA和KMW控制圖的性能相近;標準差漂移時,AMEWMA的ARL1曲線幾乎與WLRT、MEWMA和KMW控制圖的ARL1曲線重合。AMEWMA控制圖與WLRT、MEWMA和KMW控制圖的性能相近。
為了進一步說明AMEWMA控制圖監控線性輪廓數據的有效性,研究了中心化模型系數B0和 B1同時漂移時,AMEWMA、WLRT、KMW 和MEWMA控制圖的ARL1結果比較。設漂移形式為 B'0=B0+ θ1,B'1=B1+ θ2。結果如圖 4 所示。
由圖4可知,當截距和斜率同時發生小漂移或同時發生中大漂移的時候,AMEWMA控制圖的性能一致好于WLRT、MEWMA和KMW控制圖。

圖4 斜率和截距同時漂移時,控制圖的ARL1
選取UC Irvine機器學習中的化學工業氣體傳感器的數據集進行實證分析。MOX傳感器TGS2612(5 V)對一氧化碳(CO)濃度水平取值為25、100、125、150 ppm 的電阻(R)。其中,電阻(R)為響應變量,一氧化碳(CO)的濃度為解釋變量。
數據集共有900個觀測值,3個列變量。其中第一列是檢測出的電阻(R),第二列是一氧化碳(CO)濃度水平,分別為25、100、125、150 ppm,第三列是每個觀測值所對應的標簽,其中0為合格品,共800組;1為不合格品,共100組。
為了驗證所提控制圖在實際應用中的效果,選取標簽為0的觀測值作為可控數據集。第一步將800組合格品分成訓練集和測試集,其中訓練集有600組合格品,測試集有200組合格品;第二步通過訓練集的樣本使用最小二乘估計對模型進行估計,得到電阻(R)和一氧化碳(CO)的線性模型:R=71.712 33-0.01371354CO。計算各個控制圖的控制限h,其中ARL0取為200。第三步從測試集中隨機抽取20組合格品作為受控據集,再抽取標簽為1的10組不合格品作為異常數據集進行監控,計算過程監控統計量,當統計量超過了控制限,就發出失控的報警信號。各控制圖的監控效果如圖5所示,圖5中黑線代表每個控制圖的控制限h。

圖5 實例結果對比
由圖5可知,AMEWMA控制圖在第1個失控樣本出現時發生了警報;WLRT控制圖在第4個失控樣本出現時發生了警報;MEWMA和KMW控制圖都是在第3個失控樣本發生了警報;KMW控制圖在第5個失控樣本沒有發生報警。過程失控時,報警越早的控制圖表現越好。由此可見,AMEWMA控制圖對過程的監控效果優于其他三個控制圖。
在線監控線性輪廓數據時,實際漂移的大小不是光滑參數所考慮的情況時,控制圖可能會有很糟糕的表現。為了解決這一問題,提出一種自適應的多元EWMA(AMEWMA)控制圖,用于監控線性輪廓數據的截距、斜率和標準差。通過模擬結果可知,當截距和斜率發生小漂移或發生中大漂移的時候,AMEWMA控制圖的性能一致好于WLRT、MEWMA和KMW控制圖;標準差發生漂移時,AMEWMA控制圖與WLRT、MEWMA和KMW控制圖性能相近。利用化學工業氣體傳感器案例的實際數據對所提出方法進行了實證分析,AMEWMA控制圖能夠較快地發出失控的警報。