吳 雙,石宇強
(西南科技大學 制造科學與工程學院,綿陽 621010)
隨著全球智能制造浪潮興起,智能工廠成為企業(yè)信息化、自動化以后進入智能制造的關鍵環(huán)節(jié)[1],其中質(zhì)量控制作為制造業(yè)生命線,受到越來越多的關注[2]。在智能工廠中,高度信息化帶來的海量多源數(shù)據(jù)里包含了幾十或幾百道工序,工序特征多且存在數(shù)據(jù)異常等的情況[3],使得控制模型需具備足夠的穩(wěn)定性和精確性。此外,工業(yè)生產(chǎn)通常在排除不期望因素的相似環(huán)境下進行,數(shù)據(jù)相似性高,造成有直接意義的樣本比例極少[4]。這就形成了智能工廠工業(yè)大數(shù)據(jù)的特點:雖然存在海量產(chǎn)品質(zhì)量數(shù)據(jù),但樣本量少而特征多。
在制造過程質(zhì)量控制方法研究中,主要分為:抽樣檢驗法、統(tǒng)計過程控制法、智能控制法[5,6]。雖然前兩種方法可在質(zhì)量控制中取得較好效果,但在制造完成后才能實施,不能及時改變現(xiàn)有質(zhì)量狀況;而智能控制法可通過建立準確合理的預測模型,滿足智能工廠提前預測質(zhì)量問題的需求。在智能控制法中,朱慧明[7]提出用Gibbs抽樣的MCMC法,構建自相關過程貝葉斯質(zhì)量控制模型,解決工序質(zhì)量中自相關過程的質(zhì)量控制問題。蔣晉文[8]等基于設備加工參數(shù),建立XGBoost產(chǎn)品質(zhì)量預測模型,并與gc Forest、隨機森林算法對比,驗證了XGBoost具有更高準確性。張蕾[9]為解決質(zhì)量控制延時性問題,采用BP神經(jīng)網(wǎng)絡建立預測控制模型,實現(xiàn)了機床加工誤差實時預測與反饋調(diào)節(jié)。
上述研究均促進了產(chǎn)品質(zhì)量控制發(fā)展,但研究針對少量特定特征參數(shù),未考慮智能工廠中多工序盲特征的海量質(zhì)量數(shù)據(jù),且通常采用單一智能算法,極易造成預測值局部最優(yōu)或過擬合等問題,影響質(zhì)量控制精度。在反饋調(diào)節(jié)研究中,較少同時考慮高度信息化帶來的大量數(shù)據(jù)處理對預測精確性與控制實時性的影響[10]。
基于此,針對智能工廠中多特征少樣本的海量質(zhì)量數(shù)據(jù)與實時控制要求,首先設計了產(chǎn)品質(zhì)量智能預測控制的集成結構;隨后綜合考慮BP網(wǎng)絡在海量數(shù)據(jù)處理中較好的時效性,和XGBoost在多特征少樣本數(shù)據(jù)中較好的靈活性和準確性,提出一種BP-XGBoost混合模型的產(chǎn)品質(zhì)量預測控制模型。
在智能工廠大數(shù)據(jù)、云計算等提供的數(shù)據(jù)高速處理環(huán)境中,結合智能算法,提出產(chǎn)品質(zhì)量智能預測控制集成結構,同時實現(xiàn)制造過程的質(zhì)量預測控制實時調(diào)整和預測模型精度提升。具體流程如圖1所示。

圖1 質(zhì)量預測控制集成結構
通過傳感器采集數(shù)據(jù)信息,將采集到的運行數(shù)據(jù)(分別為工序數(shù)和特征數(shù))進行清洗篩選等處理,利用相關分析提取特征工程,實現(xiàn)數(shù)據(jù)降維,再用BPXGBoost模型預測產(chǎn)品質(zhì)量均方誤差,沒有超過閾值的即質(zhì)量合格,超過閾值數(shù)據(jù)將繼續(xù)預測質(zhì)量問題特性值,診斷質(zhì)量問題類別,再反饋到設備中,利用智能算法實現(xiàn)加工過程的實時監(jiān)控和預警(如圖2所示)。預先發(fā)現(xiàn)工序問題,防止流入后道工序中,降低生產(chǎn)成本,優(yōu)化產(chǎn)品良率,且能實現(xiàn)加工過程的自動調(diào)整,提高工廠運行的智能化。
在智能工廠MES系統(tǒng)質(zhì)量控制中,設備信息化運行過程中獲取大量工業(yè)數(shù)據(jù),其挖掘和分析結果在質(zhì)量體系中可應用于包括產(chǎn)品質(zhì)量預測、產(chǎn)品質(zhì)量控制和工業(yè)綠色發(fā)展在內(nèi)各個環(huán)節(jié)。控制層的實時感知與智能算法結合實現(xiàn)產(chǎn)品質(zhì)量問題預測,同時調(diào)節(jié)控制相關設備,保障產(chǎn)品質(zhì)量控制的實時準確。
智能工廠制造過程工業(yè)數(shù)據(jù)里可包含幾百道以上工序,每道工序特征不唯一,且數(shù)據(jù)由儀器采集可能存在異常。由于工業(yè)數(shù)據(jù)通常在既定常態(tài)運行模式下獲取,對干擾因素會進行相應壓制,在相似環(huán)境下獲取的大量數(shù)據(jù)相似度極高,造成樣本獲取不均衡,樣本量低而特征維度多。尤其對于工業(yè)領域預測控制實驗(如產(chǎn)線機器故障、有害物體泄露等)成本或風險太高[3],實際上要提供足夠的異常情況樣本也是不現(xiàn)實的。
基于上述情況,采用單一的智能算法直接進行機器學習訓練預測模型,極易造成預測值局部最優(yōu)或過擬合等問題,無法真正有效學到訓練集中的分布。因此要將其海量數(shù)據(jù)進行預處理后降維,提取核心特征,對質(zhì)量問題進行二分類。再根據(jù)預測值將問題工序質(zhì)量數(shù)據(jù)導入適應于多特征少樣本的模型判斷其問題類別,并進行反饋。
神經(jīng)網(wǎng)絡利用時空位置建模可以較好的捕捉圖像或語音等大單位數(shù)據(jù)。但當沒有足夠的訓練數(shù)據(jù)來匹配特征維度,并且網(wǎng)絡深度過高模型復雜時,支持線性分類器的XGBoost就顯現(xiàn)出了優(yōu)勢[11]:
1)XGBoost可每次提升過程迭代時運行交叉驗證,易在一次運行中獲得精確的最佳提升迭代次數(shù);
2)防止過擬合:損失函數(shù)中加入正則項,使模型簡單化,column_subsampling即特征抽樣,也可防止過擬合并有利于并行化處理;
3)自動學習分裂缺失值節(jié)點方向,填補缺失值;
4)XGBoost允許自定義優(yōu)化目標和評估標準。增加模型可解釋度,且shrinkage縮減為每層樹模型增加權重參數(shù),提供模型優(yōu)化空間;
5)XGBoost支持并行,提高計算速度。
在智能工廠運行的工業(yè)數(shù)據(jù)質(zhì)量控制中,綜合考慮BP神經(jīng)網(wǎng)絡處理海量數(shù)據(jù)的高效,及XGBoost算法處理多特征少樣本大維度數(shù)據(jù)的準確性、靈活性及模型可解釋性,提出基于BP-XGBoost混合模型實現(xiàn)產(chǎn)品質(zhì)量預測控制(如圖2所示),簡化模型參數(shù)的同時提高模型穩(wěn)定性、精確性和運行效率。

圖2 BP-XGBoost產(chǎn)品預測控制模型流程
1)數(shù)據(jù)預處理
在智能工廠運行狀態(tài)下,對初始數(shù)據(jù)Xij(i、j分別為工序數(shù)和特征數(shù))進行數(shù)據(jù)清洗,剔除丟失超過50%的列、重復列、時間序列等相關性小的特征維度。并通過one—hot對設備型號Object進行數(shù)字編碼,即創(chuàng)建二進制向量表達機器型號。用中位數(shù)填補剩余缺失值,并通過式(1)對Xij進行歸一化處理,將原始數(shù)據(jù)線性變換后映射到[0,1]之間,方便之后計算。

其中Xmin為最小樣本值,Xmax為最大樣本值。
2)特征工程提取
在多工序多維度的盲特征條件下,需要進行不相關或冗余特征的剔除,減少有效特征個數(shù),提高模型精度和運行效率。用pearson相關系數(shù)計算變量間的線性關系,由式(2)求得pearson相關系數(shù)r:
中相關系數(shù)值r∈[-1,1],+1表示正相關,-1表示負相關,是數(shù)據(jù)集Xij的平均數(shù),Y是數(shù)據(jù)集Y的平均數(shù),SX、SY分別為數(shù)據(jù)集Xij、Y的標準差,N是樣本數(shù)。
3)構建訓練集與測試集
將實例數(shù)據(jù)劃分測試集和訓練集,導入提取后的特征工程Xn(特征數(shù)n=1,2,…,N*)到BP網(wǎng)絡,如圖3所示。

圖3 BP網(wǎng)絡結構圖
將特征工程Xn輸入BP網(wǎng)絡,通過式(3)得到第一層網(wǎng)絡計算參數(shù)Z1n(其中W1是隱藏層權值,b1n是Xn偏向量),A1n是Z1n的雙曲正切函數(shù)(tanh),A1n∈[-1,1]。同理式(4)得第二層網(wǎng)絡計算參數(shù)Z2n,激活為A2n。求得損失函數(shù)Cost,如式(5)所示(其中N*是特征提取數(shù),Yn是實際值),損失函數(shù)越小,準確率越高。

4)進行質(zhì)量預測
當損失函數(shù)足夠小時,進行模型驗證,由式(6)計算預測值Ypre,并對Ypre進行問題產(chǎn)品和合格產(chǎn)品二分類,其中y0是判斷閾值,當A2n>y0時,產(chǎn)品為問題質(zhì)量;當A2n≤y0時,產(chǎn)品合格。

對樣本問題工序預測值A2n(A2n>y0)的工序加權缺陷數(shù)進行排列,如表1所示,其中a<b<c,ki、Di(i=1,2,3,4,5)為常數(shù)。

表1 預測值工序加權缺陷數(shù)
根據(jù)預測值取Ypre=1的問題數(shù)據(jù)導入XGBoost模型,并將該預測值區(qū)間的工序加權缺陷數(shù)從大到小排列,優(yōu)先導入最大可能缺陷工序,判斷是否合格,如合格則進行該預測區(qū)間加權缺陷排序第二大工序的質(zhì)量問題判斷,以此列推,找到問題工序,導入XGBoost模型(如圖4所示),其中Xij(i為工序數(shù)字,j為特征數(shù)字),δ1、δ2分別為工序i的Xi1、Xi2特征閾值,W為樹模型葉子權重。

圖4 XGBoost工序i的質(zhì)量預測
用XGBoost建立多個并行分布式預測樹,對于第i個工序的j個特征,導入數(shù)據(jù)集Di=(Xi1,h1),(Xi2,h2),…,(Xij,hj),判斷問題工序的問題特征。每個樣本的質(zhì)量預測結果yipre是每棵樹預測分數(shù)和,如式(7)所示,其中是 Γ伽馬函數(shù)。

XGBoost分裂節(jié)點損失函數(shù)是誤差函數(shù)和正則化向之和,如式(8)所示。表示i工序第j個樣本的預測誤差。∑jΩ(fj)表示樹的復雜度函數(shù),具體如式(9)所示,誤差函數(shù)越小,模型預測越準確。


其中T表示葉子節(jié)點個數(shù),ω表示節(jié)點數(shù)量。
5)質(zhì)量控制
提取問題工序不合格特征設備編碼,進行反饋預警,并分析問題質(zhì)量特征值大/小,使相應設備上升/下降最小單位參數(shù)(如0.01),等待進一步反饋信息,繼續(xù)調(diào)節(jié)/停止調(diào)節(jié)。
為驗證模型性能,對比BP網(wǎng)絡和XGBoost算法性能與其混合模型的精確性和穩(wěn)定性,以信息化程度高的半導體產(chǎn)業(yè)數(shù)據(jù)為例,基于中國天池數(shù)據(jù)實驗室TFT-LCD(薄膜晶體管液晶顯示器)反應機臺的溫度,氣體,液體流量,功率,制成時間等因子數(shù)據(jù),對三種方法進行驗證比較。
該仿真數(shù)據(jù)訓練樣本少(500例),而特征維度多(每例數(shù)據(jù)包含8029列字段):包含幾百道以上的工序,不同工序用字段名字區(qū)分,例如 210X1,210X2。300X1,300X2。字段中的TOOL_ID為每道工序使用的機臺,數(shù)據(jù)中存在缺失值。借助python3.6平臺實現(xiàn)對TFT-LCD產(chǎn)品質(zhì)量預測控制模型的仿真實驗,通過前期數(shù)據(jù)預處理,仍余6851維數(shù)據(jù),求得pearson系數(shù)按相關性排序如圖5所示。

圖5 部分數(shù)據(jù)pearson相關性系數(shù)熱圖
為方便觀察,按相關性由大到小輸出pearson相關系數(shù)的兩兩相關,部分系數(shù)如表2所示。
分析數(shù)據(jù),選取不同相關性特征進行相關性查看,如圖6所示,發(fā)現(xiàn)特征值存在階段性,為保證每個階段都有取值,實例數(shù)據(jù)特征選取相關性強的前100維數(shù)據(jù)。

表2 pearson系數(shù)由大到小排列
為對比算法性能,將特征工程導入BP、XGBoost模型中,并以公式(10)的均方誤差作為訓練收斂評估標準,BP網(wǎng)絡和XGBoost模型誤差收斂如圖7所示。



圖6 質(zhì)量特征兩兩相關數(shù)據(jù)圖
由圖7可以看出XGBoost在200次迭代后已開始收斂,模型穩(wěn)定。輸出訓練集準確率0.960,測試集準確率0.720。BP網(wǎng)絡訓練收斂較慢,輸出訓練集準確率0.931,測試集準確率0.691。與BP神經(jīng)網(wǎng)絡相比,在多特征少樣本的訓練數(shù)據(jù)下,XGBoost模型訓練收斂速度更快。

圖7 三層BP神經(jīng)網(wǎng)絡、XGBoost均方誤差曲線圖
采用基于BP-XGBoost混合模型建立的產(chǎn)品質(zhì)量預測控制模型,先用BP神經(jīng)網(wǎng)絡進行質(zhì)量問題的二分類,分為合格產(chǎn)品和不合格產(chǎn)品(如圖8所示),將不合格質(zhì)量集導入XGBoost模型中,重復XGBoost單模型調(diào)參,輸出訓練集準確率0.980,測試集準確率0.813。

圖8 質(zhì)量預測值二分類
在智能工廠高維海量數(shù)據(jù)的背景下,為更直觀對比三種方法,將對各模型進行匯總比較,如表3所示。

表3 模型評估
對BP-XGBoost來說,在三個模型中效果是最佳的,不管是訓練集還是測試集表現(xiàn)都較優(yōu),其中測試集Y值達到了0.813,三個質(zhì)量預測值和真實值的曲線圖如圖9所示,表明在分類的精準度上還是穩(wěn)定程度都要略優(yōu)于其他兩個單模型模型。


圖9 三個模型預測值(黑)和真實值(灰)曲線圖
從樣本空間來說,BP神經(jīng)網(wǎng)絡處理大量數(shù)據(jù)的用時更短,XGBoost對位于正負樣本邊界的數(shù)據(jù)分類更精準。XGBoost的梯度提升可以有效降低預測值的偏差,在迭代過程中能夠持續(xù)擬合上一次的殘差,而BP神經(jīng)網(wǎng)絡當樣本噪聲干擾大時很容易就過擬合了,與BP神經(jīng)網(wǎng)絡和XGBoost單模型相比,BP-XGBoost混合模型經(jīng)過了二次分類的效果更穩(wěn)健,且對應合適的算法其處理速度更快更準確。
本文針對智能工廠多特征少樣本與海量數(shù)據(jù)的特點,設計了適應智能工廠的質(zhì)量預測控制集成架構,并依托該構架,構建基于BP-XGBoost的產(chǎn)品質(zhì)量預測控制模型,該模型通過相關系數(shù)、BP神經(jīng)網(wǎng)絡、XGboost等方法,進行數(shù)據(jù)預處理、數(shù)據(jù)降維、分類和質(zhì)量問題分析反饋,最終達到有效控制產(chǎn)品質(zhì)量的目的,為智能工廠的數(shù)據(jù)處理、加工過程優(yōu)化、生產(chǎn)成本降低、企業(yè)競爭力提升提供了較為可靠的參考依據(jù)。