司立娜, 顏志強, 劉祖耀, 劉路, 朱亮
(1.深圳長城開發科技股份有限公司, 廣東, 深圳 518035;2.西安電子科技大學, 機電工程學院, 陜西, 西安 710000)
工業數據本身具有規模大、數據產生更新速度快、類型多而雜、價值密度低的特征,電子產品生產制造過程中也是如此,并且產品的過站工序合格率通常可達99%,異常的數據少,因為異常數據往往只會偶發于某個工序或某臺機器設備或某一段未知的短暫時間段內,這就使得所產生的數據大多數為合格數據,異常數據占比非常小,這種不平衡狀態分布的數據容易使得異常數據中的價值信息被掩藏,為進一步識別工藝參數改善因子,需要考慮如何從這種不平衡數據中提取出有價值的數據子空間進行研究。
數據子空間是相對于數據全空間而言,在刻畫數據的所有特征屬性中提取少量關鍵屬性來組成新的數據空間,尤其是對高維的不平衡數據進行分析時,顯得尤為重要。文獻[1]使用PSO-SPLOF算法來探討研究局部離群數據的子空間劃分,文獻[2]給出了使用信息增益的決策樹算法應用到網絡高維軟子空間聚類中,文獻[3]給出了一種基于基尼指標加權的離群子空間數據挖掘方法,文獻[4]為解決實際財務數據分布的不平衡性,提出了將馬田系統與集成分類算法(AdaBoost)相結合的算法設計,此算法可實現自動調節分類器樣本的概率來更正平衡度。這些方法的應用也表明了數據挖掘的方法在提取和挖掘處理數據子空間及數據平衡分布中發揮著重要的作用,所以對于實際應用的工業數據,提出了基于傳統CART樹和CART樹改進方法研究提取數據子空間。
傳統的機器學習方法在具有超低價值率的工業數據挖掘中發揮著重要作用,如何從大量無規律的、超低價值率的數據空間中提取出具有明顯規律特征的子空間數據集是本文的主要研究出發點,基于實際應用案例的需求,探索使用數據挖掘算法,包括傳統的機器學習算法(CART)和改進的算法(雙CART)來進行研究。
分類回歸樹(CART)算法最早由BREIMAN等[5]提出,目前已在統計領域和數據挖掘技術中普遍使用。它是用基尼系數代替熵模型,將最大化不純度降低(或等價地,具有最小基尼指數)的屬性選擇為分裂屬性,由CART算法構建的決策樹在很多情況下比常用的統計方式構建的代數預測更加準確,而且數據越復雜,變量越多,算法的優越性越顯著。
CART算法又稱CART決策樹算法,是應用于分類的一種樹結構,其中每個內部節點代表某一屬性的一次測試,每條邊代表一個測試結果,葉子節點代表某個類或類的分布。CART算法基于基尼指標求出作為根節點的屬性,然后自上而下以遞歸的方法構建模型,直至每個樣本集在劃分后都是完全純凈的,則停止建樹。基尼指標用于度量樣本的雜質度,對于樣本集合D,定義[6]如式(1)
(1)
基尼指數考慮每個屬性的二元劃分,當考慮二元劃分裂時,計算每個結果分區的不純度的加權和,如果A的二元劃分將D劃分成D1和D2,則給定該劃分,D的基尼指數為
(2)
在實際應用的工業數據中,傳統的CART算法主要表現為分類準確率偏低,算法計算量偏大等情況,所以對傳統CART方法進行改進,即提出了雙CART法,增加人工設定閾值的方向進行后剪枝和兩次CART分類樹創建,目的是減小計算量,使得分類更加精確。雙CART具體算法步驟如下:
Step 1 對所選原始超限數據構建第一棵CART樹,得到葉子數據集{s1,s2,…,sn},每個葉子中均包含正負樣本兩類(即超上限類和超下限類);
Step 2 設定樣本量初始閾值N0(一般選取總樣本量的10%)和正負樣本比例值初始閾值R0(一般初始選擇60%,對第一步所產生的葉子數據集進行篩選,得到滿足條件的候選數據子集{h1,h2,…,hk};
Step 3 對第二步所篩選得到的候選數據子集繼續構建CART樹,得到k棵CART分類樹,計算每棵分類樹的AUC,并設定AUC閾值,選擇出最優分類路徑和此路徑的葉子數據集的樣本量N及R;
Step 4 根據新的樣本量N及R定為最終設定樣本量和正負樣本比例值閾值選取,返回Step 2繼續,得到最終最優分類路徑和最優數據子空間。
機加工關鍵尺寸是公司產品生產工序中最重要的質量控制參數,將雙CART分析方法應用到了尺寸數據分析當中,進一步篩選出尺寸異常數據的影響因子,指導生產現場工藝參數優化,目的是提高產品生產工藝能力指數,滿足客戶需求目標。
機加工關鍵尺寸數據的相關影響因子有機臺號、停機時間、車間溫度與測試溫度之差(又稱溫度差)、抽檢時間與測試時間之差(又稱時間差)、真空值等。使用雙CART方法,在第一步CART分類時設定初始閾值候選數據集數據量為最小30,葉子節點的正負樣本比例最小60%,篩選出風險路徑為超下限候選數據集路徑5、路徑7、路徑10,超上限候選數據集路徑1、路徑4、路徑6、路徑9、路徑13。繼續對這些路徑的葉子數據進行第CART分類,選擇分類準確性AUC大于0.9的路徑為最優分類路徑,即風險最大路徑,迭代優化得出選擇候選數據集時設定樣本量閾值N最小為50,R最小為70%,同步得到最優分類路徑為機臺號、待機時間、機臺號,路徑分析發現主要影響因子集中于機臺號(2,9,16,22,23,37,41,46)和停機時間(小于2426 s內,即停機重啟后2426 s內),這些是需要重點關注和改善的方面。雙CART方法有效提取到了異常數據的屬性子空間,同時也減少了傳統CART算法的冗余計算量,并識別到了機加工關鍵尺寸數據的主要影響因子和改善方向。

圖1 CART樹輸出結果

表1 雙CART輸出路徑(初始N0和R0)部分示意表

表2 雙CART輸出最優路徑結果(AUC閾值>0.9)
本文提出了使用雙CART方法進行數據子空間提取處理分析,并應用到機加工關鍵尺寸數據分析,實例表明雙CART方法應用分類效果顯著,可以從大量無規則的數據中提取有強相關的數據子空間,并且使用雙CART方法識別到了影響尺寸質量的主要屬性因子及風險路徑,明確了機加工設備長時間停機重啟后的重點監控時段時長,給出了在此時段內需要進行特殊監控的建議,即現場工藝人員重點關注此時段產出質量并持續調整機加工設備關鍵參數,結果驗證了改善措施實施后工藝能力指數得到了提升。