


















摘要:針對熔模精密鑄造工藝參數數據集射線檢測(RT)結果存在合格與不合格數量嚴重不平衡問題,提出一種基于概率分布的合成少數類集成學習(SyMProD-Stacking)的鑄件質量預測方法。該方法首先對原始數據集進行預處理以保證數據質量,然后利用Z分數去除噪聲數據,為每個少數類實例(不合格鑄件)分配一個概率并基于此概率分布生成樣本數據以獲取平衡數據集,利用極端梯度提升模型(XGBoost)對所有工藝參數特征進行重要性排序并剔除部分排名靠后的工藝參數,最后將輕量級梯度提升機(LightGBM)、隨機森林(RF)、支持向量機(SVM)和XGBoost模型進行Stacking集成并利用平衡數據集構建質量預測模型。以高溫透平葉片制造過程精鑄工藝為例,對所提出的質量預測方法進行驗證,結果表明:相比于原始數據集構建的預測模型,利用了SyMProD過采樣方法構建的預測模型不合格鑄件的預測準確率提升了75.4%;相比于單一算法模型,所提質量預測方法的曲線下面積(AAUCROC)、幾何均值(Gm)以及F1分數(F1)這3項性能指標分別提升了5.48%~11.59%、3.78%~8.92%、5.72%~11.39%,所提出的方法能夠很好地預測高溫透平葉片精鑄過程在不平衡問題下的鑄件質量。
關鍵詞:高溫透平葉片;不平衡問題;過采樣方法;集成學習;質量預測
中圖分類號:TP182 文獻標志碼:A
DOI:10.7652/xjtuxb202409010 文章編號:0253-987X(2024)09-0094-11
Quality Prediction Method of High Temperature Turbine Blade Castings Based on Unbalanced Process Parameter Data Set
ZHU Tong1, AI Song2, CHEN Kun1, GAO Jianmin1
(1. State Key Laboratory for Manufacturing Systems Engineering, Xi’an Jiaotong University, Xi’an 710049, China;
2. State Key Laboratory of Clean and Efficient Turbomachinery Power Equipment, Deyang, Sichuan 618000, China)
Abstract:In response to the significant imbalance between the quantities of qualified and non-qualified results in the radiographic testing (RT) of the investment precision casting process parameters dataset, this paper proposes a casting quality prediction method using SyMProD-Stacking ensemble learning. The method begins by preprocessing the original dataset to ensure data quality. It then employs Z-scores to eliminate noisy data, assigns a probability to each minority class instance (non-qualified castings), and generates sample data based on this probability distribution to obtain a balanced dataset. XGBoost is used to rank the importance of all process parameter features and removes some of the lower-ranking parameters. Finally, the LightGBM, RF, SVM, and XGBoost models are stacked together through ensemble learning, and a quality prediction model is constructed using the balanced dataset. Taking the precision casting process in the manufacturing of high-temperature turbine blades as an example, the proposed quality prediction method is validated. The results indicate that the predictive model constructed using the SyMProD oversampling method significantly outperforms the model built from the original dataset, with a 75.4% improvement in the accuracy of predicting non-qualified castings. Stacking ensemble learning, compared to individual algorithm models, achieves improvements of 5.48%—11.59%, 3.78%—8.92%, and 5.72%—11.39% in terms of area under curve, geometric mean, and F1, respectively.
Keywords:high-temperature turbine blades of heavy-duty gas turbine; imbalanced dataset; oversampling methods; ensemble learning; quality prediction
傳統的工業產品在生產完成后才會進行檢測,若發現質量問題,對生產工藝和加工過程進行調整和優化[1] ,難以提前制定響應措施。隨著“工業互聯網”和“中國制造2025”等概念的提出,推動了制造生產領域的數字化和自動化,以提高競爭力、持續性和創新能力。越來越多的制造型企業建立了生產過程的數據采集系統、質量控制與分析系統[2]。如何利用制造過程的大數據進行產品質量預測是眾多企業急需解決的難題。
高溫透平葉片是重型燃氣輪機(簡稱重燃)的核心關鍵部件,其制造質量決定了重燃的技術水平。熔模精密鑄造(簡稱精鑄)作為高溫透平葉片制造過程的關鍵工藝,其鑄件的質量很大程度上決定了高溫透平葉片的質量狀態。企業積累了大量的工藝參數數據,這些數據存在特征維度高和類別不平衡等問題,現有的產品質量預測方法具有一定的局限性,難以直接用于精鑄不平衡工藝參數數據集。
不合格品的產生會導致企業額外的成本,通過準確地預測不合格品,企業可以采取相應的預防措施,及時調整生產過程,因此企業通常更加關注不合格品的預測準確率。在精鑄工藝參數數據集中,合格鑄件數遠大于不合格鑄件數,存在嚴重的類別不平衡現象,若利用該數據集直接構建預測模型,存在只有多數類實例(合格鑄件)能夠獲得較高的預測精度,少數類實例(不合格鑄件)預測準確率很低的問題,難以應用于實際生產的質量預測[3-4]。
解決類別不平衡問題的方法主要有3種:基于算法層面的方法、基于代價敏感層面的方法以及基于數據層面的方法[5]。基于算法層面的方法主要考慮預測模型的選擇以及針對算法本身進行一定的改進,這種方法對不平衡數據集處理效果不夠顯著且時間開銷較大。基于代價敏感層面的方法考慮了錯誤分類的較高成本,這種方法需要數據集的領域知識,很難估計出合適的值。基于數據層面的方法平衡了多數類和少數類之間的比例,任何算法均可以利用平衡后的數據構建預測模型,該方法更通用[6]。基于數據層面的方法包括過采樣方法和欠采樣方法,如果少數類數量很少,采用欠采樣方法將刪除大量多數類數據導致模型欠擬合[7]。一般來說,過采樣方法具有更好的性能。合成少數類過采樣技術(SMOTE)選擇若干個最近鄰的樣本,然后根據這些鄰居樣本的特征,生成新的合成樣本[8]。學者們針對SMOTE方法可能會生成噪聲數據、區域重疊、過度泛化等問題提出了一系列改進算法。Han等[9]提出了Borderline-SMOTE技術,根據鄰居類的比例在決策區域的邊界上創建合成實例。He等[10]提出了自適應樣本合成方法,應用基于多數類鄰居比率對少數類實例進行加權的概念。基于聚類的過采樣K-means-SMOTE算法[11]將少數類劃分為幾個不同的子集,然后分別在子集進行過采樣。李敏波等[12]提出了基于密度聚類的過采樣方法MCDC-MF-SMOTE,生成汽車零部件質檢的平衡數據集。Kunakorntum等[13]提出了一種基于概率分布的合成少數類過采樣技術,為每個少數類實例分配一個概率并基于概率分布生成樣本,然后用14個公開數據集和3個分類算法與其他7種傳統過采樣方法進行性能比較,結果表明該方法取得了更好的性能。
產品質量預測利用歷史制造數據挖掘各個質量影響因素與產品性能之間的映射關系[14-15]以評估生產過程的質量水平,提前制定響應措施,預防質量問題。目前質量預測模型的構建主要有機理建模與數據驅動建模兩種方式。機理建模通過深入理解生產過程中的物理原理和內在規律來預測產品質量,構建特定而精確的物理或數學模型,表達生產過程中工藝參數與產品質量之間的機理特性[16-17]。李傳維[18]采用加權平均方法建立了大型鍛件SA508Gr.3鋼的材料強度預測模型。機理模型普遍性、可靠性高,但通常結構復雜,多數物理量在工業過程中難檢測,往往要做多種假設和簡化處理,使得模型計算結果和實際情況存在差異[19],因此難以用于構建精鑄工藝中鑄件的質量預測模型。
利用數據驅動建模本質上是一個二分類問題,即利用歷史制造數據集,并選擇合適的機器學習算法訓練出有效的分類模型。董海等[20]針對汽車車身裝配尺寸精度控制問題提出了一種基于XGBoost算法的質量預測方法,解決了傳統機器學習算法在處理復雜產品制造過程的質量大數據時存在的預測模型準確率低且效率差的問題。Duan等[21]利用制造質量數據探究了產品實時質量狀態與加工任務過程之間的關系并開發了實時質量預測系統。趙雙風[22]針對軸類零件車削加工測量值的預測問題提出了結合BP神經網絡和灰色模型的質量預測模型。于文靖[23]提出了基于PSO-SVR的汽輪機模鍛葉片的質量預測方法,通過實例驗證了該方法的有效性。鐘武昌等[24]以注塑成型加工過程為例,利用Stacking集成學習算法構建了質量預測模型,提高了產品質量預測模型性能,降低了過擬合風險。向峰等[25]為了基于Stacking集成學習算法對整體和分段預測模型進行融合,并以煙絲生產過程進行對比實驗,驗證了該方法的有效性和優越性。基于數據驅動的質量預測方法不需要先驗知識或深入理解質量問題的機理,只需要具有足夠的數據來進行建模和預測,減少建模的成本和復雜度,具有自適應、自學習的特點,可以保證良好的預測準確率。
針對上述問題,結合精鑄工藝參數數據集特點和研究現狀分析,本文提出一種基于概率分布的合成少數類(SyMProD-Stacking)集成學習的鑄件質量預測方法。對精鑄工藝參數數據集進行預處理后利用SyMProD過采樣方法為每個少數類實例分配概率并基于概率分布生成樣本以平衡數據集;將LightGBM、RF、SVM和XGBoost進行Stacking集成,構建鑄件的質量預測模型。以某型號高溫透平葉片的精鑄工藝參數數據集為例對本文方法進行驗證,幫助企業評估生產過程的質量水平,提前制定響應措施并降低生產成本。
1 SyMProD過采樣方法
本文采用文獻[13]中基于概率分布的合成少數類方法(SyMProD)解決機器學習中類別不平衡問題。首先,應用Z分數來去除噪聲數據;然后,為每個少數類實例分配一個概率并根據概率分布在合成樣本過程中選擇數據點;最后,在少數類組由幾個少數類實例合成樣本。該方法基于概率分布選擇少數類實例,避免了重疊區域問題,消除了過擬合和過度泛化問題,提高預測模型的性能。
1.1 噪聲去除
需要從數據中去除異常值,因為如果合成樣本是從有噪聲的數據中生成的,則會降低模型性能。將Z分數應用于原始數據集的少數類實例和多數類實例,如果絕對值高于噪聲閾值NT,則去除該異常實例,移除噪聲數據示意圖如圖1所示。
1.2 概率分配
需要為數據集中每個少數類實例分配概率便于后續基于此概率分布合成新樣本實例。將經過噪聲過濾后的數據集劃分為少數類組Xmin和多數類組Xmaj,少數類組表達式為
Xmin={Xmin(i), Ymin(i)},i=1,2,3,…,nmin (1)
式中:nmin為少數類實例數;Xmin(i)為特征空間;Ymin(i)為目標值,多數類組與少數類組表示方法相同。假設p和q是具有N個維度的點,通過應用歐幾里得距離測量兩點之間的距離來確定少數類分布
d(p,q)=∑Ni=1(p(i)-q(i))2 (2)
對于每一個少數類實例樣本Xmin(i),計算每個點到同一類別中其他點的距離并返回少數類實例之間的總距離
D(Xmin(i))=∑nminj=1d(Xmin(i),Xmin(j)) (3)
每個少數類實例中的接近因子C表示一個實例與同一組中其他所有實例的接近程度,表達式如下
C(Xmin(i))=1D(Xmin(i)) (4)
因此,同一組中樣本點與其他點越接近則接近因子C越高。對于多數類組,同樣也定義了多數類實例之間的距離和接近因子以確定多數類分布,計算每個實例的接近因子示意圖如圖2所示。
通過根據少數類和多數類的分布來決定是否選擇少數類實例,避免了區域重疊問題。對于每個少數類實例Xmin(i),找到每個組的K個最近鄰,將每個少數類實例的K個多數類最近鄰和少數類最近鄰分別表示為
Smaj(i)={Smaj(i,1),Smaj(i,2),…,Smaj(i,K)} (5)
Smin(i)={Smin(i,1),Smin(i,2),…,Smin(i,K)} (6)
為了減少區域重疊的可能性,定義了少數類實例的少數類組接近因子和多數類組接近因子,分別表示為
τmin(i)=∑Kj=1C(Smin(i,j))D(Xmin(i),Smin(i,j)) (7)
τmaj(i)=∑Kj=1C(Smaj(i,j))D(Xmin(i),Smaj(i,j)) (8)
截止閾值CT用于選擇位于少數類分布區域的少數類實例來生成新的樣本,而過濾那些位于多數類區域的少數類實例以避免區域重疊問題,排除重疊實例示意圖如圖3所示。滿足下列條件則保留該少數類樣本實例
τmin(i)gt;τmaj(i)CT (9)
計算每個少數類實例Xmin(i)接近因子比率φ(i),并轉換為概率分布P(i)
φ(i)=τmin(i)+1τmaj(i)+1 (10)
P(i)=φ(i)∑nminj=1φ(j) (11)
1.3 生成樣本實例
基于概率分布選擇少數類實例,確定M個最近鄰以生成樣本實例,而不是像SMOTE技術那樣沿著兩點之間的線生成。集合R表示M個最近鄰的實際值,生成的新樣本實例在此范圍內。集合R中每個實例的概率分布用集合Pr表示,則生成的樣本實例可表示為
Xnew=∑M+1j=1β(j)Pr(j)R(j) (12)
式中:β(j)是0~1之間的隨機數;Pr(j)表示每個被選擇的少數類實例和其M個最近鄰樣本實例的第j個概率分布;R(j)是第j個樣本實例的實值。β(j)和Pr(j)均歸一化為1并作為系數因子,滿足下式
β(1)Pr(1)+…+β(M+1)Pr(M+1)=1(13)
圖4所示為利用該方法在少數類區域生成的樣本實例。
1.4 SyMProD方法流程
SyMProD過采樣方法的輸入是原始數據集I、用于檢測和去除噪聲數據的噪聲閾值NT、用于過濾位于多數類區域的少數類實例的截止閾值CT、用于比較組間接近因子的最近鄰居數K以及用于生成樣本實例的最近鄰居數M。輸出是重新平衡后的過采樣數據集。方法具體實現步驟如下。
步驟1 計算需要生成的樣本實例數ngen,ngen=nmaj-nmin,其中nmaj為多數類實例數。
步驟2 將Z分數應用于原始數據集的少數類實例和多數類實例,如果絕對值高于NT,則去除該異常的少數類實例。
步驟3 根據式(3)計算每個實例的歐幾里得距離。
步驟4 根據式(4)計算接近因子。
步驟5 對于每一個少數類實例,根據式(7)、(8)計算少數類組接近因子τmin和多數類組接近因子τmaj。
步驟6 根據式(9)判定是否需要去除少數類實例。
步驟7 根據式(10)計算接近因子比率并根據式(11)計算每個少數類實例的概率分布P(i)。
步驟8 基于P(i)選擇ngen個少數類實例(可重復)。
步驟9 對于每一個少數類實例,找到M個少數類最近鄰并將所選擇的少數類實例及其最近鄰收集在R中。
步驟10 生成值介于0~1之間的M+1維隨機正向量。
步驟11 根據式(12)生成樣本實例,返回重新平衡后的過采樣數據集。
SyMPro過采樣方法需要設定4個超參數即噪聲閾值(NT)、截止閾值(CT)、概率分配時K最近鄰以及生成樣本時M最近鄰來調節分類算法性能。NT用于噪聲去除,其適當范圍是3~5,因為較低的NT值可能會消除有效點并降低分類算法性能。另一方面,較高的NT可能沒有去除異常實例而增加噪聲產生的可能性。截止閾值CT與K最近鄰用于降低少數類與多數類區域重疊問題的可能性。對于每個少數類實例,搜索K個多數類最近鄰和少數類最近鄰,分別用于計算τmaj和τmin,若滿足式(9),則去除該少數類實例。CT的合理范圍是0.8~1.2,因為較低的CT值可能不能有效處理區域重疊問題,而較高的CT值可能會刪除有效樣本實例降低分類算法性能。M最近鄰用于確定少數類鄰居數量以生成樣本實例。K和M的默認值均設定為5[13]。
2 Stacking集成的質量預測模型構建
通過上述SyMProD過采樣方法能夠產生用于質量預測模型構建的平衡數據集,避免重疊區域問題,解決過擬合和過度泛化問題,提高了分類算法的性能。考慮到高溫透平葉片精鑄流程及工藝參數數據集的復雜性,單一的分類算法難以適應復雜多變的生產制造場景[24]。提出了將LightGBM、RF、SVM和XGBoost模型進行Stacking集成的預測模型構建方法。整個鑄件質量預測模型構建流程如圖5所示。對數據集進行預處理并劃分數據集后利用SyMProD過采樣方法進行數據集平衡,然后基于XGBoost的特征重要度進行工藝參數的維度縮減,最后構建基于Stacking集成學習的質量預測模型。
2.1 數據預處理
數據的質量直接決定了模型的預測精度和泛化能力,在重燃葉片精鑄數據采集過程中不可避免地出現數據缺失、數據噪聲、各維數據特征分布范圍差異大等問題,因此,本文通過數據清洗和數據轉換確保數據集質量。
例如,某生產設備故障或工人記錄遺漏導致部分工藝參數數據缺失,需要利用列變量均值進行填充。例如某些工藝參數屬于非數值型,需要將其轉換為數值型以便學習算法后續處理。為了消除數據變量之間的量綱影響,比較不同變量之間的相互作用,本文采用Min-Max歸一化處理,能夠在不改變數據分布的前提下消除變量量綱和變異范圍影響
x′=x-xminxmax-xmin (14)
式中:x為某個參數的樣本數據;xmin與xmax分別表示x中的最小值和最大值;x′為經過歸一化處理后的樣本值。
經過上述處理后,需要進行數據描述,計算集中趨勢指標(平均數)和離散趨勢指標(最小值、最大值和變異系數)等統計量,進而觀察出數據的整體分布情況、波動情況和數據異常情況。
為保證訓練出的質量預測模型符合真實制造生產情況并具有一定泛化性,需要在過采樣之前劃分數據集,將訓練數據集進行過采樣而測試數據集保持不變,這樣處理才能反映出預測模型性能的真實性和可靠性。
2.2 不平衡數據集處理
在精鑄工藝參數數據集中,合格鑄件數遠大于不合格鑄件數,存在嚴重的類別不平衡問題,若利用該數據集直接構建預測模型,則只有多數類實例(合格鑄件)能夠獲得較高的預測精度,不能對少數類實例(不合格鑄件)進行準確分類,難以應用于實際生產的質量預測模型構建。SyMProD過采樣方法充分考慮了數據分布情況并基于分布情況分配概率,能夠生成高質量的平衡數據集,可以有效解決上述問題。
2.3 工藝參數特征降維
精鑄過程鑄件的質量特性受到眾多工藝參數取值的影響,如果將所有工藝參數作為特征構建質量預測模型會使得模型復雜度較高、訓練時間較長、參數調整難以進行。因此,利用XGBoost模型對所有特征的重要度排序,根據特征重要性的排名,將特征按照重要性從高到低進行排序,選擇保留排名靠前的特征,而剔除排名靠后的特征,減少特征的數量,從而降低模型的復雜度和訓練時間,同時保留對模型性能影響較大的特征。
2.4 Stacking集成的質量預測模型構建
Stacking集成學習模型通過結合多個基礎模型的預測結果來生成最終的預測結果。在選擇基分類器時需要考慮其組合方式的差異性,盡可能選擇差異較大的學習算法,發揮不同模型的優勢,避免相關性較高的模型重復學習導致過擬合。因此,第一層基分類器主要選用實用效果較好的RF、SVM以及XGBoost。為了減少過擬合的風險,通常會采用五折交叉驗證來對基分類器進行訓練,將訓練數據分成五個子集,然后進行五折交叉驗證。在每一輪交叉驗證中,其中4個子集用于訓練基分類器,而剩下的1個子集則用于驗證。這樣,每個基分類器都會被訓練5次,并在不同的驗證集上進行驗證。對于每個基分類器,將其在驗證集上的預測結果整合起來,作為該分類器在整個訓練數據上的預測結果,這樣就可以得到一個在訓練數據上經過交叉驗證調優過的基分類器集合。在得到這些基分類器后,再利用這些基分類器的預測結果來訓練元模型,從而得到最終的Stacking集成模型。LightGBM 在訓練速度、內存占用、準確性和靈活性等方面都具有明顯的優勢,因此本文選擇LightGBM模型作為元分類器。
2.5 模型性能評估
在處理不平衡數據時,常規的評價指標可能會受到數據不平衡的影響而產生偏見。從而無法提供準確的評估。例如,對于準確率,如果一個分類算法只能預測多數類,那么即使總體準確率很高,也可能會出現對少數類的預測準確率幾乎為0的情況。因此,本文選用AAUCROC、Gm以及F1作為質量預測模型性能評估指標,在計算這幾個模型性能評估指標時,以下幾個變量常常被用到:真正例的數量(TP)、真反例的數量(TN)、假正例的數量(FP)和假反例的數量(FN),各項評價指標描述如下。
AAUCROC是受試者工作特征(ROC)即真正例率(TPR)對假正例率(FPR)曲線下的面積,AAUCROC越接近1,表示模型分類性能越好
TPR=TPTP+FN (15)
FPR=FPFP+TN (16)
Gm用來表示多數類和少數類精度的幾何平均,可以同時反映出少數類和多數類的分類情況
Gm=TPTP+FNTNTN+FP (17)
模型的精確度(P)和召回率(R)表示如下
P=TPTP+FP (18)
R=TPTP+FN (19)
F1綜合考慮了模型的精確度和召回率,能夠平衡這兩個指標
F1=2PRP+R (20)
3 應用案例
3.1 數據描述
為了驗證上述提出的面向不平衡數據集的質量預測方法,本文以高溫透平葉片制造過程精鑄工藝為例,構建質量預測模型,探究精鑄工藝參數與質檢參數之間的映射關系。實驗數據來源于某汽輪機有限公司高溫透平葉片精鑄工藝制造生產數據。精鑄制造流程較為復雜,圖6所示為精鑄工藝流程。對鑄件質量產生影響的關鍵制造工序主要是制芯、制蠟、制殼、澆注4個部分,包含的參數稱為工藝參數,鑄件成品質量檢測涉及的參數稱為質檢參數。由這兩部分參數組成的數據集稱為精鑄工藝參數數據集。
對原始實驗數據進行數據預處理以保證數據質量,利用均值、最小值、最大值以及變異系數進行數據描述,觀察數據集整體分布情況與波動情況。變異系數在標準差的基礎上引入均值,可以消除度量數據離散程度時受不同水平均值影響。通常,變異系數越小,說明數據的離散程度越小;反之,變異系數越大,說明數據的離散程度越大。精鑄工藝參數集的數據描述情況見表1。V為漿料的黏度;pH為漿料的酸堿度,下標1、2、3、f分別表示第1、2、3及封漿層;w(Si)為漿料中硅元素的質量分數;T為環境溫度;w(H2O)為漿料中水的質量分數,下標2、3、f分別表示第2層、第3層和封漿層。由表1可以看出,注蠟溫度、型殼層數、T2、澆注時長等工藝參數的變異系數為0,表1中已經加粗處理,表明這些參數的樣本數據沒有變化,對于鑄件后續的質量預測模型構建沒有意義,需要將這些工藝參數剔除。經過預處理后,最終的精鑄工藝參數數據共計10000條,其中合格鑄件為8502條,不合格鑄件為1498條。
一般地,當多數類和少數類之間的比例超過4∶1,即類不平衡率超過4,就可以認為數據集是不平衡的,需要應用少數類組處理,這是由于當類不平衡率超過4時,在構建產品質量預測模型前若不進行少數類組處理,容易出現模型性能偏差,即模型更傾向于預測多數類而忽略少數類。
鑄件質量由射線檢測(RT)結果決定,結果有合格與不合格兩種質量狀態,精鑄工藝參數數據集中合格鑄件數遠大于不合格鑄件數,存在嚴重的類別不平衡問題,類不平衡率為5.67,鑄件質量類不平衡度情況如圖7所示,圖中比例表示合格鑄件數或不合格鑄件數占總鑄件數的比值。
3.2 不平衡數據集處理前后模型性能對比實驗
本實驗探討利用SyMProD過采樣方法對精鑄工藝參數不平衡數據集處理后模型的性能提升情況,對比實驗運行環境見表2。
在過采樣與特征降維之前,將原始數據的80%作為訓練集,20%作為測試集。利用XGBoost特征重要性進行特征降維,剔除部分排名靠后的特征,特征選擇結果為轉運時長、澆注溫度、澆注質量、重熔浮渣比、熔煉真空度、坩堝使用次數、脫蠟時長、脫蠟壓力、升壓時長以及排氣時長共10個關鍵工藝參數特征,作為后續預測模型構建的輸入特征。針對原始數據集與過采樣后的數據集,分別使用3種分類算法LightGBM、RF以及SVM構建預測模型對比過采樣前后模型性能。其中,SyMProD過采樣方法K最近鄰和M最近鄰均設置為5,噪聲閾值(NT)設置為3,盡可能保留數據分布情況,過采樣率設為1。截止閾值(CT)使用管道方式與后續分類算法組合進行網格搜索(GridSearchCV)獲取最優值。為了更好地得到預測結果,實驗結果取五折交叉驗證的平均值,對比結果如圖8所示。由圖8可以看出,經過過采樣后,雖然整體上鑄件的預測準確率有輕微下降,而對于少數類別即鑄件不合格品的預測準確率提升了75.4%,更加滿足實際生產情況。無論采用哪種機器學習分類算法,經過SyMProD過采樣方法后的數據集構建的預測模型,其AAUCROC、Gm、F1相比于原始不平衡數據集構建的預測模型都有一定的提升,AAUCROC增大了24%~28%,Gm增大了30%~35%,F1增大了32%~50%。說明了SyMProD過采樣方法能夠有效解決精鑄工藝參數不平衡數據集嚴重的類別不平衡問題,利用過采樣后的數據集構建質量預測模型能夠顯著提高預測少數類的準確度和整體模型預測效果。
3.3 過采樣方法性能對比實驗
本實驗將SyMProD過采樣方法與SMOTE、ADASYN、K-Means-SMOTE算法對原始數據進行擴充處理,采用3種不同的分類算法(LightGBM、RF、SVM)分別利用平衡后的數據集構建鑄件質量預測模型進行對比實驗。SyMProD過采樣方法設置K=5,M=5,NT=3,CT利用管道組合的方式進行網格搜索最優值,其他過采樣方法均采用Python算法庫imblearn對數據進行處理,所有過采樣方法的過采樣率均設置為1,各個分類算法參數均按3.2節進行設置與調優。各項模型評估指標均采用五折交叉驗證求取平均值,對比實驗結果見表3。由表3可以看出,SyMProD過采樣方法在3種分類算法情況下,預測模型評估指標幾乎都取得了最優,因此,在精鑄工藝參數不平衡數據集的數據分布情況與復雜性下,采用SyMProD方法相比于其他過采樣方法能夠更好地改善鑄件質量預測模型。
3.4 分類算法性能對比實驗
本實驗探討利用Stacking集成學習分類算法相比于單一分類算法LightGBM、XGBoost、SVM以及RF構建質量預測模型性能的提升情況。每種算法均采用SyMProD過采樣方法平衡數據。其超參數設置為K=5、M=5、NT=3、CT=1.2,過采樣率為1.0。Stacking集成模型的第一層采用五折交叉驗證,其中基分類器的輸入為經過特征降維后原始數據的訓練集 (8000,10)以及原始數據對應的標簽y,每個基分類器的輸出為訓練集對應的預測值;元分類器的輸入應為3個基分類器輸出數據的組合(24000,10)以及基分類器的預測標簽y1,元分類器的輸出就是整個Stacking集成學習模型的預測值。單一分類算法的實驗結果取五折交叉驗證的平均值,實驗結果見表4。由表4可知,Stacking集成學習算法預測模型性能最優。相比于單一模型中表現較好的LightGBM算法,Stacking集成學習算法在AAUCROC的性能上提升了5.48%,Gm提升了3.78%,F1提升了5.72%。相比于最差的RF算法,3項性能指標分別提升了11.59%、8.92%、11.39%。結果表明Stacking集成學習算法能夠結合多個基模型的預測結果,相比單一模型更適應復雜多變的高溫透平葉片精鑄過程生產制造場景。
4 結 論
本文提出了SyMProD-Stacking集成學習的鑄件質量預測方法。針對精鑄工藝參數數據集的不平衡問題,將原始數據集經預處理后進行了對比實驗,利用SyMProD過采樣方法對數據進行平衡,相比于原始不平衡數據集,鑄件不合格品的預測準確率提升了75.4%,AAUCROC、Gm以及F1性能指標分別增大了24%~28%、30%~35%、32%~50%,同時,與其他過采樣方法相比,該方法在本文實驗數據集分布情況下各個性能指標幾乎都取得了最優。為滿足企業對高溫透平葉片精鑄過程鑄件質量預測的迫切需求,提出了一種基于Stacking集成學習的重燃葉片精鑄過程鑄件質量預測模型構建方法,幫助企業提前制定響應措施,降低成本。利用SyMProD過采樣方法對數據集進行處理并采用Stacking集成學習構建質量預測模型相比于單一算法模型3項性能指標分別增大5.48%~11.59%、3.78%~8.92%、5.72%~11.39%。后續研究工作中將基于該預測模型,探究如何利用多目標優化算法和多屬性決策對各個工藝參數進行事前優化調控。
參考文獻:
[1]鄒昌利, 張恃銘, 劉銀華. 面向裝配質量預測控制的隨機Kriging建模方法 [J]. 機械設計與研究, 2020, 36(2): 108-112.
ZOU Changli, ZHANG Shiming, LIU Yinhua. Study on the stochastic Kringing modeling for predictive quality control in assembly process [J]. Machine Design amp; Research, 2020, 36(2): 108-112.
[2]趙京鶴, 高明, 梁楠. 工業互聯網助推制造企業數字化轉型 [J]. 中國自動識別技術, 2022(1): 58-60.
ZHAO Jinghe, GAO Ming, LIANG Nan. Industrial internet promotes digital transformation of manufacturing enterprises [J]. China Auto-ID, 2022(1): 58-60.
[3]GUO Haixiang, LI Yijing, SHANG J, et al. Learning from class-imbalanced data: review of methods and applications [J]. Expert Systems with Applications, 2017, 73: 220-239.
[4]YADAV S S, BHOLE G P. Learning from imbalanced data in classification [J]. International Journal of Recent Technology and Engineering, 2020, 8(5): 1007-1016.
[5]DOUZAS G, BACAO F, LAST F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE [J]. Information Sciences, 2018, 465: 1-20.
[6]PIRI S, DELEN D, LIU Tieming. A synthetic informative minority over-sampling (SIMO) algorithm leveraging support vector machine to enhance learning from imbalanced datasets [J]. Decision Support Systems, 2018, 106: 15-29.
[7]李艷霞, 柴毅, 胡友強, 等. 不平衡數據分類方法綜述 [J]. 控制與決策, 2019, 34(4): 673-688.
LI Yanxia, CHAI Yi, HU Youqiang, et al. Review of imbalanced data classification methods [J]. Control and Decision, 2019, 34(4): 673-688.
[8]CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[9]HAN Hui, WANG Wenyuan, MAO Binghuan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning [C]//Advances in Intelligent Computing. Berlin, Germany: Springer, 2005: 878-887.
[10]HE Haibo, BAIYang, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]//2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). Piscataway, NJ, USA: IEEE, 2008: 1322-1328.
[11]DOUZAS G, BACAO F, LAST F. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE [J]. Information Sciences, 2018, 465: 1-20.
[12]李敏波, 董偉偉. 面向不平衡數據集的汽車零部件質量預測 [J]. 中國機械工程, 2022, 33(1): 88-96.
LI Minbo, DONG Weiwei. Quality prediction of automotive parts for imbalanced datasets [J]. China Mechanical Engineering, 2022, 33(1): 88-96.
[13]KUNAKORNTUM I, HINTHONG W, PHUNCHONGHARN P. A synthetic minority based on probabilistic distribution (SyMProD) oversampling for imbalanced datasets [J]. IEEE Access, 2020, 8: 114692-114704.
[14]ZHOU Ping, JIANG Yue, WEN Chaoyao, et al. Data modeling for quality prediction using improved orthogonal incremental random vector functional-link networks [J]. Neurocomputing, 2019, 365: 1-9.
[15]ZHENG Wenjian, LIU Yi, GAO Zengliang, et al. Just-in-time semi-supervised soft sensor for quality prediction in industrial rubber mixers [J]. Chemometrics and Intelligent Laboratory Systems, 2018, 180: 36-41.
[16]高建琛. 基于集成學習的鋁合金薄板帶材力學性能預測方法研究 [D]. 北京: 北京工業大學, 2020.
[17]LU Ningyun, GAO Furong. Stage-based online quality control for batch processes [J]. Industrial amp; Engineering Chemistry Research, 2006, 45(7): 2272-2280.
[18]李傳維. 核電壓力容器大型鍛件組織與性能研究及熱處理數值模擬 [D]. 上海: 上海交通大學, 2016.
[19]楊健, 吳思煒. 基于機器學習的鋼鐵軋制過程性能預測 [J]. 鋼鐵, 2021, 56(9): 1-9.
YANG Jian, WU Siwei. Property prediction of steel rolling process based on machine learning [J]. Iron amp; Steel, 2021, 56(9): 1-9.
[20]董海, 馮曄. 基于XGBoost的車身尺寸裝配質量智能預測模型 [J]. 工業工程, 2021, 24(3): 77-82.
DONG Hai, FENG Ye. An intelligent prediction model of body size assembly quality based on XGBoost algorithm [J]. Industrial Engineering Journal, 2021, 24(3): 77-82.
[21]DUAN Guijiang, YAN Xin. A real-time quality control system based on manufacturing process data [J]. IEEE Access, 2020, 8: 208506-208517.
[22]趙雙鳳. 基于MES的機加車間制造過程工序質量控制方法與系統研究 [D]. 重慶: 重慶大學, 2016.
[23]于文靖. 汽輪機模鍛葉片加工質量預測及控制方法研究 [D]. 哈爾濱: 哈爾濱工業大學, 2018.
[24]鐘武昌, 戰洪飛, 林穎俊, 等. 基于機器學習多算法集成的產品質量問題預測方法 [J]. 機械設計與研究, 2023, 39(5): 100-107.
ZHONG Wuchang, ZHAN Hongfei, LIN Yingjun, et al. Product quality problem prediction method based on machine learning multi algorithm integration [J]. Machine Design amp; Research, 2023, 39(5): 100-107.
[25]向峰, 楊磊, 張萌, 等. 基于模型融合的復雜生產過程產品質量預測 [J]. 中國科學(技術科學), 2023, 53(7): 1127-1137.
XIANG Feng, YANG Lei, ZHANG Meng, et al.Model fusion based product quality prediction for complex manufacturing process [J]. Scientia Sinica(Technologica), 2023, 53(7): 1127-1137.
(編輯 武紅江)