基于PCA_NearMiss和XGBoost的產(chǎn)品質(zhì)量預(yù)測(cè)

2021-12-14 01:44:45蔣金瑜

內(nèi)燃機(jī)與配件 2021年1期

蔣金瑜

摘要：產(chǎn)品質(zhì)量預(yù)測(cè)是產(chǎn)品質(zhì)量控制的重要組成部分，從產(chǎn)品生產(chǎn)數(shù)據(jù)中挖掘產(chǎn)品質(zhì)量信息，建立產(chǎn)品生產(chǎn)數(shù)據(jù)與產(chǎn)品質(zhì)量之間的預(yù)測(cè)模型，對(duì)提高產(chǎn)品質(zhì)量，降低生產(chǎn)成本具有重大意義。針對(duì)產(chǎn)品生產(chǎn)數(shù)據(jù)的高維，高不平衡性特點(diǎn)，提出PCA_NearMiss降采樣算法，通過PCA算法降低數(shù)據(jù)維度，再通過NearMiss算法提取出具有代表性的樣本，在平衡數(shù)據(jù)的同時(shí)保證數(shù)據(jù)信息的完整性，最后用選出的樣本對(duì)XGBoost模型進(jìn)行訓(xùn)練和測(cè)試。使用博世產(chǎn)品生產(chǎn)數(shù)據(jù)作為實(shí)例進(jìn)行驗(yàn)證，說明了算法的有效性。

關(guān)鍵詞：PCA;NearMiss;XGBoost;質(zhì)量預(yù)測(cè)

中圖分類號(hào)：TP181? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào)：1674-957X（2021）01-0122-02

0? 引言

在制造業(yè)中，產(chǎn)品質(zhì)量的監(jiān)測(cè)和控制是至關(guān)重要的。隨著傳感器技術(shù)和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展，大量工廠通過對(duì)制造過程的實(shí)時(shí)監(jiān)測(cè)，來(lái)提高生產(chǎn)力和競(jìng)爭(zhēng)力[1]。如何從工廠采集的大量數(shù)據(jù)獲取產(chǎn)品質(zhì)量信息，逐漸成為企業(yè)的重點(diǎn)工作。來(lái)自不同信息源的海量數(shù)據(jù)讓分析變得極具挑戰(zhàn)性。機(jī)器或傳感器故障、噪聲、斷電等問題導(dǎo)致數(shù)據(jù)缺失，可能會(huì)嚴(yán)重影響模型效果。在實(shí)際生產(chǎn)過程中，對(duì)每個(gè)產(chǎn)品記錄的生產(chǎn)數(shù)據(jù)往往高達(dá)上千維度，而且產(chǎn)品中的次品數(shù)量遠(yuǎn)低于合格產(chǎn)品的數(shù)量，而機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)平衡性具有很高要求。數(shù)據(jù)的冗余和高不平衡性會(huì)導(dǎo)致模型效果大大下降，對(duì)原始數(shù)據(jù)進(jìn)行降采樣，保證數(shù)據(jù)模型訓(xùn)練數(shù)據(jù)相對(duì)平衡，降低訓(xùn)練數(shù)據(jù)相關(guān)性，對(duì)模型效率和效果的提升具有重要意義。

1? PCA_NearMiss

NearMiss算法可從大量的正樣本中選取具有代表性的樣本。首先計(jì)算每個(gè)正例樣本與負(fù)例樣本之間距離，選擇每個(gè)正例距離最小的前k個(gè)負(fù)例近鄰，再計(jì)算正樣本與其對(duì)應(yīng)的近鄰之間的平均距離，保留平均距離最小的那些正例樣本，實(shí)現(xiàn)對(duì)數(shù)據(jù)的降采樣。NearMiss降采樣算法目的是在信息相似的樣本中根據(jù)需要采樣的比例僅保留少數(shù)具有代表性的樣本，因此可在大量減少多數(shù)類樣本的同時(shí)保持整體數(shù)據(jù)的信息。

為了解決產(chǎn)品質(zhì)量數(shù)據(jù)的高不平衡性，通常采用降采樣的方法。降采樣在減少正樣本數(shù)量平衡數(shù)據(jù)的同時(shí)，還需最大程度的保留原始數(shù)據(jù)的信息。每件產(chǎn)品在生產(chǎn)過程中記錄的數(shù)據(jù)往往具有很高的維度，而基于距離的降采樣算法對(duì)高維數(shù)據(jù)降采樣質(zhì)量很差。為提高降采樣對(duì)高維數(shù)據(jù)的適用性，采用PCA降維算法降低原始數(shù)據(jù)維度，提高數(shù)據(jù)信息密度，提高不同樣本之間的區(qū)分度，再通過NearMiss算法對(duì)降維后的數(shù)據(jù)進(jìn)行降采樣，得到最終參與模型訓(xùn)練的樣本。

2? XGBoost

極端梯度提升算法（XGBoost），是一種基于分類和回歸樹集成的模型[3]。在XGBoost算法中，通過梯度提升優(yōu)化樹模型。令樹模型的輸出為：■，其中，x為輸入向量，wq為對(duì)應(yīng)葉節(jié)點(diǎn)q的分?jǐn)?shù)。K個(gè)樹模型集成的輸出為：

利用梯度對(duì)損失函數(shù)進(jìn)行二階近似，求出最優(yōu)權(quán)重w，則目標(biāo)函數(shù)的最優(yōu)值為：

3? AUC

觀測(cè)者操作特性曲線（receiver operating characteristic curve，ROC），常用于說明二分類模型在不同閾值條件下的分類能力。ROC曲線的橫坐標(biāo)為假陽(yáng)性率FPR，表示在所有正例中，模型錯(cuò)誤的把正例預(yù)測(cè)成負(fù)例的數(shù)量占負(fù)例總數(shù)的比例。縱坐標(biāo)為真陽(yáng)性率TPR，其含義為在所有負(fù)例中，模型的預(yù)測(cè)輸出值為負(fù)例的數(shù)量占正例總數(shù)的比例。ROC曲線下方區(qū)域的面積AUC用于區(qū)分模型的效果，AUC值越大說明模型效果越好。當(dāng)AUC小于0.5，即ROC曲線在左下方時(shí)，表示分類器總是分成錯(cuò)誤的類。AUC接近0.5時(shí)，說明分類器為隨機(jī)猜測(cè)。通常情況是AUC大于0.5的情況，且AUC值越大，說明模型區(qū)分正負(fù)例的能力越強(qiáng)，模型預(yù)測(cè)效果越好。AUC值即使在數(shù)據(jù)不平衡的情況下，也能同時(shí)反應(yīng)分類模型區(qū)分正例和負(fù)例的能力。

4? 實(shí)驗(yàn)驗(yàn)證

為驗(yàn)證模型對(duì)產(chǎn)品質(zhì)量預(yù)測(cè)的有效性，使用kaggle競(jìng)賽“Bosch Production Line Performance”數(shù)據(jù)集作為訓(xùn)練和驗(yàn)證數(shù)據(jù)。該數(shù)據(jù)集包含1183747個(gè)產(chǎn)品樣本數(shù)據(jù)，每個(gè)樣本包含968個(gè)數(shù)值特征，2140個(gè)類別特征，1156個(gè)時(shí)間特征，由于類別特征缺失率高于99%，時(shí)間特征數(shù)據(jù)信息密度低，在本次實(shí)驗(yàn)中只選用數(shù)值特征進(jìn)行進(jìn)一步處理和模型訓(xùn)練。所有數(shù)值特征均經(jīng)過匿名處理，特征名稱形式為L(zhǎng)0_S20_F45，其中L1表示生產(chǎn)線，S20表示測(cè)量值所屬的站別，F(xiàn)45為測(cè)量編號(hào)。在PCA_NearMiss算法中PCA降維維度設(shè)為100，NearMiss近鄰數(shù)設(shè)為3。并具有表示產(chǎn)品質(zhì)量的標(biāo)簽，其中0表示合格，1表示不合格。不合格產(chǎn)品樣本占樣本總數(shù)的0.58%，即正例樣本與負(fù)例樣本的比例為172：1，數(shù)據(jù)極端不平衡，經(jīng)過降采樣后，正例與負(fù)例樣本的比例為4：1。此外，數(shù)據(jù)集中數(shù)據(jù)缺失率達(dá)到78.5%，在本次實(shí)驗(yàn)中，對(duì)缺失數(shù)據(jù)進(jìn)行零值填充。

5? 實(shí)驗(yàn)結(jié)果

為驗(yàn)證PCA_NearMiss降采樣算法的有效性，對(duì)隨機(jī)降采樣（RUS）和PCA_NearMiss降采樣后的樣本進(jìn)行PCA降維可視化，可視化結(jié)果如圖1所示。從圖1中可以看出，經(jīng)PCA_NearMiss降采樣后的正負(fù)例樣本較隨機(jī)降采樣更具有區(qū)分性。

分別將隨機(jī)降采樣和PCA_NearMiss降采樣后的樣本，劃分成訓(xùn)練集和測(cè)試集，訓(xùn)練集占降采樣后樣本的80%，測(cè)試集占20%，最終訓(xùn)練集樣本數(shù)為26749，訓(xùn)練集樣本數(shù)為6688。并使用相同參數(shù)的XGBoost模型作為分類器，XGBoost模型，學(xué)習(xí)率設(shè)為0.1，每棵樹隨機(jī)采樣的比例為0.8，最大深度為3，最小葉子節(jié)點(diǎn)權(quán)重和為1。實(shí)驗(yàn)結(jié)果如圖2所示。

從圖2中可以看出，PCA_NearMiss對(duì)應(yīng)的ROC曲線位于隨機(jī)降采樣的左上方且靠攏（0，1）點(diǎn)，AUC值為0.96，大于隨機(jī)降采樣的AUC值0.72，說明PCA_NearMiss降采樣的效果比隨機(jī)降采樣效果更好。

6? 結(jié)論

針對(duì)產(chǎn)品生產(chǎn)數(shù)據(jù)高維、高不平衡的特性，采用PCA_NearMiss降采樣算法，能從大量的產(chǎn)品數(shù)據(jù)中選擇出具有代表性的樣本，并有效平衡正負(fù)例數(shù)據(jù)。通過降采樣后的數(shù)據(jù)對(duì)XGBoost算法進(jìn)行訓(xùn)練，可實(shí)現(xiàn)對(duì)產(chǎn)品質(zhì)量的有效預(yù)測(cè)。

參考文獻(xiàn)：

[1]賀正楚，潘紅玉.德國(guó)“工業(yè)4.0”與“中國(guó)制造2025”[J].長(zhǎng)沙理工大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2015，30（3）：103-110.

[2]劉振宇，李偉光，林鑫，等.基于PCA和希爾伯特譜的柔性薄壁軸承故障診斷研究[J].機(jī)床與液壓，2019（16）.

[3]Chen T， He T， Benesty M， et al. Xgboost： extreme gradient boosting[J]. R package version 0.4-2， 2015： 1-4.

內(nèi)燃機(jī)與配件2021年1期

內(nèi)燃機(jī)與配件的其它文章: 數(shù)控機(jī)床刀具磨損監(jiān)測(cè)系統(tǒng)開發(fā)關(guān)鍵技術(shù)研究; 電磁驅(qū)動(dòng)的地質(zhì)鉆機(jī)正反轉(zhuǎn)裝置設(shè)計(jì)研究; 基于混合動(dòng)力液壓挖掘機(jī)系統(tǒng)優(yōu)化設(shè)計(jì)的研究; 數(shù)控車床技術(shù)加工精度工藝優(yōu)化; 設(shè)備修理試車磨合油再利用技術(shù)研究應(yīng)用; 數(shù)控機(jī)床加工精度的影響因素及優(yōu)化策略