基于混合采樣與Stacking集成的半潛式平臺警報預測模型

2022-07-06 08:37:48李至立劉興惠李媛盧緒迪

現(xiàn)代信息科技 2022年6期

李至立?劉興惠?李媛?盧緒迪

摘? 要：文章旨在基于半潛式平臺系統(tǒng)故障警報分類數(shù)據(jù)集構建故障警報預測模型。采用SMOTE過采樣與隨機欠采樣相結合的混合采樣方法對訓練集進行采樣，實驗結果表明，最佳采樣率為過采樣率0.3、欠采樣率0.6，此時隨機森林在采樣后訓練集上采用五折交叉驗證訓練后得到的AUC得分均值最高。同時說明了該混合采樣方法在采用了最佳的采樣率后可以較好地改善訓練集類別不平衡問題，較大地提高模型的泛化能力。

關鍵詞：半潛式平臺;警報;混合采樣;集成學習

中圖分類號：TP18;U661? ? ? ? ? ? ?文獻標識碼：A文章編號：2096-4706（2022）06-0079-03

Alarm Prediction Model of Semi Submersible Platform Based on Composite Sampling and Stacking Integration

LI Zhili1， LIU Xinghui1， LI Yuan1， LU Xudi2

（1.Shandong Vheng Data Technology Co.， Ltd.， Yantai? 264003， China; 2.CIMC Offshore Engineering Institute Co.， Ltd， Yantai? 264003， China）

Abstract： The purpose of this paper is to build a fault alarm prediction model based on the fault alarm classification data set of semi submersible platform system. The composite sampling method combining SMOTE with random under sampling is used to sample the training set. The experimental results show that the optimal sampling rate is 0.3 for over sampling and 0.6 for under sampling. At this time， the random forest is trained on the training set after sampling using five fold cross validation， and the mean value of AUC scores is highest. At the same time， it shows that the composite sampling method after using the best sampling rate can improve the class imbalance problem of training set and greatly improve boost the generalization ability of the model.

Keywords： semi submersible platform; alarm; composite sampling; Ensemble Learning

0? 引? 言

作為資源開發(fā)的重要海洋工程裝備[1，2]，半潛式平臺一般作業(yè)于環(huán)境惡劣多變的深海區(qū)，平臺系統(tǒng)運行穩(wěn)定性受到嚴峻挑戰(zhàn)，故障警報信號頻發(fā)[3-7]。根據(jù)故障的嚴重性和緊急程度，警報信號分為低、中、高三個級別，其中低級警報信號數(shù)量占比98%，中高級警報信號數(shù)量僅占2%。由于不同等級的警報信號數(shù)量差異巨大，收集到的故障警報分類數(shù)據(jù)集存在類別極度不均衡的問題，使分類模型具有很嚴重的偏向性，因此難以構建泛化能力強的警報信號分類預測模型。機器學習、深度學習等人工智能算法基于大數(shù)據(jù)可進行復雜的關聯(lián)映射，構建故障警報信號與其誘發(fā)因素間的關聯(lián)模型。本文首先采用混合采樣方法將故障警報類別不平衡訓練數(shù)據(jù)集轉換為類別平衡訓練數(shù)據(jù)集，然后基于該類別平衡訓練數(shù)據(jù)集采用機器學習算法構建平臺系統(tǒng)故障警報預測模型。

1? 類別不平衡數(shù)據(jù)集的混合采樣方法研究

目前解決類別不平衡問題一般采用預處理方法、算法中心方法、代價敏感方法和混合方法四種，其中預處理方法又可以細分為特征選擇方法、欠采樣方法、過采樣方法和混合采樣方法[8-10]。單一的過采樣方法容易產生過擬合，而僅通過欠采樣來使類別平衡容易丟失大量信息，造成欠擬合，因此本文采用將過采樣與欠采樣相結合的混合采樣方法來產生類別平衡訓練數(shù)據(jù)集，設置合適的采樣率，降低類別不平衡比，既能合成少數(shù)類新樣本，彌補少數(shù)類樣本數(shù)量的不足，又能防止過度欠采樣，使多數(shù)類損失大量有用的信息。

本文將配電盤綜合負載功率、綜合負載電壓、綜合負載電流、發(fā)電機功率、風速與推進器功率等六個因素作為建模輸入特征，將中高級故障警報信號標記為1，低級信號標記為0，共收集樣本20 771個，其中類別1為619個，類別0為20 152個。數(shù)據(jù)集劃分比例為訓練集70%，測試集30%，測試集數(shù)據(jù)用于評估模型的泛化能力。采用SMOTE過采樣與隨機欠采樣相結合的混合采樣方法來減輕訓練數(shù)據(jù)集的類別不平衡問題。

采用單一的過采樣或欠采樣方法默認將類別比例轉變?yōu)?：1，但往往不是最合適的類別比例，分類模型性能并不理想。為了獲得最佳的采樣率，本文設計了不同的過采樣率與欠采樣率組合，得到不同的混合采樣訓練集，然后分別在不同混合采樣訓練集上采用隨機森林算法通過五折交叉驗證的方式以ROC_AUC作為模型的評估指標，通過比較驗證集ROC_AUC均值的大小來獲得最佳的采樣率。SMOTE過采樣與隨機欠采樣分別通過調用類別不平衡處理庫imblearn庫中的SMOTE與RandomUnderSampler包來實現(xiàn)。實驗結果如表1所示。E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31

由表1可看出，隨機森林算法在由采樣組合2得到的混合采樣訓練集上采用五折交叉驗證訓練后得到的驗證集AUC得分均值最高，因此最佳采樣率是過采樣率0.3，欠采樣率0.6，即首先應用SMOTE，將少數(shù)類別1的分布提高到多數(shù)類別0的30%，然后使用欠采樣將多數(shù)類別0的比例降低到少數(shù)類別1的60%。采樣前訓練數(shù)據(jù)集中類別1樣本個數(shù)為440，類別0樣本個數(shù)為14 099，不平衡比為32.0;混合采樣后訓練數(shù)據(jù)集中類別1樣本個數(shù)為4 229，類別0樣本個數(shù)為7 048，不平衡比降為0.7。

2? 基于Stacking集成的RBXS平臺系統(tǒng)故障警報預測模型

集成學習方法是一種通過構建并結合多個基學習器來完成學習任務的機器學習方法。集成學習根據(jù)基學習器集成的方式方法的不同主要分為Boosting、Bagging、Stacking以及均值法、投票法等常規(guī)結合方法。本文主要涉及Boosting、Bagging、Stacking集成方法。

2.1? 模型設計

單一的分類器往往并不能獲得理想的擬合效果和泛化能力，因此本文提出了基于Stacking 集成的RBXS（RF-Bagging-XGBoost Stacking）模型。其中Stacking集成的第一層基分類器主要采用 RF、Bagging和XGBoost三個強分類模型，每一個模型都采用五折交叉驗證的方法訓練并輸出預測結果到第二層元分類器。第二層元分類器過于復雜易造成過擬合，所以選擇簡單的邏輯回歸作為元分類器，利用第一層得到的預測數(shù)據(jù)進行訓練并得出最終的預測結果。模型基本結構如圖1所示。

2.2? 實驗設計與結果分析

本文首先采用隨機森林（Random Forest， RF）、引導聚集算法（Bootstrap aggregating， Bagging）、梯度提升決策樹（Gradient Boosting Decision Tree， GBDT）、自適應提升（Adaptive Boost， Adaboost）、XGBoost（Extreme Gradient Boosting）、LightGBM（Light Gradient Boosting Machine）等單分類器建模，在混合采樣訓練數(shù)據(jù)集上用網格搜索結合五折交叉驗證的方式進行調參。最優(yōu)參數(shù)組合如表2所示。

為了獲得分類效果最好的Stacking集成分類器，本文設計了四種Stacking第一層基分類器組合，具體如表3所示，使用邏輯回歸作為第二層分類器。采用5折交叉驗證訓練這些Stacking集成模型，AUC得分取5次訓練后驗證集得分的均值，對比采用不同分類器組合的Stacking集成模型及各個單分類器的AUC得分。

由表3可知，第一個基分類器組合都屬于Boosting類算法，采用Stacking集成后產生了過擬合，集成模型AUC得分相比單模型XGBoost及LightGBM得分有一定程度下降;第二個基分類器組合都屬于Bagging類算法，Stacking集成后相比單一基分類器的泛化能力有較大提高;第三個基分類器組合是在第二個基分類器組合基礎上加入泛化能力最好的單一基分類器XGBoost后，Stacking模型AUC得分略有提高;若將所有基分類器進行Stacking集成，泛化能力反而下降。因此本文提出的Stacking集成的第一層基分類器采用 RF、Bagging和XGBoost，并選擇邏輯回歸作為元分類器。

2.3? 模型評估

首先在測試集上使用ROC_AUC評估指標對采用了最優(yōu)基分類器組合的RBXS模型進行評估，然后采用RBXS模型在原始訓練數(shù)據(jù)集上訓練并使用相同的測試集進行評估，對比采樣前后模型在測試集上的泛化能力，同時繪制ROC曲線如圖2所示。

由圖2可知，RBXS模型在未混合采樣的原始訓練集上訓練后，在測試集上的AUC得分為0.857（藍色虛線所示）;經過混合采樣的訓練集上訓練后，在相同測試集上的AUC得分提高至0.903（紅色實線所示），AUC得分提高了5.4%。由此說明SMOTE過采樣與隨機欠采樣相結合的混合采樣方法較好地改善了訓練集類別不平衡問題，增強了模型對少數(shù)類別的分類效果，較大地提高了模型的泛化能力。

3? 結? 論

鑒于收集到的半潛式平臺系統(tǒng)故障警報數(shù)據(jù)集類別極度不均衡，難以訓練出泛化能力強的警報信號分類預測模型，本文首先采用將SMOTE過采樣與隨機欠采樣相結合的混合采樣方法改善訓練集的類別不均衡問題，然后提出了基于Stacking 集成的RBXS平臺系統(tǒng)故障警報預測模型，在混合采樣訓練集訓練后經測試集評估，該模型的AUC得分達到0.903，較訓練集未經過采樣的測試集AUC得分提高5.4%，表明該模型具有較好的擬合效果和泛化能力，能夠較準確地分辨出低級警報信號與中高級警報信號。同時說明了混合采樣方法較好地改善了訓練集類別不平衡問題，提升了模型對少數(shù)類別的分類質量，較大地提高了模型的泛化能力。

參考文獻：

[1] 任仲福.海洋石油鉆井平臺安全風險以及風險管控分析 [J].科技創(chuàng)新與應用，2017（27）：124+126.

[2] 閆會賓.海洋平臺結構與設備的可靠度與風險評估 [D].杭州：浙江大學，2016：1-22.

[3] 白旭，湯榮鏗，羅小芳，等.基于故障樹分析和貝葉斯網絡方法的半潛式鉆井平臺系統(tǒng)多狀態(tài)可靠性分析 [J].中國造船，2020，61（2）：220-228.

[4] 羅小芳，孫宇，白旭，等.基于動態(tài)故障樹的半潛式鉆井平臺鉆井系統(tǒng)失效風險分析 [J].船舶工程，2019，41（3）：107-114.

[5] 賈占橋. 船舶機電設備診斷方法研究 [J].內燃機與配件，2020（19）：131-132.

[6] 李科文，冷阿偉，劉慶江，等.半潛式鉆井平臺開發(fā)方案綜合評價研究 [J].航海工程，2018，47（A01）：97-100.

[7] 劉子健，李飛.半潛式平臺適用性影響因素研究 [J].中國造船，2019（Z1）：392-397.

[8] KAUR H，PANNU H S，MALHI A K. A systematic review on imbalanced data challenges in machine learning：Applications and solutions [J].ACM Computing Surveys（CSUR），2019，52（4）：1-36.

[9] KRAWCZYK B. Learning from imbalanced data：open challenges and future directions [J]. Progress in Artificial Intelligence，2016，5（4）：221-232.

[10] GUO，H X，LI Y J，SHANG J，et al. Learning from class-imbalanced data：Review of methods and applications [J]. Expert Systems with Applications，2017，73：220-239.

作者簡介：李至立（1988.01—），男，漢族，山東濟寧人，中級工程師，碩士，2011年畢業(yè)于哈爾濱工業(yè)大學計算機科學與技術專業(yè)，主要研究方向：大規(guī)模數(shù)據(jù)處理、分布式存儲與分析、商務智能等。

收稿日期：2022-02-17

基金項目：煙臺市重點研發(fā)計劃項目（2020JMRH010）E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31

現(xiàn)代信息科技2022年6期

現(xiàn)代信息科技的其它文章: 2GHz～18GHz寬帶有源巴倫芯片設計; 湛江機場地面波道系統(tǒng)介紹和故障處置; 基于用戶行為指標的在線健康社區(qū)用戶畫像研究; 融合物候知識和多時相遙感的冬小麥種植面積提取; 政府大數(shù)據(jù)質量評價體系構建及其研究; 企業(yè)信息網絡安全管理的建設與運維研究