




摘 要:文章針對汽車電力變壓器生產(chǎn)過程中存在的供銷不平衡的問題,利用預(yù)測模型,對汽車電力變壓器的工業(yè)生產(chǎn)過程進(jìn)行優(yōu)化研究。文章使用Kaggle平臺上470條電力變壓器故障分析數(shù)據(jù),對電力變壓器的預(yù)期壽命進(jìn)行回歸預(yù)測。將GradientBoosting模型與RandomForest等8種模型進(jìn)行對比,GradientBoosting模型準(zhǔn)確率達(dá)86%,證明了其預(yù)測性能的優(yōu)越性。此外,文章還對特征進(jìn)行重要性分析,有助于理解模型的內(nèi)部工作機(jī)制、更好地進(jìn)行數(shù)據(jù)預(yù)處理和特征工程。
關(guān)鍵詞:電力變壓器 生產(chǎn)流程優(yōu)化 預(yù)測模型 特征重要性排序 機(jī)器學(xué)習(xí)
0 引言
電力變壓器是一種交流電壓轉(zhuǎn)換的設(shè)備,由一個或多個線圈組成,可以用于傳輸和分配電能。氫、氧化原、氮、甲烷、一氧化碳、二氧化碳等絕緣氣體,乙烯、乙烷、亞甲基、二芐基二硫等絕緣材料,它們可以用于保護(hù)變壓器線圈免受外界環(huán)境的影響。功率因數(shù)、介電剛度、含水量等參數(shù)是電力變壓器中常用的技術(shù)參數(shù),它們可以用于評估變壓器的性能和可靠性。
經(jīng)查閱相關(guān)資料,目前汽車電力變壓器工業(yè)生產(chǎn)流程優(yōu)化方法主要包括基于仿真技術(shù)的優(yōu)化、基于數(shù)理模型的優(yōu)化等?;诜抡婕夹g(shù)的優(yōu)化主要集中在CAD/CAM、三維虛擬仿真分析等方面;如蘇得收(2018)[1]結(jié)合層次分析法用工業(yè)互聯(lián)網(wǎng)的思維導(dǎo)入LED封裝生產(chǎn);田磊(2020)[2]通過將三維仿真軟件和工業(yè)工程相結(jié)合合理進(jìn)行人員調(diào)度及資源配置;陳碩(2022)[3]提出基于Petri網(wǎng)建模的產(chǎn)品生產(chǎn)線優(yōu)化研究。基于數(shù)理模型的優(yōu)化主要集中于統(tǒng)計模型與機(jī)器學(xué)習(xí)模型;孫洋(2019)[4]通過IE法和線性規(guī)劃模型對B型斷路器進(jìn)行的生產(chǎn)線平衡改善;劉孝保[5]、楊小實(shí)[6]等分別建立機(jī)器學(xué)習(xí)模型對相關(guān)流程進(jìn)行優(yōu)化;此外,深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)[7]、遷移學(xué)習(xí)[8]也得到廣泛應(yīng)用。
綜上,制造業(yè)的工業(yè)流程優(yōu)化研究中,各界學(xué)者已經(jīng)做了大量工作,但少有研究對多種機(jī)器學(xué)習(xí)模型效果進(jìn)行綜合評比,且所選模型缺乏可解釋性?;诖耍紤]實(shí)驗(yàn)數(shù)據(jù)的多特征性,本文選擇多種集成模型,對汽車電力變壓器的預(yù)期壽命進(jìn)行預(yù)測,并結(jié)合特征重要性,分析外界因素對其需求量影響,從而對汽車電力變壓器工業(yè)生產(chǎn)流程進(jìn)行優(yōu)化。
1 優(yōu)化方法簡述
1.1 集成模型
集成學(xué)習(xí)模型是一種將多個模型結(jié)合在一起來提升整體性能的方法。集成學(xué)習(xí)模型的流程如下:首先,構(gòu)建多個子學(xué)習(xí)器;然后,使用某種集成策略將這些模型集成在一起;最后,完成學(xué)習(xí)任務(wù)。子學(xué)習(xí)器的篩選原則是每個子學(xué)習(xí)器都要有一定的準(zhǔn)確性,并且子學(xué)習(xí)器之間要保持相對獨(dú)立性和多樣性。
本文所用的Boosting算法的主要思想在于:每一個后續(xù)的學(xué)習(xí)器都會重點(diǎn)關(guān)注前一個學(xué)習(xí)器預(yù)測錯誤的樣本,并對這些樣本賦予更高的權(quán)重,以此來逐步改進(jìn)模型的預(yù)測性能。
1.2 特征重要性排序
特征重要性排序是為了確定哪些特征對模型預(yù)測結(jié)果的影響最大。有多種方法可以用來計算特征重要性,包括嵌入法(如使用sklearn庫中的SelectFromModel)、排列重要性(Permutation Importance)以及SHAP值等。
本文所用的排列重要性是一種基于模型的特征選擇方法。其原理是打亂某個特征的值,然后觀察模型性能的變化。如果打亂某個特征后,模型預(yù)測的正確率顯著下降,那么這個特征就被認(rèn)為是重要的。為了消除隨機(jī)性的影響,這個過程會多次重復(fù),然后求取平均值和方差。
2 實(shí)驗(yàn)準(zhǔn)備
2.1 數(shù)據(jù)勘查
本文數(shù)據(jù)來源于Kaggle平臺所提供的電力變壓器數(shù)據(jù)故障分析。該數(shù)據(jù)集提供了電力變壓器的材料、外界因素等相關(guān)信息,通過對全部數(shù)據(jù)分析發(fā)現(xiàn),該電力變壓器共14個屬性,2個標(biāo)簽。使用info()函數(shù)可得該數(shù)據(jù)集共有16列,每列有470條數(shù)據(jù),均無缺失值、重復(fù)值,故可不做相關(guān)預(yù)處理。
2.2 數(shù)據(jù)相關(guān)性
通過corr函數(shù)查看各特征與'Life expectation'(預(yù)期壽命)列之間的相關(guān)性,并按相關(guān)性從高到低排序,且各個影響因素與預(yù)期壽命均有顯著的統(tǒng)計關(guān)系,因此保留每一項(xiàng)影響因素。
為進(jìn)一步了解數(shù)據(jù)的分布、異常值等特點(diǎn),對每個影響因素進(jìn)行可視化,展示其分布情況,包括直方圖、箱形圖和群點(diǎn)圖。其中,CO對預(yù)期壽命的影響如圖1所示。
初步探索數(shù)據(jù)后,調(diào)用scikit-learn庫中的train_test_split函數(shù),將數(shù)據(jù)集按7﹕3的比例劃分為訓(xùn)練集和測試集,并使用scikit-learn庫中的StandardScaler來對所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使其更適合機(jī)器學(xué)習(xí)算法。
3 預(yù)測模型構(gòu)建與評分
3.1 模型建立
對數(shù)據(jù)進(jìn)行清洗后,采用九種集成模型對訓(xùn)練集進(jìn)行訓(xùn)練,并計算每個模型在測試集上的準(zhǔn)確率,GradientBoosting模型的準(zhǔn)確度達(dá)到了0.86,因此,選用GradientBoosting作為基礎(chǔ)模型。
為了更好全面評估機(jī)器學(xué)習(xí)模型的預(yù)測性能,利用matplotlib庫繪制散點(diǎn)圖(如圖2所示),采用可視化技術(shù)來展示數(shù)據(jù)實(shí)際值與預(yù)測值之間的關(guān)系。
為深入探究機(jī)器學(xué)習(xí)模型在訓(xùn)練過程中的性能演變,對模型的偏差進(jìn)行可視化分析。偏差是衡量模型預(yù)測值與實(shí)際值之間差異的重要指標(biāo),它隨著迭代次數(shù)的增加而逐漸減小,圖3能夠直觀了解模型在訓(xùn)練過程中的性能變化,從而識別出可能存在的過擬合或欠擬合問題。
3.2 模型調(diào)參
通過前文實(shí)驗(yàn)篩選出預(yù)測精度最好的GradientBoostingRegressor模型,輸入訓(xùn)練集與測試集進(jìn)行性能測試。并使用GridSearchCV來搜索最佳的超參數(shù),此方法是對模型的指定參數(shù)進(jìn)行范圍內(nèi)窮舉,以獲得最佳的性能。調(diào)參優(yōu)化步驟如表1所示。
3.3 實(shí)驗(yàn)效果評估
為進(jìn)一步比較電力變壓器剩余壽命預(yù)測模型的準(zhǔn)確性,利用均方誤差(MSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、決定系數(shù)(R2)等指標(biāo)對模型進(jìn)行評價,結(jié)果如表2所示。
由表2可知,該模型在訓(xùn)練集上表現(xiàn)優(yōu)異,但在測試集上性能較差,可能存在過擬合問題。為了改進(jìn)模型性能,可以考慮采用正則化技術(shù)、增加數(shù)據(jù)多樣性、調(diào)整模型復(fù)雜度或使用交叉驗(yàn)證等方法來減少過擬合。
4 基于特征重要性的電力變壓器影響特征分析
為深入理解各個特征對電力變壓器預(yù)期壽命的影響程度,本文采用兩種不同的方法來評估特征的重要性,并通過可視化展示結(jié)果。
除使用模型自帶的feature_importances_屬性獲取每個特征的重要性分?jǐn)?shù)以外,本文還采用了更為穩(wěn)健的置換重要性(Permutation Importance)來進(jìn)一步評估特征的重要性。置換重要性是通過隨機(jī)打亂測試集中某個特征的值,然后觀察模型性能的變化來計算的。如果打亂某個特征后模型性能大幅下降,則說明該特征對于模型的預(yù)測能力至關(guān)重要。
由圖4可以看出,Interfacial、Water content、Health index特征性排名前三,說明其對電力變壓器的預(yù)期壽命影響較大;在實(shí)際工程中,可重點(diǎn)關(guān)注其值的變化,以便準(zhǔn)確的掌握電力變壓器的使用狀況等。
5 結(jié)論
本文介紹并詳細(xì)闡述了實(shí)施方法、流程和具體效果,且對比了GradientBoosting等9種集成學(xué)習(xí)模型的預(yù)測效果,結(jié)果表明GradientBoosting模型預(yù)測精度達(dá)到0.86,明顯優(yōu)于其他模型,驗(yàn)證了其有效性。
使用綜合性能最優(yōu)的集成模型對電力變壓器數(shù)據(jù)故障分析的變量進(jìn)行特征重要性排序,結(jié)果顯示Interfacial、Water content、Health index對模型預(yù)測結(jié)果影響較大,并針對變量的重要性對電力變壓器的生產(chǎn)監(jiān)控提供建議,幫助公司優(yōu)化其工業(yè)流程,提升經(jīng)濟(jì)效益。
基金項(xiàng)目:2022年四川省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目:基于預(yù)測模型的汽車零部件工業(yè)流程優(yōu)化方法研究(107261858)。
參考文獻(xiàn):
[1]蘇得收.基于工業(yè)互聯(lián)網(wǎng)的LED封裝生產(chǎn)流程優(yōu)化[D].天津:天津大學(xué),2017.
[2]田磊,王婕.VR眼鏡后組裝生產(chǎn)線流程優(yōu)化研究[J].制造技術(shù)與機(jī)床,2020(03):139-144.
[3]陳碩.基于Petri網(wǎng)建模的G公司缸蓋生產(chǎn)線優(yōu)化[D].石家莊:河北科技大學(xué),2022.
[4]孫洋.基于Witness的電力設(shè)備生產(chǎn)線平衡優(yōu)化研究[D].北京:華北電力大學(xué)(北京),2020.
[5]劉孝保,嚴(yán)清秀,易斌,等.基于集成學(xué)習(xí)和改進(jìn)粒子群優(yōu)化算法的流程制造工藝參數(shù)優(yōu)化[J].中國機(jī)械工程,2023,34(23):2842-2853.
[6]楊小實(shí),王湘龍.基于機(jī)器學(xué)習(xí)支持向量回歸SVR算法對外賣配送流程優(yōu)化的研究[J].計算機(jī)產(chǎn)品與流通,2019(11):108+146.
[7]王旭.面向神經(jīng)計算的連鑄坯質(zhì)量預(yù)測方法研究[D].唐山;華北理工大學(xué),2022.
[8]陳航.基于BERT和遷移學(xué)習(xí)的業(yè)務(wù)流程預(yù)測與可解釋性研究[D].淮南:安徽理工大學(xué),2023.