999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用改進XGBoost 預測RH 精煉終點鋼水溫度

2023-09-28 03:55:56何江一王興華王燕斌
材料與冶金學報 2023年5期
關鍵詞:特征優化模型

徐 猛, 雷 洪, 何江一, 韓 信, 王興華, 王燕斌

(1.東北大學 材料電磁過程研究教育部重點實驗室, 沈陽 110819;2.東北大學 冶金學院, 沈陽 110819; 3.建龍北滿特殊鋼有限責任公司, 黑龍江 齊齊哈爾 161041;4.沈陽東惠科國際貿易有限公司, 沈陽 113000)

在“十四五”時期,我國持續推進的新型工業化、城鎮化建設對鋼產品質量的適用性、穩定性以及可靠性提出了更高的要求[1].為了滿足用戶的需求,具有真空脫氣脫碳、均勻成分和溫度補償等多種功能的RH 逐漸成為大多數高附加值鋼產品生產的重要精煉環節[2].冶金工作者若能精確地預報RH 精煉終點鋼水溫度,就能縮短真空精煉時間,從而提高工作效率,減少鋼產品性能的波動.

隨著機器學習和數據挖掘的快速發展,許多機器學習方法在冶金領域嶄露頭角,這些方法包括神經網絡[3]、支持向量機[4]、極限梯度提升(extreme gradient boosting,XGBoost)[5]等.林 云等[6]采用人工神經網絡建立了RH 溫度預報模型,該模型在偏差為±5 ℃時精煉終點鋼水溫度的命中率達到87%.王毓男等[7]采用多元回歸分析方法建立了RH 精煉終點鋼水溫度的預測模型,該模型在偏差為±10 ℃時吹氧和未吹氧條件下的命中率分別為96%和99%.以上模型均為單一機器學習模型,在處理數據維度和預測精度方面的應用極其有限.曹宇軒等[8]在LF 爐溫度預報模型中先采用最大相似法和鄰近爐次法對數據進行篩選,再利用遺傳算法對自動搜索結構的反向傳播(back propagation,BP)神經網絡進行優化,該模型在偏差為±5 ℃時終點命中率達到90.52%.李紅利[9]利用貝葉斯優化算法對XGBoost 算法的參數進行優化,并與專家預估模型混合,實現了LF鋼水溫度的預估.

有研究表明,在機器學習中選取的輸入變量過多或過少均會降低算法的運算效率和預測精度,并且單一機器學習模型還會存在一些局限性.因此,本文中以煉鋼廠RH 現場數據作為研究對象,先 采 用 隨 機 森 林(random forest,RF)[10]、Optuna[11]和XGBoost 算法相結合的方法來建立溫度預測模型,通過隨機森林的袋外(out of bag,OOB)[13]數 據評分 進行 特 征選 擇,然 后 利用Optuna 框架對XGBoost 超參數自動優化,最后根據最優參數預測RH 精煉終點鋼水溫度.

1 數據預處理

本文中的數據源自煉鋼車間RH 的生產數據.由于部分數據存在噪音、缺失值、數據量綱不統一等問題,因此對數據進行預處理十分有必要.將篩選后的數據進行歸一化轉換,具體轉化公式為

式中:xi為輸入的各特征變量;ximax,ximin為各獨立樣本數據的最大值和最小值.

2 基于隨機森林特征選擇

特征選擇是利用最少的特征盡最大可能表達現有數據.這種方法能夠減少計算量,提高學習算法的運算效率,從而增強模型的泛化能力.隨機森林方法是進行特征選擇的有效方法,具體方法如下:①提取預處理后的數據集,將全部的特征作為特征子集,計算出各特征的重要性并按照降序排列;②給定剔除比例,從當前的特征子集中依次剔除相應比例的次要特征,每執行1 次剔除得到1個特征子集,不斷剔除次要特征直至剩余4 個特征;③比較步驟②中得到的各特征子集所對應的OOB 評分,將OOB 評分最高的特征子集作為選定的特征集.

為了減少訓練樣本分布對實驗結果的影響,采用五重交叉數據確定特征集[13].具體過程如下:先將全部的訓練數據隨機分為等量的5 份,選擇其中4 份作為訓練數據選取特征集;然后更換其中1 份數據,重復實驗,這樣得到5 組不同的特征集;最后選用出現次數較高(出現次數≥3)的特征作為最終的特征集.

3 XGBoost 優化算法建模原理與方法

3.1 XGBoost 算法

XGBoost 算法[14-15]的核心思想來源于提升樹,通過不斷地添加提升樹,使其集成在一起形成1 個強分類器.其目標函數為

式中:l(yi,)為損失函數,為預測輸出,yi為真實輸出為正則化項,fk為第k棵樹模型,T為每顆樹的葉子數量,W為葉子權重值,γ為葉子數量懲罰正則項,λ為葉子權重懲罰正則項.

XGBoost 算法的目標函數引入節點權重等正則項,主要是用來降低模型的復雜度,避免過擬合.同時,損失函數還采用式(3)的二階泰勒展開式,這樣可以有效提高算法的收斂速度和準確性.

式中:gi和hi分別是損失函數的一階導數和二階導數.

3.2 GBDT 和LightGBM 算法

梯度提升決策樹(gradient boosting decision tree, GBDT)算法[16]是將決策樹與Boosting 思想相結合的一種算法.它采用迭代方式進行訓練,每輪訓練均是在上一輪訓練的殘差(用損失函數的負梯度來替代)基礎上進行的.在回歸問題中,每輪迭代產生1 棵決策樹,迭代結束時會得到多棵決策樹,將所有決策樹的結果累加到一起可作為最終結果.

LightGBM 算法[16]以GBDT 算法為基礎,采用Histogram 的決策樹算法將連續特征離散化,并利用單邊梯度采樣(gradient-based one-side sampling,GOSS) 和 互 斥 特 征 捆 綁 (exclusive feature bundling,EFB)技術達到降維的目的.其中,GOSS 可以大幅度降低信息增益計算的復雜度,而EFB 可將許多互斥的特征綁定為1 個特征.

3.3 Optuna 框架

為實現高效自動超參數優化、減輕人工調參負擔以及提升準確性,在第三方庫中調用了Optuna 模塊.Optuna 是一個專為機器學習設計的自動超參數優化軟件框架[17],主要特征是并行的分布式優化、Python 形式的超參數空間搜索,以及輕量級、多功能、跨平臺的架構.該框架的優化方法默認為基于樹狀結構Parzen 密度估計的非標準貝葉斯優化算法[18],它通過轉換生成過程來模擬,用非參數密度替換先前配置的分布.

式中:y*為觀察后找到的最佳值;ζ(x)是對不同的觀察值{xk}觀察形成的密度,使得相應的損失f(xi)<y*;g(x)是通過剩余觀察值形成的密度.

3.4 建模流程

基于特征選擇和XGBoost 優化,RH 精煉終點鋼水溫度預測模型的構建思路如下:①在煉鋼車間現場采集RH 生產數據,并對數據進行預處理和特征篩選;②將篩選后的數據作為XGBoost模型的輸入項,并將其轉換為最小化目標函數的問題,利用迭代學習優化總體預測結果;③采用Optuna 框架對XGBoost 進行超參數優化,以此提高模型的預測精度,減小預測誤差;④訓練和測試預測模型并輸出預測值,利用模型評價標準進行分析,同時評估所用方法模型的性能.該模型整個框架如圖1 所示.

圖1 RH 精煉終點鋼水溫度預測模型框架Fig.1 Prediction model framework for the temperature of molten steel at the end of RH vacuum refining

3.5 實驗評價指標

模型的有效性評估一般采用均方根誤差(RMSE)、平均絕對誤差(MAE)、控制精度下的命中率(符合誤差允許的樣本數與總預測樣本數的百分比)和運行時間來進行評價.RMSE 和MAE分別反映了模型誤差平方的期望值與精確度.計算公式如下所示:

式中:n為總預測樣本數,yi為第i個樣本的溫度測量值為第i個樣本的溫度預測值.

4 實驗分析

4.1 數據集

經預處理后,煉鋼廠的258 爐數據只剩下255 爐,從中隨機選取75%的數據(191 爐)作為訓練集來訓練模型,剩下25%的數據(64 爐)作為測試集來驗證溫度模型的預測能力.

4.2 特征選擇

對采集所得數據進行特征選擇,篩選的特征變量一共包括12 種,如表1 所列.表2 列出了采用隨機森林方法篩選的結果.特征變量為進站鋼水溫度、進站鋼水氧質量分數、插入管次數、真空時間、鋁加入量和進站鋼水碳質量分數.

表1 RH 精煉終點鋼水溫度預測特征變量Table 1 Characteristic variables for the temperature of molten steel at the end of RH refining

表2 RH 精煉終點鋼水溫度預測特征變量選擇結果Table 2 Characteristic variables for the temperature of molten steel at the end of RH refining after selection

4.3 超參數優化

文獻[5]中通過調試XGBoost 的學習率、樹的數量和深度提高了模型的預測效果.XGBoost 的目標函數已引入正則化項,在超參數調試中再加入L1 正則化、L2 正則化及葉子能夠含有的最少樣本數.表3 列出了XGBoost 超參數取值范圍及Optuna 框架優化XGBoost 后所選取的一組最優超參數.

表3 XGBoost 超參數取值范圍及最優超參數Table 3 Value ranges and optimized values for XGBoost superparameter

4.4 模型性能分析

為了驗證模型預測效果, 本文中采用Python3.6 進行編程,分析了GBDT,LightGBM,XGBoost 這3 種模型在Optuna 框架下超參數優化前后的預測結果.其中,GBDT 模型選取的優化超參數為學習率、樹的數量、樹的深度、隨機種子、葉子能夠含有的最少樣本數、內部節點再劃分所需最小樣本數.LightGBM 模型選取的優化超參數為樹的數量、學習率、樹的深度、最大葉子數量、L1正則化、L2 正則化.

由表4 可知,RH 精煉終點的鋼水測量溫度最大值為1 607.00 ℃,最小值為1 582.00 ℃,極差為25 ℃.未優化和優化后的模型預測鋼水溫度的極差范圍為12~17 ℃,均小于鋼水溫度測量值的極差.其中,XGBoost 模型在超參數優化前鋼水溫度最大值為1 603.69 ℃,比測量值的最大值低3.31 ℃;其最小值為1 590.70 ℃,比測量值的最小值高8.7 ℃,極差僅為13 ℃.經超參數優化后,XGBoost 模型鋼水溫度最大值為1 607.29 ℃,比測量值的最大值高 0.29 ℃; 其最小值為1 591.31 ℃,比測量值的最小值高9.31 ℃,極差為16 ℃.

表4 測量溫度及模型預測溫度的特征值Table 4 Eigenvalues of measured temperature and model predicted temperature ℃

圖2 給出了RH 精煉終點鋼水溫度的預測值與測量值的誤差.可以看出,在超參數優化前,GBDT,LightGBM 和XGBoost 這3 種模型的溫度誤差主體(25%~75%數位分布)分別為-3.43 ~2.45 ℃,-3.22~2.34 ℃和-2.61 ~3.31 ℃.其中,XGBoost 模型中的RH 精煉終點鋼水溫度誤差的主體 較 寬, 為5.92 ℃; GBDT 模 型 次 之, 為5.88 ℃;LightGBM 模型中鋼水溫度誤差的主體最窄,為5.56 ℃.這3 種模型經過超參數優化后,相應的鋼水溫度誤差主體分別為-2.92 ~2.31 ℃,-2.49~3.03 ℃和-3.52 ~1.81 ℃.LightGBM 模型的箱體較寬,為5.52 ℃;XGBoost 模型次之,為5.33 ℃;GBDT 模型的箱體最窄,為5.23 ℃.經超參數優化后,GBDT,LightGBM 和XGBoost 這3 種模型的箱體寬度分別減小了0.65,0.04,0.59 ℃,這表明合理的超參數選擇能夠有效提升模型的準確度.

圖2 RH 精煉終點鋼水溫度預報誤差Fig.2 Error between the predicted value and the measured value of the temperature of molten steel at the end of RH vacuum refining

結合圖3 和表5 可知:優化前的GBDT,LightGBM,XGBoost 這3 種模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率分別為81.25%,79.68%,84.37%,經超參數優化后它們的命中率分別為87.50%,84.37%和92.18%,分別提高了6.25%,4.69%和7.81%.

表5 在Optuna 框架下3 種溫度預測模型優化前后結果的對比Table 5 Comparison of three temperature prediction models before and after optimization of Optuna

表6 不同XGBoost 超參數優化方法預測結果的對比Table 6 Comparison of prediction results of different XGBoost hyperparameter optimization methods

圖3 RH 精煉終點鋼水溫度預測結果Fig.3 Predicted temperature of molten steel at the end of RH refining

由表5 還可知:在偏差為±5 ℃時優化前的XGBoost 模型RH 精煉終點鋼水溫度的命中率比GBDT 模型的命中率高3.12%,比LightGBM 模型的命中率高4.69%;優化后的XGBoost 模型在偏差為±5 ℃時精煉終點鋼水溫度命中率比優化后的GBDT 模型命中率高4.68%,比優化后的LightGBM 模型高7.81%.就均方根誤差而言,優化后的GBDT 模型最小,為3.95;優化后XGBoost模型次之,僅比優化后的GBDT 模型高0.05.就平均絕對誤差而言,優化后的XGBoost 模型最小,為3.06,優化后的GBDT 模型次之,比優化后的XGBoost 模型小0.01.綜上所述,XGBoost 模型命中率更高,具有更好的擬合效果.

此外,表5 還給出了采用Optuna 框架對超參數進行迭代尋優所需的計算耗時.優化后的GBDT,LightGBM 和XGBoost 模型的運行時間分別為1 180.21,448.83,790.02 s.LightGBM 模型運行時間最短,這是因為LightGBM 模型在GBDT 模型基礎上進行了GOSS,EFB 及帶深度限制的Leaf-wise葉子生長策略等改進;而XGBoost 模型運行時間稍慢,這是因為它采用了基于預排序方法的決策樹算法,該預排序算法的優點是能精確地找到分割點,但是缺點也很明顯,即在空間和時間上的消耗大.

從表 6 中可看 出, 當采 用 隨機 搜 索(randomized search, RS)[19]、 網 格 搜 索(grid search,GS)[19]和Optuna 框架對XGBoost 模型進行超參數優化后,在偏差為±5 ℃時鋼水終點溫度的命中率分別提高了3.13 %,6.1 %和7.81 %.此外,計算耗時最短的是Optuna 框架,其次是RS,計算耗時最長的是GS,且RS 和GS 的計算耗時分別是Optuna 框架的1.21 倍和4.83 倍.這是因為GS 屬于窮舉搜索算法,它會將各個參數的可能取值進行排列組合,嘗試每一種組合,最后選擇出表現最好的參數組合;而RS 則是利用隨機數去求函數近似最優解.

5 結 論

(1)正確選擇XGBoost 模型的超參數對預測結果尤為重要.本文中選擇的超參數為樹的數量、樹的深度、學習率、L1 正則化、L2 正則化及葉子能夠含有的最少樣本數.

(2)利用Optuna 框架優化GBDT,LightGBM,XGBoost 3 種模型的超參數,優化后模型的命中率得到明顯提升,3 種模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率分別提高了6.25%,4.69%和7.81%.

(3)采用Optuna 框架、網格搜索和隨機搜索對XGBoost 模型進行超參數優化,經Optuna 框架優化的XGBoost 模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率最高(92%),且計算耗時最短.

猜你喜歡
特征優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 久久五月天综合| 国产精品香蕉| 亚洲一区二区精品无码久久久| 国产青青草视频| 色有码无码视频| 久久精品日日躁夜夜躁欧美| 人妻无码AⅤ中文字| 成人一区在线| 国产在线高清一级毛片| 国产麻豆va精品视频| 国产又色又刺激高潮免费看| 午夜性刺激在线观看免费| 性视频一区| 无码精品国产VA在线观看DVD| 理论片一区| 中文字幕永久视频| 一级毛片免费高清视频| 免费va国产在线观看| 999福利激情视频| 国产精品成人免费综合| 亚洲激情区| 国禁国产you女视频网站| 国模在线视频一区二区三区| 婷婷丁香色| 日本免费a视频| 精品国产aⅴ一区二区三区| 一本大道香蕉高清久久| 久久精品国产电影| 中文字幕在线免费看| 婷婷六月激情综合一区| 国产av色站网站| 国产裸舞福利在线视频合集| 久久鸭综合久久国产| 91在线丝袜| 国产精品女在线观看| 日韩无码真实干出血视频| 一本视频精品中文字幕| 色妞www精品视频一级下载| 亚洲第一色视频| 亚洲精品桃花岛av在线| 欧美成人一区午夜福利在线| 欧美丝袜高跟鞋一区二区| 亚洲欧美日韩中文字幕在线一区| 欧美精品另类| 91精品国产自产91精品资源| 青草视频久久| 91在线日韩在线播放| 国产精品性| 亚洲天堂啪啪| 日韩天堂在线观看| 丁香六月综合网| 国产成年无码AⅤ片在线| 亚洲最新在线| 国产精品久久久久久久久| 亚洲男人的天堂久久香蕉| 一本久道久久综合多人| 亚洲成人免费看| 婷婷五月在线视频| 亚洲精品爱草草视频在线| 69国产精品视频免费| 91成人免费观看在线观看| 97se亚洲| 91欧洲国产日韩在线人成| 一级毛片在线播放免费| 免费视频在线2021入口| 99视频在线精品免费观看6| 日本久久网站| 免费人成在线观看成人片| 无遮挡国产高潮视频免费观看| 国产精品主播| 综1合AV在线播放| 日本欧美在线观看| 国内精品免费| 国产91高跟丝袜| 亚洲视频二| 在线看片免费人成视久网下载| 亚洲综合精品香蕉久久网| 91成人在线免费观看| 不卡的在线视频免费观看| 亚洲精品爱草草视频在线| 亚洲欧洲一区二区三区| 亚洲欧美综合在线观看|