趙志挺
(沈陽化工大學機械與動力工程學院,沈陽 110142)
板形是指板帶材的外貌形狀,包含帶鋼截面幾何形狀和自然狀態下板帶材平直度兩方面,因此要定量描述板形就涉及到凸度、平直度、楔形、邊部減薄和局部高點等多項指標[1]。在熱連軋生產中,板凸度是評價帶鋼質量的重要指標之一,板凸度的好壞直接決定帶鋼的質量[2]。帶鋼板凸度的偏差不僅會造成工藝中斷和許多問題,還會造成板形的缺陷和產品故障,造成巨大的浪費和潛在的風險[3]。而在實際的生產中,帶鋼的板凸度缺陷問題一直很嚴重,帶鋼板凸度的控制一直是一項艱巨的任務[4]。改進和尋求更加完善的凸度控制策略,提高帶鋼凸度控制精度已經成為當前軋鋼領域研究的熱點。
由于板帶材的性能直接由軋機決定,但軋機由各種軋制模型控制。為了分析帶鋼缺陷,純數學模型、新型軋機、有限元法( finite element method, FEM )等理論得到了發展和應用。純數學模型過于復雜,且難以解釋。而新型軋機總是需要新的投資和研究,花費巨大。隨著計算機技術的發展,有限元法被用于軋制的模擬。在多道次軋制過程中,Zhang等[5]成功地利用FEM比較了非對稱剪切軋制和對稱軋制中帶材的應變、組織演變和溫度。Faini等[6]通過FEM分析了熱軋主要參數(如冷卻時間、壓下率等)對空洞閉合指數的影響,得到了新定義的幾何指標與空洞閉合之間的關聯式。事實上,對于FEM,人為的設置是必不可少的,包括模型和約束條件,但一次只能進行一種情況。通過大量的試驗,上述理論在熱軋行業得到了廣泛的接受和應用。然而,模型的改進需要復雜的數學公式推導和檢驗,工作量巨大。
隨著人工智能和工業大數據的興起,學者們開始將人工智能方法引入熱軋帶鋼板凸度控制技術。曹建國[7]提出了基于數據挖掘的調整策略,可以有效改善板凸度控制情況,可為寬厚板板形質量控制研究提供參考。Sun等[8]建立了基于隨機森林的熱軋帶鋼板凸度模型,能夠穩定和精確地預測帶鋼板凸度。Wang等[9]應用思維進化算法和人工神經網絡預測熱軋工藝的型材和平整度,該模型能代替傳統的基于數學公式分析的機理模型來研究熱軋過程中復雜、非線性的板形控制。Wu等[10]改進局部異常因子的熱軋帶鋼凸度的高斯過程回歸預測模型,與傳統的高斯過程回歸、人工神經網絡和SVR比較,具有更好的預測精度和穩定性。Sudipta等[11]進行了一項研究,應用結構簡單的ANN來預測不同寬度的帶鋼的板凸度。Li[12]建立基于集成學習的熱軋帶鋼凸度預測方法,具有高效率和高精度。以上方法對板凸度控制研究起著重要的作用,但在實際應用過程中,由于建模的參數較多,面臨著調參困難和調參時間長的問題。因此,建立快速、高精度的板凸度預測模型十分重要。
輕量梯度提升機是一種先進的機器學習算法,它使用直方圖算法和具有深度限制的Leaf-wise策略來提高模型的準確性。由于其運算速度快、節省內存,在多個領域都有應用。Wang等[13]建立LightGBM模型對186家企業的融資風險狀況進行預測,實驗表明,LightGBM在企業融資風險預測的幾個指標上比常規算法具有更好的預測結果。孫泉等[14]通過LightGBM對溫室番茄冠層作物水分脅迫指數(CWSI)進行預測,精度較高,為實現溫室番茄按需灌溉提供參考。而貝葉斯超參數優化是一類黑箱優化問題[15]。在參數優化過程中,只有輸入和輸出才能解決函數極值問題。丁昌偉等[16]為了進一步提高小斷層地震解釋的精確度,提出了利用信息價值對地震屬性進行約簡,結合改進的貝葉斯優化算法,優化XGBoost參數以識別小斷層。黃新燁等[17]運用貝葉斯優化方法在需鈉弧菌生產1,3-丙二醇,降低了成本,并且提高了實驗效率。
針對以上問題,本文通過軋制數據建立了BOLightGBM算法,希望通過貝葉斯優化算法,快速實現模型的參數調優,并滿足熱軋帶鋼板凸度的預測精度要求。
Light GBM是boosting集成模型的成員,LightGBM是GBDT的有效實現[18]。原則上,它類似于GBDT和XGBoost,兩者均使用損失函數的負梯度作為當前決策樹的殘差來近似擬合新的決策樹。殘差(包括一階和二階導數信息)由損失函數的泰勒展開式近似表示,正則化項用于控制模型的復雜度。但是LightGBM的最大特點是使用葉子分裂策略代替XGBoost的水平分裂策略,只選擇具有最大的分裂增益的節點進行分裂,從而避免部分增益較小節點的代價,LightGBM的葉子分裂策略如圖1所示[19]。

圖1 LightGBM的葉子分裂策略
此外,LightGBM使用基于直方圖的決策樹算法只保存特征的離散值而不使用XGBoost,并使用精確算法中使用的預排序算法來減少內存的使用,加快模型的訓練速度。直方圖通過分段函數將連續值離散化為相應的bin,如式(1)所示:
對于式(1),將不小于0的連續特征分為3部分,特征分割點數減少為3,即bin為3,大大加快了訓練速度。直方圖包含每個bin樣本中的梯度和每個bin中的樣本數量,如式(2)和式(3)所示:
每個面元的累積梯度包含一個一階梯度和一個二階梯度。
貝葉斯參數優化采用高斯過程,該過程考慮了之前的參數信息并不斷更新先驗。它具有迭代次數少、訓練速度快的特點,貝葉斯的具體參數優化思想如下。
假設函數f(x)的定義域在R區間,需要在X區間內找到x,如式(4)所示,其中x是一個超參數。
如果f(x)是凸函數且定義域也是凸函數,則可以通過凸優化問題來研究。然而在實際的機器學習中,f(x)一般是一個黑箱優化問題,在計算過程中需要耗費大量的資源。在解決這個問題時,貝葉斯優化有一定的發言權。貝葉斯優化的算法思想如表1所示,其中f為一組超參數的輸入,X為超參數搜索空間,D為數據集,S為集合函數,M為通過擬合數據集D得到的模型。

表1 貝葉斯優化參數的框架
本文從工廠控制系統的數據采集系統(Process Data Acquisition,PDA)中得到某熱軋生產線數據,根據物理冶金及軋制成形理論,篩選出34個關鍵特征(如表2),包括每個機架的軋制力、工作輥彎輥力、中間輥彎輥力、竄輥量、厚度、寬度、軋制溫度等,共計5100個樣本,預測目標為熱軋帶鋼板凸度大小。

表2 模型特征表述
由于工業數據含有空值、異常值和噪聲數據,所以對數據進行預處理。首先去除空值數據,其次采用貝塞爾公式[20]去除異常值,貝塞爾公式如式(5)~式(7)所示:
式中:yi為樣本的輸出值;L為樣本數量為樣本均值。
最后對數據進行五點三次平滑降噪[21],公式如式(8)所示,圖2所示為降噪后部分樣本的板凸度值,由圖2可以看出,降噪后的樣本曲線比降噪前更光滑。

圖2 降噪后的部分數據圖
同時為了防止不同參數的量綱對模型的影響,對輸入數據進行標準化:
式中:x*和x為標準化后的樣本和訓練樣本;μ為x的均值;σ為x的標準差。
實驗流程圖如圖3所示,將預處理后的數據集隨機劃分70%的樣本為訓練集,30%的樣本為測試集,分別建立RF、GBDT、XGBoost和LightGBM模型,并使用10折交叉驗證進行驗證,交叉驗證原理圖如圖4 所示,并使用R2、MAE和MSE進行模型性能的評價,公式如式(10)~式(12)所示。

圖3 實驗流程圖

圖4 10折交叉驗證原理圖
R2反映因變量的全部變異能通過回歸關系被自變量解釋的比例。R2取值在[0,1]。一般來說,R2越接近1,則模型擬合效果越好。同樣,MAE、RMSE越小,模型的預測效果越好。
如圖5所示,4個模型經過10次交叉驗證后,LightGBM擁有最高的R2,且最小和最大的R2值在0.96~0.98之間浮動,其次是RF、XGBoost,最差的是GBDT模型,該模型R2的最小值和最大值在0.92~0.95之間浮動。

圖5 4個模型基于交叉驗證的性能
用貝葉斯算法對LightGBM進行參數優化。優化后的模型與RF、GBDT、XGBoost進行比較,如圖6所示,最優模型 為BO -LightGBM, 其 次 為RF、XGBoost和GBDT。BO-LightGBM的R2、MAE和MSE均為最優值,分別為0.97、1.49 μm、2.28 μm。

圖6 4種模型的性能
將預測值與真實值進行對比,圖7(a)、(b)、(c)、(d)分別為RF、GBDT、XGBoost和BO-LightGBM的真實值與預測值比較圖。由圖7可知,4種模型的真實值與預測值都均勻地分布在y=x的直線上,都具有較好的預測性能,同時也可以看出,BO-LightGBM的分布最密集,具有最好的預測性能。

圖7 4種模型的真實值與預測值對比
針對熱軋帶鋼板凸度預測精度不足和建模調參困難的問題,建立了一種貝葉斯優化結合LIghtGBM的板凸度預測模型,能夠實現板凸度快速建模和精確預測,得出如下結論:
1)對于工廠采集的原始數據,通過貝塞爾公式去除異常值、五點三次平滑公式降噪和標準化處理,為后續建立高精度的模型提供了條件。
2)通過對RF、GBDT、XGBoost和LightGBM經過10折交叉驗證后,發現LIghtGBM模型的預測穩定性最高,且預測精度最高。
3)通過對LightGBM模型參數進行貝葉斯優化,發現優化后模型的預測性能高于其他3種模型的預測性能,最優的R2、MAE和MSE分別為0.97、1.49 μm、2.28 μm。因此,可以認為BO-LightGBM能滿足板凸度預測的精度要求,能實現較簡單的調參需求。