謝 春 許 偉
上海電氣集團股份有限公司 中央研究院 上海 200070
鍋爐是能源行業的關鍵設備,運行狀態會影響整個系統的工作效率。鍋爐的積灰污染是影響鍋爐正常運轉的一個非常重要的因素。
沾污因數是定量表征鍋爐積灰污染程度的指標,沾污因數的大小可以直觀有效指導工作人員對受熱面進行吹掃,保障鍋爐安全運行。當前,主要基于操作人員的經驗,結合鍋爐受熱面的溫度、蒸汽壓力等監測數據及鍋爐的負荷較為粗略地評估鍋爐的積灰程度。
用沾污因數表征鍋爐積灰污染程度是較為科學和直觀的方法,但是存在不足。
積灰污染是一個相當復雜的物理化學過程,積灰污染的機理尚不明確,有關積灰過程的理論研究與試驗十分欠缺,沾污因數的計算存在公式模糊、計算困難的問題。另一方面,基于人工經驗的評估方法沒有考慮沾污因數隨時間周期性變化的特征,并且沒有充分利用歷史數據,結果不能準確地描述鍋爐的積灰程度[1-3]。
隨著計算機技術的發展,基于機器學習對鍋爐沾污因數進行預測成為一個可行的研究方向。隨機森林回歸算法可以量化復雜的非線性關系,預測結果不受異常值和冗余數據的影響,并且不會產生明顯的過擬合風險[4]。鑒于此,筆者充分考慮鍋爐運行的周期性,對鍋爐歷史監測數據進行特征重構,以重構特征作為輸入數據,通過超參數搜索,建立基于隨機森林回歸算法的鍋爐沾污因數預測模型,實現對鍋爐沾污因數的預測,同時對模型的預測性能進行評價。
隨機森林回歸算法是一種集成學習算法,聚合多棵分類樹,每棵分類樹由獨立采樣的隨機向量賦值。隨機森林回歸算法利用自展重抽樣方法,從原始樣本中抽取多個樣本,對每個樣本進行決策樹建模,組合多棵決策樹的預測,通過投票得出最終預測結果[5-6]。
隨機森林回歸算法流程如圖1所示。
圖1 隨機森林回歸算法流程
隨機森林回歸模型采用均方根誤差、擬合優度兩個評價指標。均方根誤差可以反映樣本的離散程度,值越小說明精度越高,值的大小受預測數值的大小影響。擬合優度可以檢驗隨機森林回歸模型對樣本數據的擬合程度,取值在0~1之間,值越高表示模型的可解釋程度越高[7]。
均方根誤差r為:
(1)
式中:N為樣本總數;n為樣本序號;Y′n為第n個樣本預測值;Yn為第n個樣本標簽值。
擬合優度R2為:
(2)
選擇某電廠2020年3月~5月的鍋爐歷史數據作為試驗數據,由安裝在鍋爐特定受熱面上的傳感器獲得。鍋爐歷史數據采集頻率為每15 min采集一次,包括鍋爐負荷W、指定受熱面溫度T、蒸汽壓力P,以及根據既往統計和傳統經驗得到的沾污因數,該沾污因數經過技術人員調整,可以認為是較為準確的標簽數據。
在充分考慮鍋爐運行周期性,突顯歷史數據變化趨勢的基礎上進行特征重構,以便通過隨機森林回歸算法獲得更好的預測結果。
(3)
(4)
對各特征數據按照式(3)和式(4)進行特征重構,將沾污因數作為標簽數據,特征重構后的部分數據見表1。
采用隨機森林回歸算法對特征數據進行建模,隨機森林回歸模型有兩個非常重要的超參數。一個是最大特征數,即一棵決策樹最多有多少個特征變量,根據經驗,每棵決策樹輸入約1/3的特征集。另一個是決策樹數量[8-10]。為了確定最優的決策樹數量,可以訓練多個隨機森林回歸模型,每個隨機森林回歸模型的決策樹數量由0至1 000等值增加。擬合優度隨決策樹數量的變化如圖2所示。由圖2可以看出,決策樹數量大于100時,擬合優度已基本趨于穩定,因此可以將決策樹數量設置為100來訓練隨機森林回歸模型。
作為對比,在超參數設置相同的情況下,分別以未重構特征和重構特征來訓練隨機森林回歸模型。未重構特征為負荷、蒸汽壓力、溫度,重構特征為蒸汽壓力變化趨勢指標、溫度變化趨勢指標。預測結果對比如圖3所示。
由圖3可知,基于重構特征訓練得到的隨機森林回歸模型對鍋爐沾污因數的擬合更好,解釋性強,可以有效表征鍋爐沾污因數的變化趨勢。
表1 特征重構后部分數據
圖2 擬合優度隨決策樹數量變化關系
圖3 預測結果對比
利用式(1)、式(2)可以計算出基于未重構特征和基于重構特征的隨機森林回歸模型的均方根誤差和擬合優度,見表2。
由表2評價指標可以看出,對數據進行重構后用于隨機森林回歸模型預測鍋爐沾污因數,擬合優度達到0.764 2,明顯優于未重構特征預測結果,可見重構特征可以有效顯示鍋爐狀態數據與積灰程度之間的潛在規律,使隨機森林回歸模型能夠更好地應用于鍋爐沾污因數預測。
筆者通過研究提出基于隨機森林回歸算法的鍋爐沾污因數預測方法。為充分體現鍋爐運行的周期性特征,對歷史數據進行特征重構,獲得蒸汽壓力變化趨勢指標和溫度變化趨勢指標。以這兩者作為訓練特征,基于隨機森林回歸模型實現對鍋爐沾污因數的預測。通過案例表明,這一方法可以很好地挖掘鍋爐歷史監測狀態數據和鍋爐沾污因數之間的潛在規律。在鍋爐積灰機理尚不明確的情況下,應用這一方法預測得到的鍋爐沾污因數具有一定的可靠性和參考性。
表2 隨機森林回歸模型評價指標