石 琳,劉文慧,曹富軍,王晉建
(1.內蒙古科技大學理學院,內蒙古 包頭 014010; 2.內蒙古科技大學信息與工程學院,內蒙古 包頭 014010)
煤氣利用率是反應高爐煉鐵的能耗和順行的重要指標之一。生產人員通過分析煤氣利用率的變化來調節高爐生產,實現爐況的穩定和低能耗。高爐冶煉過程是一個非線性、大滯后、強耦合的黑箱反應,涉及復雜的化學和物理反應。近年來隨著人工智能技術、大數據技術、傳感器技術和計算機算力的發展,可以采集大量的高爐煉鐵過程的煤氣利用率數據,利用機器學習技術對采集信息分析和建模,為工作人員調節高爐生產提供強有力的決策依據。
在高爐煤氣量相關的研究中,科研工作者開展了多種方法和多方位的分析預測。劉穎[1]提出改進的高斯過程回聲網絡對高爐煤氣發生量進行預測,李志剛[2]結合自回歸和LSTM對高爐煤氣產生量建模,結果表明建立的模型貼近實際生產。隨著神經網絡技術的發展,孫雪瑩等[3-6]提出神經網絡以及其變形模型結合啟發式優化算法對高爐煤氣的消耗量、受入量、利用率進行預測,取得一定精度的預測結果。張琦等[7-9]用改進的支持向量機對煤氣消耗量進行預測取得一定的準確率。徐化巖[10-11]等將信號分解技術結合SVM和BP技術引入高爐煤氣的預測,提高了預測精度。
前述的高爐煤氣建模主要從兩個層面出發:第一將高爐煤氣短期數據當作時間序列,利用自回歸模型等統計學知識建模;第二利用神經網絡和支持向量機結合尋優算法對高爐煤氣數據預測。但是高爐冶煉過程是一個非線性、大滯后、強耦合的黑箱反應,先前的方法不能兼顧煤氣流利用率數據的時序性和非線性建模能力。本文在現有研究的基礎上,提出基于CEEMDAN-SVM-LSTM的組合模型對煤氣利用率時間序列建模。首先,CEEMDAN技術可以把一個復雜的信號分解為若干模態分量,本文采用此技術對高爐煤氣利用率時間序列進行多尺度分解,達到解耦的作用。其次,LSTM具有從時間序列學習到歷史信息的能力以及非線性建模能力,本文利用LSTM模型對分解的高頻模態進行建模,進而學習煤氣利用率滯后的信息,然后用高斯核函數的支持向量機學習分解的低頻信息。最后將建立的低頻模態和高頻模態模型進行組合,得到煤氣利用率預測模型。
經驗模態分解(EMD)是美國航天局黃鄂等人針對信號的非線性和非平穩性提出的一種新的信號分解技術,是一種自適應的時空分析方法,最后實現信號的平穩化處理。EMD將信號分解成若干個本征模態函數(IMF)與一個趨勢項(Res)之和,如公式(1)。本征模態函數代表信號的不同時間尺度特征信息,趨勢項代表信號的發展趨勢。
式中:x(t)——原始信號;
cj——第j個IMF分量;
Res(t)——信號的殘差量。
EMD將信號分解的主要步驟有:
1)找到原始信號數據x(t)的極大值點,然后把極大值點用三次樣條插值法進行擬合,求出原始數據上包絡線e+(t)。再將原始信號時間序列x(t)的極小值點,同樣用三次樣條插值法求出下包絡線e-(t)。最后計算上包絡線和下包絡線的平均包絡線m1(t),如下式所示:
2)將x(t)減去m1(t)得到一個移除高頻信號的信號數據,如下式所示:
IMF要滿足以下條件,即:
其中 ε的一般取值為[0.2 0.3]。
EMD可以將非平穩信號平穩化處理,分解出多時間尺度的平穩信號。但是在實際應用中,信號分解時會出現不同時間尺度的分量混疊問題。針對EMD分解過程存在的問題,CEEMDAN在EMD分解基礎上加入均值為0方差為1的高斯白噪聲。最后有效解決了分解過程的模態混疊問題。
長短時間記憶人工神經網絡(LSTM)是在循環神經網絡基礎改進,具有長短時間序列建模能力的人工神經網絡[12-15]。不同于其他神經網絡結構,如圖1所示,LSTM利用輸入門、遺忘門和輸出門這三個結構門起到對記憶單元的狀態控制,優化RNN的梯度消失和梯度爆炸,可以解決長時間依賴的時序問題。遺忘門決定對上一隱藏狀態選擇遺忘信息的多少,保留關鍵信息。由于具有選擇性遺忘特點,LSTM在一定程度克服梯度消失。遺忘的程度由當前輸入和先前的隱藏信息決定。輸入門由歷史單元狀態和當前時刻輸入組合,控制歷史信息保留當前狀態的程度。輸出門控制細胞哪些信息輸出。
圖1 LSTM結構圖
支持向量機最早由Vapnik等人在統計學發展過程提出,支持向量機最初是用來解決線性不可分的問題,用在分類和回歸問題。在核心算法核函數的提出后,將非線性問題創造性轉化為線性問題。因此改進的SVM具有強大的非線性模型逼近能力,由于將非線性問題轉化到線性問題的求解,廣泛用在科學技術領域。
輸入樣本為{(xi,yi),i=1,2···n},其中n代表樣本數量,xi∈Rd是第i個樣本,d指樣本的特征維度,yi代表第i個樣本的輸出。SVM采用的回歸線性函數,盡可能逼近目標輸出。
以 Φ(x)表示將輸入空間映射到高維特征空間的非線性函數。w為權重向量,b為閾值,w和b決定不同的模型。SVM模型建立之后,用極小化算法求解最優模型,確定回歸函數:
其中c是懲罰因子對樣本的懲罰程度,影響模型的過擬合和擬合問題;ε是對回歸函數擬合樣本的誤差范圍限制,ζ和 ζ*為松弛變量。
求解回歸模型的最優參數,根據公式(11)-(14)引入拉格朗日因子 αi和,利用對偶理論轉化為對偶優化問題,最后得回歸函數,如公式(15)所示。其中K(x,x)為核函數。
離散傅里葉變換是經典的信號分析技術,廣泛用在信號處理、數據濾波和計算機視覺等領域。采集的煤氣利用率時間序列存在周期性噪聲,本文采取快速傅里葉變換去除明顯的周期信號的干擾。快速傅里葉變換是在離散傅里葉(DFT)變換的基礎上進行改進的算法。FFT可以對原始時域信號做頻譜分析,從頻域的視角對信息展開分析。FFT簡化了DFT的分解,提高信息處理的快速性,被廣泛應用在各個領域。設采集的有限信號序列為x(n),其第N點DFT變換為:
DFT變換的頻域信息可以通過逆變換還原時域信號,對應的逆變換為:
FFT算法是在DFT的基礎上進行改進的,通過將DFT矩陣分解稀疏因子的乘積快速時域和頻域之間轉換。最后將計算復雜度降到O(NlgN)。對于長度為N的序列x(n),令N=2M:
根據DFT變換公式,得出:
其中k=0 ,···,N-1。一個長度為N的信號序列,經過FFT時域處理減少了經典傅里葉變換運算次數,極大提高傅里變換的運算速度。
為了更準確預測煤氣利用率,本文建立了CEEMDAN-SVM-LSTM模型對煤氣流進行組合預測,流程圖如圖2所示。
本文選取某高爐煤氣利用率數據為樣本,用70%數據集作為訓練模型,30%數據集合為測試模型。高爐煉鐵是在高溫高壓的密閉環境下運行,因此采集的數據不可避免有一定的離群點,首先利用箱形圖對數據進行離群點替換,替換后的值為離群點前后5個數據的平均值。圖3為煤氣流利用率時間序列的箱形圖。
圖3 煤氣利用率箱形圖
除了離群點的干擾,傳感器在高溫高壓環境下測量的相關數據隨機噪聲不可避免,通過分析原始煤氣利用率規律可知,數據存在一定周期的噪聲。因此本文先用均值濾波對數據濾除隨機噪聲,再采用快速傅里葉變換(FFT)將時域煤氣流數據信息轉換到頻域信息,去除了一定頻率的周期噪聲,FFT濾除周期噪聲后的結果如圖4所示。
圖4 FFT濾波后的煤氣利用率
針對高爐生產布料過程中控制變量間的相互影響,以及當前布料周期對后續周期的作用,先利用CEEMDAN方法對煤氣利用率進行分解,實現信號解耦的目的。從圖5可以看出,煤氣流利用率被分解出6個基本模態和1個趨勢項的不同尺度信號。從圖5趨勢項信號(Res)可以看出煤氣利用率短期呈現下降趨勢,與原始信號的發展趨勢保持一致性。
圖5 煤氣利用率CEEMDAN分解圖
針對高爐運行受到歷史爐況影響,布料操作變量和爐況運行之間復雜的非線性關系,本文選取具有時間記憶的LSTM網絡和SVM對分解信號建立模型。LSTM選取4層隱藏層,每層設置128神經元,選取當前時刻的前8個煤氣利用率數據作為輸入,預測下一時刻數據。將各個分量預測模型相加,得到了基于CEEMDAN-SVM-LSTM組合預測模型,并與單一的SVM預測模型、LSTM預測模型進行了比較,如圖6所示。顯然組合模型更加貼近實際的生產數據。
為了定量分析各個模型預測結果,本文用平均絕對百分比誤差(mean absolute percentage error,MAPE),平均絕對誤差(mean absolute error,MAE),均方根誤差(root mean square error,RMSE),均方誤差(mean square error,MSE)對模型進行評價,如公式(21)-(24)所示,模型評價指標見表1,組合模型各項指標誤差最小,說明預測效果最好。
表1 各個模型評價指標
針對高爐煉鐵的復雜過程和采集煤氣利用率時間序列帶有周期噪聲的特點,傳統模型對煤氣利用率預測較難。本文采取去噪-解耦-組合的模式建立煤氣利用率預測模型。主要包括:1)利用FFT去除周期噪聲,去噪后的數據更真實反映煤氣利用率的發展過程。2)利用CEEMDAN對煤氣利用率進行解耦,分解不同頻率IMF分量和一個趨勢項。其中分量代表煤氣利用率不同周期的發展過程,趨勢項代表短期煤氣利用率的大小。3)利用SVM對趨勢項Res建模和具有長短時間記憶的LSTM對本征模態IMF建模,最后實現煤氣利用率的組合預測。從 MAE、MAPE、RMSE和 MSE模型指標表明CEEMDAN-SVM-LSTM組合模型預測比單一的SVM和LSTM建立的煤氣利用率模型更加準確,為高爐煉鐵合理布料和優化運行提供理論支持。