金秀章, 劉 岳, 趙文杰, 于 靜
(華北電力大學 控制與計算機工程學院,河北保定 071003)
隨著我國對環境保護問題的日益重視,降低燃煤電廠出口SO2排放量是當前所有電力企業面臨的重要問題[1]。目前,火電廠主要采用的煙氣脫硫方式為石灰石-石膏濕法脫硫,該方法具有成本低、脫硫效率高等優點,但存在系統慣性遲延大、實時性較差和難以控制等缺點。建立準確的出口SO2質量濃度預測模型可以提前預測出口SO2質量濃度的變化,便于運行人員及時調整供漿量,從而實現SO2的超低排放[2]。
基于數據驅動的建模被廣泛應用于SO2質量濃度預測。蘇翔鵬等[3]通過徑向基函數(RBF)神經網絡建立了脫硫系統出口SO2質量濃度預測模型。王琦等[4]利用支持向量機(SVM)建立了出口SO2排放預測模型。由于淺層神經網絡無法深入挖掘數據中的特征信息,而深度神經網絡(DNN)具有強大的非線性映射能力和特征提取能力,近年來被廣泛應用于數據驅動建模預測中。唐振浩等[5]利用DNN建立了NOx排放量預測模型。劉亞琿等[6]利用卷積神經網絡(CNN)進行特征提取,通過長短期記憶網絡(LSTM)對電力負荷進行預測,預測效果較好。雖然采用DNN可以提高模型的預測精度,但存在使用成本高、訓練時間長和調參困難等缺點。極限學習機(ELM)是一種新型神經網絡,具有訓練參數少、學習速度快和泛化能力強等優點。張淑清等[7]利用ELM建立了電網負荷的預測模型,并通過飛蛾火焰優化算法對模型參數進行優化。He等[8]利用核極限學習機(KELM)對煤質含量進行預測分析,并將其與其他模型進行對比,驗證了KELM的有效性。
模型的特征選擇也是影響其預測精度的重要因素。特征選擇方法主要分為過濾法、包裝法和嵌入法3種。過濾法是利用輸入變量與輸出變量之間的相關性來篩選特征變量,包括互信息(MI)算法[9]、最大相關最小冗余(mRMR)算法[10]和相關特征選擇(CFS)[11]等。包裝法是通過將各特征子集輸入到預測模型中進行預測,并將預測誤差作為評價指標。嵌入法是將特征變量輸入到某機器學習模型中,通過訓練得到各特征的權值系數,其通過權值系數來篩選特征變量。常用的嵌入法包括套索算法(LASSO)[12]和基于隨機森林[13]的特征選擇算法等。
筆者提出了一種基于mRMR特征選擇和蜉蝣算法優化正則化極限學習機(MA-RELM)的出口SO2質量濃度預測方法,將其與經典優化算法粒子群算法(PSO)[14]、灰狼優化算法(GWO)[15]的尋優結果進行比較,并分別利用正則化極限學習機(RELM)、ELM、最小二乘支持向量機(LSSVM)和LSTM對最優特征子集進行訓練和測試,以證明RELM在預測精度和訓練時間上的優越性。
互信息是信息論中用于評價變量之間相互依賴程度的度量,既能反映兩組變量間的線性相關性,又能反映非線性相關性。對于2組離散型隨機變量X和Y,兩者之間的互信息I(X;Y)為:
(1)
式中:p(x)和p(y)分別為X和Y的邊緣概率分布函數;p(x,y)為X和Y的聯合概率分布函數。
如果隨機變量X中共包含n個數據,分別為(x1,x2,…,xn),將數據平均劃分為n段,統計各個數據在不同范圍的數據段里出現的個數,將統計好的個數除以n作為不同數據段的概率分布,即為X的邊緣概率分布函數。
(2)
Xmax=Xmin+(n-1)×Δ
(3)
式中:Xmax為最大值;Xmin為最小值;Δ為平均值。
聯合概率分布函數的計算方法與邊緣概率分布函數類似,但由于涉及到2組隨機變量,因此組成的是有限大小的二維平面。將該平面劃分為n×n個小正方形模塊,通過計算X和Y中各坐標點落入不同模塊的數量,從而得到關于X與Y的聯合概率分布函數。
mRMR算法不僅考慮了輸入變量與輸出變量之間的相關性,還考慮了各輸入變量間的相關性,通過mRMR算法可以從初始輸入變量中找到與輸出變量相關性最大、與輸入變量間相關性最小的特征子集。
(4)
式中:Sn為輸入變量特征集合;Z為輸出變量;Xi為待選輸入變量;Xj為已選輸入變量。
由于特征子集的組合方式過多,因此采用增量搜索的方式[16]來依次挑選最優特征子集,最優特征子集滿足如下公式:
(5)
式中:m為特征子集中的已選變量個數。
ELM是一種改進的單層前饋神經網絡(SLFN),由輸入層、隱藏層和輸出層組成。其中,輸入層與隱藏層之間是全連接,隱藏層輸出H(s)為:
H(s)=[h1(s)h2(s) …hL(s)]
(6)
hi(s)=g(wis+bi)
(7)
式中:hi(s)為第i個隱藏層節點的輸出,i=1,2,…,L,其中L為隱藏層神經元個數;s為輸入變量;g()為激活函數,常見的激活函數有Sigmoid函數、Gaussian函數等;wi和bi分別為隱藏層節點上的權值和偏差。
ELM輸出層的公式為:
(8)
式中:β為隱藏層節點與輸出層節點之間的輸出權重,β=[β1β2…βN];βj為第j個輸出層節點上的輸出權重;N為輸出層神經元個數;fL(s)為輸入變量為s時對應的ELM輸出值。
ELM的訓練過程實際上就是對wi、bi和β這3個未知量的求解過程。在ELM中,隱藏層節點參數wi和bi根據任意連續的概率分布隨機生成,由于兩者并不是經過訓練確定的,因此ELM較傳統神經網絡具有更高的效率。
輸出權重β主要通過最小化訓練誤差的方法進行求解,其目標函數為:
(9)
式中:H為隱藏層的輸出矩陣;T為訓練數據的目標矩陣。
RELM是在原目標函數的基礎上引入了L2正則化項[17],通過正則化以防止模型過擬合,提高了ELM的泛化能力,改進后的目標函數為:
(10)
式中:C為正則化因子。
MA[18]是一種新的群智能優化算法,其靈感主要來自于自然界蜉蝣的飛行行為和交配行為。由于該算法獨特的求偶行為和交配機制,相比于其他群體智能算法,該算法在收斂精度和收斂速度方面都具有一定的優勢。
首先,隨機產生2組蜉蝣,分別代表雄性和雌性種群,根據適應度函數f(x)對每個蜉蝣個體進行評價。其中,雄性蜉蝣成群聚集,每只雄性蜉蝣的位置更新與相鄰蜉蝣有關。設xi,t為t時刻時雄性蜉蝣i的位置,則其位置更新公式如下:
xi,t+1=xi,t+vi,t+1
(11)
式中:vi,t+1為t+1時刻蜉蝣i的速度。
(12)
式中:vi,j,t+1為蜉蝣個體i在j維度時t+1時刻的速度;xi,j,t為雄性蜉蝣個體i在j維度時t時刻的位置;a1和a2為社會作用正吸引系數;pbest,i,j為當前蜉蝣個體i在j維度歷次迭代中的歷史最佳位置;gbest,j為種群中所有蜉蝣在j維度的最佳位置;δ為能見度系數;rp為雄性蜉蝣當前位置與歷史最佳位置的距離;rg為雄性蜉蝣當前位置與種群最佳位置的距離。
通過聚集行為,雄性蜉蝣種群之間加強了不同個體間的信息共享與合作,從而提高了搜索空間的效率,加快了收斂速度。
由于群內最好的雄性蜉蝣還會上下舞蹈,因此其速度不斷改變。這種獨有的舞蹈行為為算法引入了隨機元素,可以有效防止算法陷入局部最優。
vi,j,t+1=vi,j,t+d×r
(13)
式中:d為舞蹈系數;r為[-1,1]之間的隨機數。
與雄性蜉蝣不同,雌性蜉蝣不會成群聚集,而是會飛向雄性蜉蝣。假設yi,t為t時刻雌性蜉蝣i的位置,則其位置更新公式如下:
yi,t+1=yi,t+vi,t+1
(14)
蜉蝣的速度更新公式如下:
vi,j,t+1=

(15)
式中:rm,f為雌性蜉蝣與雄性蜉蝣的距離;fl為隨機游走系數;a3為社會作用正吸引系數;yi,j,t為雌性蜉蝣個體i在j維度時t時刻的位置。
蜉蝣的交配過程是從2個種群中各選擇1個親本,選擇可以隨機,也可以基于其適應度函數,即最好的雌性與最好的雄性繁殖,次好的雌性與次好的雄性繁殖。通過交配產生2個新的個體可行解j1和j2,其更新公式如下:
(16)
式中:ω1為蜉蝣父本可行解;ω2為蜉蝣母本可行解;k為特定范圍的隨機數。
這種交叉進化的方式在逐步淘汰適應度較差個體的同時還可以防止算法陷入局部最優,提高了MA的收斂精度。蜉蝣算法的流程如圖1所示。

圖1 蜉蝣算法流程圖Fig.1 Mayfly algorithm flow chart
在建立出口SO2質量濃度預測模型時首先確定模型的輸入變量,通過機理分析法,從采集的輸入變量中篩選出與出口SO2質量濃度相關的8個輸入變量,見表1。

表1 輸入變量的范圍Tab.1 Range of input variables
由于燃煤機組和脫硫系統都是具有大遲延、大慣性的系統,因此選取的相關變量與出口SO2質量濃度之間存在一定的時延。為保證輸入變量與輸出變量在時序上保持一致,對輸入變量進行特征選擇前先對其進行時延分析。常用的時延分析方法為滑動窗口法,即保持輸出變量不變,計算輸入變量前ns內各個時刻與輸出變量的相關性,取相關性最大時對應的時間作為該輸入變量與輸出變量之間的時延[5]。由于鍋爐燃燒和煙氣脫硫過程最大不超過600 s,故n取值為600。
筆者在傳統時延計算方法的基礎上進行了改進,首先利用互信息代替person相關系數來計算輸入變量與輸出變量間的相關性,再利用電廠不同工況下的數據對同一變量進行時延分析,通過綜合不同工況下的結果來確定最終的時延。雖然工況發生變化時輸入變量與輸出變量間的時延可能會小幅變化,但也從側面驗證了分析結果的準確性。通過改進的時延分析方法確定的各輸入變量的時延和最大互信息見表2。

表2 輸入變量與輸出變量間的時延及最大互信息 Tab.2 Time delay and maximum mutual information between input variables and output variables
筆者在所選輸入變量的基礎上加入了2個新的輸入變量,即脫硫塔液氣比和鈣硫比。其中,液氣比是指吸收1 L煙氣所需的漿液量,鈣硫比是指脫硫消耗的吸收劑CaCO3與脫除的SO2之間的物質的量比。由于液氣比和鈣硫比能夠具體反映脫硫塔內部脫硫反應的變化情況,因此在已選輸入變量的基礎上,通過近似計算得到液氣比和鈣硫比。將這2個新增輸入變量與上述8個輸入變量共同組成初始輸入變量,并通過特征選擇來去除冗余變量,從而簡化模型結構,提高模型的訓練速度和泛化能力。
利用mRMR算法對初始輸入變量進行特征選擇,首先通過增量式搜索確定各初始輸入變量依次加入到特征子集的順序為入口煙氣體積流量、石灰石漿液供漿體積流量、鈣硫比、入口SO2質量濃度、液氣比、機組負荷、鍋爐總風量、石灰石漿液密度、脫硫塔pH值和脫硫塔液位。傳統mRMR算法是根據特征子集相關性之和來確定最優特征集,并沒有考慮到特征子集與預測模型之間的相互作用。筆者設計了一種將mRMR算法與MA-RELM預測模型相結合的特征選擇算法,即將mRMR算法排序后的特征子集分別輸入到RELM預測模型中,利用MA對RELM預測模型參數進行優化,并將最后的尋優結果作為該特征子集的評價函數。利用改進mRMR算法得到各個特征子集,從而建立不同的RELM預測模型,其預測結果見表3。從表3可以看出,當特征子集取特征數為9時,RELM預測模型的預測誤差最低,此時隱藏層神經元個數為16,正則化因子為20.700 4。

表3 不同特征子集下RELM預測模型的預測結果和模型參數Tab.3 Prediction results and model parameters of the RELM prediction model under different feature subsets
利用MA對RELM預測模型參數進行優化,即為MA-RELM預測模型。由于MA的參數較多,因此通過多次實驗確定相關參數如下:社會作用正吸引系數a1和a2均為1.5,能見度系數δ為2,舞蹈系數d為0.8,隨機游走系數fl為1,L和r均為[-1,1]范圍內的隨機數,種群數量設置為30,迭代次數設為3 000。通過多次迭代確定模型的最優隱藏層神經元個數和正則化因子。由文獻[19]可知,在隱藏層神經元個數和正則化因子確定的情況下對ELM的隱藏層節點參數進行優化可以進一步提高模型的預測精度。表4為不同隱藏層神經元個數和正則化因子下隱藏層節點參數尋優前、后的模型預測結果,其中λRMSE為均方根誤差。從表4可以看出,在確定隱藏層神經元個數和正則化因子后,通過對隱藏層節點參數進行優化可以進一步提高模型的預測精度。

表4 隱藏層節點參數尋優前、后的預測結果Tab.4 Prediction results before and after optimization of hidden layer node parameters
為驗證MA-RELM預測模型的有效性,利用山西某600 MW燃煤電廠提供的數據進行預測實驗。該電廠采用石灰石-石膏濕法進行脫硫。通過對數據進行篩選,最終選出2 500組代表性數據,其中2 000組作為訓練集,500組作為測試集,采樣周期為10 s。此外,將數據輸入到RELM預測模型時需進行歸一化處理,避免各個輸入變量因量級不同而對預測結果產生影響,同時可縮短模型的訓練時間。
采用的模型評價指標為λRMSE、平均相對誤差λMAPE和皮爾遜相關系數R。
(17)
(18)
(19)

3.2.1 不同預測模型對實驗結果的影響
為體現RELM預測模型的優勢,分別利用ELM、LSTM和LSSVM搭建了預測模型,并利用MA確定了ELM和LSSVM的模型參數,由于LSTM單次訓練時間較長,難以通過MA確定模型參數,因此采用網格搜索算法確定參數。4種預測模型的出口SO2質量濃度預測結果以及評價指標分別見圖2和表5。從圖2和表5可以看出,4種預測模型的出口SO2質量濃度變化趨勢均接近于真實值,但與LSTM、LSSVM和ELM相比,RELM的λRMSE分別降低了38%、36%和26%,λMAPE分別降低了35%、38%和28%。結果表明,與LSSVM和LSTM相比,RELM具有更強的預測擬合能力;與ELM相比,RELM由于加入了正則化項,其泛化能力提高,因此預測誤差進一步降低。

圖2 不同預測模型下的出口SO2質量濃度預測結果Fig.2 Prediction results of outlet SO2 mass concentration under different prediction models

表5 不同預測模型的評價指標Tab.5 Evaluation indexes of different prediction models
3.2.2 不同優化算法對實驗結果的影響
筆者采用了MA對RELM預測模型參數進行優化。為體現其優點,選取PSO和GWO作為對比尋優算法,在采用相同特征子集、種群個數和迭代次數的前提下,分別對RELM預測模型的隱藏層神經元個數、正則化因子和隱藏層節點參數進行多次尋優。不同優化算法的評價指標見表6。

表6 不同優化算法的預測結果Tab.6 Prediction results under different optimization algorithms
不同優化算法下出口SO2質量濃度預測結果見圖3。由圖3可知,相比于PSO和GWO,MA具有更高的收斂精度,由于其特有的隨機舞蹈和雌雄種群交配機制,既避免了算法陷入局部最優,又能夠在群體內交換經驗,使算法快速收斂。采用MA對模型參數進行優化可以進一步降低模型的預測誤差。

圖3 不同優化算法下出口SO2質量濃度預測結果Fig.3 Prediction results of outlet SO2 mass concentration under different optimization algorithms
3.2.3 時延分析對實驗結果的影響
時延分析前、后MA-RELM預測模型得到的出口SO2質量濃度預測結果以及評價指標分別見圖4和表7。與時延分析前相比,時延分析后MA-RELM預測模型的λRMSE降低了11%,λMAPE降低了12%。由此可見,對輸入變量的數據進行時延補償可以提高預測模型的精度。

圖4 時延分析前、后出口SO2質量濃度預測結果Fig.4 Prediction results of outlet SO2 mass concentration before and after time delay analysis

表7 時延分析前、后MA-RELM預測模型的評價指標Tab.7 Evaluation index of MA-RELM prediction model before and after time delay analysis
(1) 與LSSVM和LSTM相比,RELM具有更高的預測精度和更快的訓練深度;與ELM相比,RELM通過加入正則化項可防止預測模型過擬合,泛化能力得到提高。
(2) 相比于PSO和GWO,MA具有更高的收斂精度,經MA優化后RELM預測模型的誤差降低。
(3) 將mRMR算法與MA-RELM預測模型相結合實現了理論上最優特征子集的篩選。通過對輸入變量進行時延分析可以提高輸入變量與輸出變量間的相關性,從而提高預測模型的預測精度。