Application of BP Neural Network Based on Preferred Training Samples
in Prediction of Desulfurization Efficiency
孫栓柱1 李益國2 周春蕾 代家元1 王 明1
(江蘇方天電力技術有限公司1,江蘇 南京 211102;東南大學能源與環境學院2,江蘇 南京 210096)
樣本優選BP神經網絡在脫硫效率預測中的應用
Application of BP Neural Network Based on Preferred Training Samples
in Prediction of Desulfurization Efficiency
孫栓柱1李益國2周春蕾代家元1王明1
(江蘇方天電力技術有限公司1,江蘇 南京211102;東南大學能源與環境學院2,江蘇 南京210096)
摘要:樣本質量對神經網絡的性能有重要影響,如何從高速增長的海量數據中選擇訓練樣本是一個難點。針對這一問題,運用一種基于數據分布和聚類分析的樣本優選方法對海量數據進行預處理,快速剔除數據集中的噪聲信號,選擇具有代表性的樣本,從而有效縮小樣本空間、改善樣本質量。最后,以燃煤機組石灰石-石膏濕法脫硫系統脫硫效率為輸出參數,選取影響脫硫效率的7個主要測點為輸入參數,建立BP神經網絡預測模型,并應用提出的樣本優選方法從海量歷史數據中選取樣本數據對模型進行訓練和測試。訓練后的模型平均預測絕對誤差達到0.75%,而且對不同工況的預測精度均較為平均。
關鍵詞:濕法脫硫脫硫效率BP神經網絡樣本優選預測
Abstract:The quality of samples may greatly affect the performance of neural network, so how to select training samples from massive rapidly growth data is difficult. Aiming at this problem, by using the preferred sample selection method based on data distribution and clustering analysis,themassivedataarepre-processed, the noise signals in data set are excluded rapidly, so the representative samples are selected, thus the sample space is effectively shrunk, the quality of samples is improved. Finally, with the efficiency of limestone - gypsum wet flue gas desulfurization system of coal-fired units as the output parameter, and 7 of the major measurement points that affecting desulfurization efficiency are selected as the input parameters to establish BP neural network prediction model; and the proposed preferred sample selection method is applied to select sample data from massive historical data for training and testing the model. The average prediction absolute error is 0.75% with the model after training, and the prediction accuracies under different operating conditions are more or less evenly.
Keywords:Wet desulfurizationDesulfurization efficiencyBP neural networkPreferred sample selectionPrediction
0引言
江蘇是全國率先利用實時監控系統對脫硫電價進行考核的省份,江蘇省環保廳于2010年頒布規定[1]明確將脫硫效率與脫硫電價掛鉤。江蘇的脫硫工藝以石灰石-石膏濕法脫硫為主,通過對該工藝脫硫效率的精確預測,可以判別現場采集數據是否真實準確,為相關政府部門的監管執法提供依據。
脫硫設施是一個動態非線性系統,利用神經網絡的自適應學習能力,能夠自動發現數據中存在的模式,從而進行可靠的預測。樣本在神經網絡學習中占有非常重要的地位,樣本集是否具有代表性對神經網絡的性能起著至關重要的作用[2]。利用全部歷史數據進行訓練顯然不現實,從海量數據中合理選擇樣本而不降低網絡性能,就成為網絡建模面臨的一個難題。本文采用一種基于數據分布和聚類分析的樣本優選方法,對海量數據進行降噪處理和樣本選擇,從而解決上述問題。
1BP神經網絡
人工神經網絡是近年來迅速發展起來的一種信息處理系統,其中應用較為廣泛的是反向傳播(back progagation,BP)神經網絡。BP神經網絡是采用反向傳播算法進行學習直至產生特定非線性映射的多級前饋非循環網絡。有研究證明,具有一個線性激活函數的輸出層和一個s型激活函數的隱藏層的兩層BP神經網絡,只要隱藏層有足夠多的神經元,幾乎可以實現任意復雜的非線性映射[3]。
標準BP算法建立在最速下降梯度法基礎上,最小化網絡實際輸出與期望輸出之間的均值平方誤差(mean square error,MSE)[4]。MSE定義如下:

(1)
式中:Q為訓練樣本個數;n為輸出參數個數;dq,h、yq,h分別為第q個輸入向量的期望輸出、實際輸出的第h個分量。
標準BP算法雖然算法簡單,但是收斂速度較慢,容易陷入局部極小。Levenberg-Marquardt算法是一種更為有效的數值最優化技術,可以加快網絡收斂速度,非常適合于以均值平方誤差為性能指標的神經網絡訓練[5]。對于中等規模的神經網絡,即使需要進行大量計算,LM算法仍然是收斂速度最快的神經網絡訓練算法。
在網絡結構和算法確定后,網絡性能是否優良很大程度上取決于訓練樣本的質量。來自過程數據庫的原始樣本集,不僅因其巨大的數據量而無法被直接用來對網絡進行訓練,而且因其中可能包含的異常值、孤立點等噪聲數據和在空間分布的不均勻性等因素,極大地提高了網絡結構的復雜性,降低了網絡的精確度。因此,在為海量數據建立網絡模型時,如何通過對樣本集的優化和選擇達到改善網絡性能的目的,就成為需要解決的關鍵問題。
2樣本優選方法
許多建模技術,包括神經網絡,在正態分布的樣本數據會獲得最好的性能[6];而涵蓋整個數據范圍、具有代表性的高質量樣本集則可以顯著降低模型的復雜性,提高網絡泛化能力。
異常值、孤立點等噪聲數據會對模型產生極端影響,破壞數據的正態分布[7]。合理設定參數的取值范圍可以對異常數據進行識別;分析數據分布特征,繪制頻率直方圖和正態分布密度曲線,可以觀察數據分布是否均勻,在海量數據中快速查找有無出現頻率過低的孤立點,結合數據變化趨勢對孤立點進行評估和剔除,可以有效改善數據分布。
① 偏度。偏度是數據分布偏斜方向和程度的統計量,反映了數據分布非對稱程度,直觀看來就是密度曲線相對于平均值的不對稱程度。一般來說,偏度在-0.5~0.5之間說明數據具有正態分布的特征;偏度的絕對值>0.5,說明數據分布是不平衡的,向一側傾斜。
② 峰度。峰度是反映分布曲線頂端尖銳或扁平程度的統計量。正態分布數據的峰度為3。峰度在2~4之間,說明數據接近正態分布。如果峰度>3,說明分布曲線中出現異常值的可能性比正態分布曲線大,分布曲線在其峰值附近比正態分布陡。
在許多領域,例如:航空航天、圖像處理、金融分析等,數據容量以及數據增長的速度都會阻礙在線數據分析技術的應用,也超出了軟硬件的負載能力。對樣本數據進行聚類分析,從每個數據子集中選擇代表性的樣本,是一種從海量數據中快速選擇樣本、縮小樣本空間的有效方法[8]。
(1) 標準化變換
一般來說,在實際應用中,各參數之間存在著量綱、數量級不同等方面的問題。因此,在進行聚類分析之前,要對數據進行標準化處理,使得各參數取值與單位無關,且呈現相同的數量級。
(2) 聚類分析
K均值聚類法又稱為快速聚類法,對于大容量數據集具有較高的處理效率。但是,聚類個數的選擇直接影響聚類質量,最佳聚類個數的確定通常比較困難,目前尚無成熟的理論指導。
理想的聚類效果應該是類內相似性最大、類間相異度最大[9]。樣本輪廓值綜合反映了這兩個特征,聚類輪廓值是樣本集上所有樣本輪廓值的平均值,可以用來對聚類有效性進行分析。聚類輪廓值越大,說明聚類質量越好,其最大值對應的聚類數可以被認為是最優的聚類個數。
(3) 樣本選擇
對數據集進行聚類分析后形成了多個數據子集,在每個數據子集中根據數據分布的離散程度采取不同的樣本選擇方法選取典型樣本,以盡可能少的樣本反映全體樣本的特征。聚類內樣本選擇的具體步驟如下。

② 從數據分散的聚類中選擇樣本。對于離散度超過門限T的聚類,選擇到聚類中心距離最近的樣本作為聚類中心附近樣本的典型樣本,同時保留邊界樣本。邊界樣本滿足下述條件:到聚類中心的距離大于α×聚類半徑,其中,聚類半徑是聚類自子集中樣本到聚類中心的最大距離。
③ 從數據密集的聚類中選擇樣本。離散度小于門限T的聚類,首先計算每個樣本的最近鄰樣本;然后,統計每個樣本作為其他樣本最近鄰的次數;最后,根據作為最近鄰樣本的次數從大到小依次選擇典型樣本,同時舍棄以其為最近鄰的樣本,直至選出的典型樣本覆蓋整個聚類子集。最近鄰樣本滿足下述條件。
設n為聚類子集樣本數,樣本xk的輸入向量為pk、輸出向量為ok,其最近鄰樣本xnn的輸入向量為pnn、輸出向量為onn,則:


(2)
3影響脫硫效率的因素
對于石灰石-石膏濕法脫硫工藝,影響脫硫效率的運行參數主要有漿液pH值、鈣硫摩爾比Ca/S、液氣比L/G、吸收劑利用率和固體物停留時間,其中前三個參數是相互獨立的運行參數,后兩個參數均能由這三個參數表示[10]。上述影響因素與脫硫效率之間的關系可表達如下:
(3)
漿液pH值表示吸收塔石灰石漿體中氫離子的濃度,它不僅直接反映了吸收塔漿液的酸堿程度,而且直接影響SO2的吸收、漿液中石灰石的溶解過程和系統運行的安全可靠性。漿液pH值升高,傳質系數增高,SO2的吸收速度加快;反之,SO2的吸收速度下降, 且CaSO3的溶解度隨之顯著增大,導致石灰石利用率下降。
鈣硫摩爾比Ca/S是指單位時間內加入吸收塔中CaCO3的摩爾數與入口煙氣中SO2的摩爾數之比,反映了達到一定脫硫效率時鈣基吸收劑的過量程度,也說明了鈣的有效利用率。當鈣硫摩爾比較低時,由于吸收及投入量不足,導致脫硫效率明顯降低;當鈣硫摩爾比較高時,一方面會導致吸收劑的過剩,另一方面會使得漿液中石灰石過飽和凝聚,嚴重降低脫硫效率。
液氣比L/G是指單位時間內吸收劑混合物漿液噴淋量與標準狀態濕煙氣流量之比,其大小直接反映了對入口煙氣中SO2的吸收能力。提高液氣比,就增大了吸收塔內噴淋密度,使液氣間的接觸面積增大,脫硫效率也隨之增大。但是,提高液氣比會使漿液循環泵的流量增大,從而加大循環泵的能耗,使得脫硫系統經濟性能有所降低。
4脫硫效率預測模型
影響脫硫效率的運行參數中,漿液pH值在脫硫DCS系統中有測點,鈣硫摩爾比Ca/S和液氣比L/G沒有DCS測點。鈣硫摩爾比Ca/S與進入吸收塔石灰石漿液體積流量和密度、吸收塔入口煙氣SO2和O2濃度等DCS測點有關,液氣比L/G則與石漿液循環泵功率、石灰石循環漿液密度和吸收塔入口煙氣O2濃度等DCS測點相關。因此,選取漿液pH值、進入吸收塔石灰石漿液體積流量和密度、吸收塔入口煙氣SO2濃度、O2濃度、石灰石漿液循環泵功率和石灰石循環漿液密度這7個DCS測點為輸入參數,脫硫效率為輸出參數,建立BP神經網絡預測模型。網絡結構如圖1所示。

圖1 預測模型網絡結構
以某電廠330 MW、采用濕法脫硫工藝的燃煤機組2012年7月至12月的5 min脫硫系統運行數據為數據來源,從中選取50%負荷以上、投運2臺石灰石漿液循環泵的運行數據為原始樣本集,剔除超出取值范圍、測量有誤等壞點后形成優選前樣本集,數據容量為36 862。
根據頻率直方圖和正態分布密度曲線,對輸入參數分別進行孤立點剔除操作,形成初選樣本集,數據容量為35 431。剔除操作后樣本的數值特征統計量如表1所示,剔除操作前后樣本數據分布特征統計量如表2所示。

表1 剔除孤立點后樣本數值特征比較

表2 剔除異常值前后樣本分布特征比較
① 標準化處理
對初選樣本集進行零均值標準差標準化變換,形成標準化樣本集,變換后的參數數據均值為0,標準差為1。
② 數據聚類
以不同的聚類數目對標準化樣本集進行聚類分析,圖2顯示了聚類個數與輪廓值之間的變化關系。從圖2可以看出,最佳聚類數為8,聚類輪廓值達到最大。

圖2 聚類個數-聚類輪廓值之間的關系
③ 樣本選擇
根據聚類內樣本選擇算法,離散度門限T取所有聚類離散度的平均值,邊界樣本選擇參數α取0.2,從每個聚類中分別執行樣本選擇操作,形成優選樣本集,數據容量為14 285。聚類內樣本選擇結果如表3所示。

表3 聚類樣本選擇比例
考慮到優選樣本集的數據容量較大,包括了多種運行工況,因此模型采用LM算法為訓練算法,最大迭代次數為5 000,MSE為0.5,初始學習速率為0.02,將優選樣本集按2∶1∶1的比例劃分成訓練集、驗證集和測試集對網絡進行訓練,以避免出現過擬合現象。訓練結束時MSE降至0.608 3。
5預測結果分析
為了檢驗脫硫效率預測模型的有效性和精度,從同一臺機組2013年1月(冬季)和7月(夏季)50%負荷以上、投運2臺石灰石漿液循環泵的5 min歷史數據中隨機選取15組數據記錄作為預測樣本,進行網絡仿真。預測結果如表4所示。

表4 模型預測結果及誤差
從預測結果可以看出,模型的最大誤差為2%,平均誤差為0.26%,平均絕對誤差為0.75%,MSE為0.90%。模型預測值與實際值對比如圖3所示。

圖3 模型預測值與實際值比較曲線
由于15組預測樣本是從近1萬條待選數據中隨機選取的,數據分布較為分散,處于不同的運行工況。從圖3可以看出,預測值均勻地分布在實際值兩側,說明模型對不同工況的預測效果較為平均。
6結束語
本文基于脫硫數據海量存儲的實際情況,通過數據分布特征分析從大量原始數據中快速剔除孤立樣本,采用基于聚類分析的樣本選擇方法從大樣本集中選取訓練樣本。應用BP神經網絡技術,對濕法脫硫效率與其主要影響參數之間的非線性關系進行建模,用優選樣本集對模型進行訓練和測試,模型的均方誤差為0.90%,與實際值的平均絕對誤差為0.75%,表明該樣本優選方法是有效可行的。在下一步工作中,將進一步研究如何在模型運行過程中,根據實際數據找出新的典型樣本,提高樣本集的完備性,使得模型能不斷適應實際運行環境。
參考文獻
[1] 江蘇省環境保護廳.關于印發江蘇省135MW及以上燃煤機組脫硫電價考核管理規程(試行)的通知,蘇環辦〔2010〕416號[Z].2010.
[2] Philip N.What is there in a training sample?[C]//Nature & Biologically Inspired Computing,2009.NaBIC 2009.World Congress on Coimbatore:IEEE,2009:1507-1511.
[3] 張繼龍.基于BP神經網絡與遺傳算法的鍋爐排放特性研究[D].沈陽:東北大學,2008.
[4] Fredric M H,Ivica K.神經計算原理[M].葉世偉,王海娟,譯.北京:機械工業出版社,2007.
[5] Martin T H,Howard B D,Mark H B.神經網絡設計[M].戴葵,譯.北京:機械工業出版社,2002.
[6] Stein R.Selecting data for neural networks[J].AI Expert,1993(8):42.
[7] 賈晨科.基于K-距離的孤立點和聚類算法研究[D].鄭州:鄭州大學,2006.
[8] Yu L,Wang S,Lai K K.An integrated data preparation scheme for neural network data analysis[J].Knowledge and Data Engineering,IEEE Transactions on,2006,18(2):217-230.
[9] 王麗娜,王建東,李濤,等.集成粗糙集和陰影集的簇特征加權模糊聚類算法[J].系統工程與電子技術,2013,35(8):1769-1776.
[10]侯鵬飛.石灰石濕法脫硫性能指標在線監測與控制策略的優化設計[D].太原:山西大學,2011.
中圖分類號:TP399
文獻標志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201503018
國家自然科學基金資助項目(編號:51076027)。
修改稿收到日期:2014-08-12。
第一作者孫栓柱(1973-),男,1998年畢業于華北電力大學熱工自動控制專業,獲碩士學位,高級工程師;主要從事發電側節能減排信息化、自動控制等方面的研究。