李存文,王在華,陳濤,馮前偉,徐克濤,張楊
(1.華電電力科學研究院有限公司,浙江省 杭州市310030;2.國網浙江省電力有限公司電力科學研究院,浙江省 杭州市310014;3.華電新疆發電有限公司,新疆維吾爾自治區 烏魯木齊市830063)
為了進一步響應《煤電節能減排升級與改造行動計劃(2014—2020年)》[1]的號召,燃煤電站仍在尋求管理和技術手段,以實現排放達標的同時降低煙氣環保系統的運行維護成本,即環保系統的精細化運行控制顯得越發重要。而對煙氣環保系統性能的準確認識是其精細化控制的基礎。
獲取環保系統性能的途徑有性能試驗、在線監測等。性能試驗依據于標準規范,指標全面,但試驗條件嚴苛,化驗耗時長;在線監測主要由現場表計完成,指標的實時性、延續性好,但存在一些參數(如漿液品質等)無法監測的情況。如何準確、快速、高效地獲取環保系統實時性能,仍是科研技術人員需要研究的重要課題[2]。
數據挖掘技術融合人工智能、數據庫、高性能計算等多學科的成果,是將大量數據轉換為信息和知識的強大工具[3-5]。運用數據挖掘技術,研究獲取環保系統性能的新方法,為環保系統精細化控制作技術支撐,實現生態環境治理能力現代化[6]。
電站運行參數來自運行實際,其數據一致性和完整性往往無法達到數據挖掘的要求。因而,數據預處理必不可少,有必要進一步研究并實現運行數據預處理方法的標準化。此外,鑒于運行數據在采集時已完成數量化,即自帶數值屬性,因此,數據預處理包括數據集成、數據清理和變換、統計分析及可視化,具體步驟如圖1所示。
數據集成將分散數據集成為數據集。
運行數據不可避免地包含異常、缺省數據和噪聲,因而,為針對性地提高數據質量,需進行以下數據清理:一致性檢查并清理缺省值、空值和異常值;移動平均濾波法光滑去噪;剔除違背工藝邏輯的工況數據。
為規避量綱對數據認識的影響,同時為數據模型建模及迭代優化考量,數據變換的主要內容有:max-min 歸一化,穩定梯度下降算法的求優速度,以加快模型訓練速度;對有類似開或關2種狀態的參數進行二值化處理,壓縮模型變量數值域及量綱;引入新指標,如電耗量、還原劑耗量等,豐富對象性能指標。
統計分析及可視化包括兩部分:識別研究對象的物理邊界、數據特征及規模;將信息從數據中提煉為可解釋的知識,包括圖、表等。
按所采集的測點參數計,數據集的維度通常非常大,這無疑加大了數據建模的工作負擔。因此,須對數據集進行降維,同時提取環保系統性能指標的關鍵因素集,而主成分分析方法在這方面十分有效[7-11]。
算法步驟如下:
1)以采樣時刻劃分數據元組,構成數據集O;
2)元組集O的標準化成矩陣S;
3)求矩陣S的相關系數矩陣R;
4)求取矩陣R的特征根λi及其特征向量ηi;
5)將標準化后的指標變量轉換為主成分ξj;
6)分析各主成分權重系數,并締結結果集U;
7)設定遴選權重系數規則,將主成分劃入關鍵因素集。
煙氣凈化處理包含復雜的物理、化學反應,且傳熱與傳質耦合,參數間關系復雜,使得機理模型雖然能保證邏輯趨勢的正確性,但分析的精細度面臨瓶頸,而數據模型因強擬合而具備高精度[12-13]。另外,環保系統內部傳質存在磨損、漿液中有害物質聚集等因素,致使系統性能隨運行時間而衰減,因而,定期地對數據模型進行訓練更新,適應環保系統特性變化,既可保證模型的正確性,還可規避復雜的機理建模過程。
回歸分析是構建復雜對象特性模型的高效方法[14-18]。以關鍵因素集作為數據模型的輸入,融合多項式、Lasso、Ridge和神經網絡算法[19-21],構建環保系統數據模型,如圖2 所示。此外,為了均衡優化速度,模型迭代優化選用梯度下降算法進行。

圖2 煙氣環保系統數據模型搭建方法Fig.2 Method of building data model of flue gas environmental protection system
數據模型的評價指標較為豐富,結合實際并規避量綱及數值量級對模型精度的影響,綜合研究后選用均方根誤差γRMSE、決定系數γR2、平均絕對百分比誤差γMAPE這3 個指標來評價數據模型的準確性、有效性。
某燃煤電站660 MW機組煙氣脫硫系統采用石灰石-石膏濕法工藝,“1爐1塔”配置,噴淋空塔并設置5層噴淋層、1層托盤。借助于廠級實時監控信息系統(supervisory information system, SIS),采集到2018年4—6月為期50天、包括107個參數的運行數據。依托Matlab平臺,將數據塊集成為數據矩陣,以采樣時刻為元組劃分原則,并去除重復數據,得到共計13983條數據元組。根據運行參數在時域上連續的特點,采用前時刻值填充后時刻缺省值,并運用移動平均濾波的方法進行去噪。
數據平滑濾波后,機組功率的瞬時波動大大減弱、數據趨勢及均值不失真,也說明數據去噪的必要性,如圖3所示。

圖3 數據平滑濾波前后結果Fig.3 Results before and after data smoothing filtering
剔除與物質守恒及煙氣漏風等客觀規律相違背的工況數據,主要有:1)煙氣出口氧含量小于入口氧含量的數據;2)煙道兩側煙氣氧含量絕對偏差超過3.0%的數據;3)折算后出口污染物濃度大于入口的數據;4)機組有功功率小于等于零的數據。數據清理后,得到數據質量高的8616個元組數據,即8616×111數據矩陣,占原數據集約61.62%,表明所采集運行數據的有效性高。
數據變換主要在建模中完成,而電耗和物耗指標為數據模型提供先驗知識與信息。
最后,統計環保系統參數的最值和眾數,得到該環保系統的物理邊界,見表1。

表1 運行數據的統計分析Tab.1 Statistical analysis on operation data
脫硫效率是表征煙氣脫硫系統性能的關鍵指標。借助于阿里云平臺,分析各參數對脫硫效率的影響,構成關鍵因素集。結果表明,影響脫硫效率的關鍵影響因素有原煙氣SO2濃度、循環泵電流、漿液pH 值、原煙氣煙塵濃度、漿液密度、煙氣量、原煙氣溫度等,如圖4 所示。該結果與機理定性分析結論一致,表明主成分分析方法具有較好的適用性和有效性,為后續脫硫系統的運行優化及調整提供定量的參考。

圖4 關鍵因素集Fig.4 Key factor set
梳理關鍵因素集的結果,作為煙氣脫硫系統性能數據模型的輸入,采用多算法融合的回歸分析技術構建環保系統性能數據模型,最終通過預測凈煙氣SO2濃度、凈煙氣溫度、脫硫電耗、石灰石耗量,以達到預測煙氣脫硫系統性能的目的,同時完成算法調優和模型訓練,如圖5所示。

圖5 煙氣脫硫系統性能預測數據模型Fig.5 Data model for performance prediction of flue gas desulphurization system
數據模型的建立成功表明了方法的可行性,而模型的準確性通過3個指標來評價界定,見表2。

表2 數據模型的主要評價指標與效果Tab.2 Main evaluation index and effect of the data model
γRMSE分別為1.09 mg/m3、0.41℃、88.82 kW,與其眾數和最大值相比,數值和量級均在工程允許范圍內;γR2均大于0.85,模型的效果較好,能高概率地保證模型趨勢的正確性;γMAPE均小于0.10,模型能高準確度地模擬對象的輸入和輸出,間接表明算法和參數匹配較好。
為進一步驗證模型的有效性和準確性,選取不同機組負荷下運行數據,對模型進行測試,結果見表3和表4。

表3 煙氣脫硫系統性能預測數據模型測試案例Tab.3 Test case of performance prediction data model for flue gas desulfurization system

表4 數據模型測試結果Tab.4 Testing results of data model
石灰石制漿系統具有時滯延后特性,即石灰石耗量的精確確定不完全依托運行數據,因此石灰石耗量的準確性對于模型效果評價的可靠性有待深入研究。剔除石灰石耗量后,各參數的相對偏差均小于6.50%,量級與模型的γMAPE相當,且數據模型能準確復現負荷變化下環保系統狀態變化規律和趨勢,具有較強的負荷適應性,驗證了性能預測數據模型的有效性和準確性。
突破傳統機理和試驗研究的方式,以燃煤電站煙氣脫硫系統運行數據作為切入點,運用大數據技術挖掘出影響脫硫系統性能的關鍵因素集,合理梳理關鍵因素并將其作為數據模型的輸入,融合回歸分析技術的多種算法,構建了煙氣脫硫系統性能預測數據模型。實例證明,訓練后的模型能高精度地復現不同負荷工況的脫硫系統性能,還具有較好的靈活性和可拓展性,為后續燃煤電站環保裝備的狀態監測、趨勢分析、運行優化提供堅實的基礎。相比于機理研究和試驗方法,該研究方法更為高效靈活、簡潔明了,豐富了燃煤電站環保研究思路,且具有啟示意義。