葛凌峰,潘廣強,高憲賓,閆超,王佃昌
(華電國際電力股份有限公司十里泉發電廠,山東 棗莊 277103)
關鍵字:脫硫系統;工況劃分;高斯混合聚類
SO2是火電廠的主要排放物,對于燃煤電廠來說,降低發電產生的SO2等對環境的污染是電廠重要工作之一。針對SO2帶來的環境問題,火電廠大多數都采用各種脫硫技術,嚴格控制SO2等污染物的排放[5]。目前火電機組脫硫系統主要采用濕法煙氣脫硫技術[4],但是脫硫技術雖然可以降低電廠生產產生的SO2等污染物,卻也顯著提高了相關的能耗[6]。因此,研究脫硫系統的優化降耗對電廠節能降耗、節能環保具有重要的理論和現實意義。
本文通過大數據分析技術,基于脫硫系統的歷史數據,通過高斯混合聚類算法對歷史數據進行工況劃分,并根據優化目標,標記最優工況;然后在系統實際運行時對比歷史工況,預測工況類型以及最優工況,并根據最優工況提出優化操作指導方案,從而實現脫硫系統的運行優化。
本文以大數據數據模型為基礎,通過使用GMM聚類算法對脫硫系統的運行數據進行聚類分析,實現脫硫系統數據的工況劃分。
高斯混合模型(Gaussian Mixture Model,GMM)聚類算法,采用統計混合模型進行聚類分析。其基本思想是:假設數據集符合高斯混合分布,根據概率得到樣本所屬的類別,從而進一步實現數據集的聚類。
GMM聚類方法不是將樣本簡單地分配到某一類中,而是給出樣本屬于某類的概率,為“軟聚類”算法,文獻[1-3]指出它優于硬分配聚類,應用場景廣泛,適用于更多數據簇情況。并且文獻[8]中將GMM聚類算法與常見的聚類算法進行了比較,得出GMM聚類算法比層次聚類、SOM等聚類算法更優的實驗結論。
在文獻[1]中作者指出大部分數據符合高斯分布,或接近高斯分布。由此可見高斯混合聚類算法適合于大部分應用場景,因此本文選取高斯混合聚類算法對脫硫運行數據進行分析。
高斯混合模型由多個高斯分布模型組合形成[2],通常用于同一數據集包含不同分布的情況,因此常常被用來進行聚類分析[3]。
對于某樣本集合X來說,假設該樣本服從混合高斯分布,并假設共計有n個高斯分布模型,則整個高斯混合模型可表示為:

其中λi表示第i個成分模型的系數,表示第i個成分模型的概率密度函數,μi為第i個成分模型的均值向量,為第i個成分模型的協方差矩陣。
由此可以明顯看出,樣本X是由n個模型線性組合而成的,λ實際上代表了各個模型的權重。
采用最大似然法對模型參數進行估計。高斯混合聚類算法需要對3種參數:λ,μ,即權重、均值以及協方差參進行參數估計,則公式(1)可以由以下公式(2)表示:

高斯混合模型聚類的主要步驟如下:
步驟1:參數初始化
對n個混合成分模型的參數分別初始化,則對第i個混合成分模型來說,初始化λi,μi,參數值。
步驟2:進行參數估計及后驗概率計算
對模型參數進行估計,根據估計的模型參數值,計算各個混合成分模型下對樣本生成的后驗概率。

步驟3:參數更新
更新各個成分模型的參數,對第i個混合成分模型來說,更新其對應的參數:系數λi,均值μi,協方差。
步驟4:重復步驟2以及步驟3
使用步驟3更新后的模型參數,重復進行步驟2以及步驟3的操作及計算,直到算法滿足一定的條件、算法收斂,結束算法模型的學習,輸出最終訓練得到的各個成分模型的參數值。
步驟5:得到聚類結果
根據最終的參數,計算每個樣本在每個成分模型下的概率值,然后將每個樣本按照概率值劃入對應的各個模型,對聚類來說,則是將樣本劃分到各個簇中。
對某個樣本來說哪個模型下的概率值大就將樣本歸到哪個模型下,最終對所有樣本X計算并歸類,實現將樣本X劃分到多個簇中。
綜合分析影響脫硫系統運行的關鍵指標,并收集運行數據,然后對運行數據采用GMM聚類算法,將運行數據劃分為多個運行工況,并保存好工況劃分的模型結果。
通常,在對運行數據進行聚類時,需要首先設定聚類的數目。
本文采用AIC準則及BIC準則綜合衡量聚類結果,并選取最佳的聚類數目。赤池信息準則AIC以及貝葉斯信息準則BIC,是兩種常用于衡量模型好壞的準則[7]。一般選取最小的AIC值或最小的BIC值對應的聚類數目,則為最佳的聚類數目。
建立標準庫:設定節能優化目標,并根據節能優化目標,尋找不同工況的最佳工況、標記最佳工況,并以此建立標準庫,在脫硫系統實際運行時,運行優化調整皆參照標準庫進行。
系統運行時,對比當前運行狀態以及標準庫數據,預測實時運行狀態可調節的最優工況,并提出優化方案,輔助指導脫硫運行,降低能耗值。
使用保存的工況劃分模型,輸入脫硫關鍵指標實時數據,預測脫硫系統實時狀態的工況類別,比對標準庫,提出優化方案,輔助指導調節脫硫系統的實際運行。

(1)數據說明。實驗數據為山東某電廠的脫硫系統實際運行數據。從歷史數據庫中,以5分鐘為間隔,獲取脫硫系統2017年6月1日至2017年7月31日為期2個月的真實歷史數據,數據共有17568條。
(2)數據質量檢測。檢測數據質量,并將不符合實驗要求的數據刪除。
空數據檢測:對實驗數據進行空數據檢測,對含有空數據的樣本,無法進行常規實驗及測試,因此將此類樣本刪除;
超限數據檢測,篩選測點數值超限的數據,并認為此類數據質量低,不符合實驗要求,將此類樣本刪除。
(3)數據歸一化。對實驗數據進行歸一化處理,所有指標都轉換到同一數值范圍。后續實驗操作皆采用歸一化后的實驗數據。
(4)數據分割。為了驗證算法的有效性,對樣本數據進行數據分割,80%作為訓練樣本數據,剩余的20%樣本作為測試樣本數據,其中樣本選取方式為隨機選取。
(5)工況數尋優及模型訓練。對訓練樣本,采用GMM聚類算法進行聚類,訓練過程:對實驗數據的關鍵指標例機組負荷、入口二氧化硫折算濃度、漿液密度以及吸收塔液位等對應的數據進行聚類,實現對實驗數據的工況劃分并記錄、輸出各個樣本數據的工況類別。
設置聚類數目為2-10,計算不同聚類數目下對應的AIC值以及BIC值,選取最小AIC或BIC值對應的聚類數目作為最佳聚類數目,即最佳的劃分工況數。
圖1展示了實驗數據在不同聚類數目下的AIC以及BIC值。本實驗中最小的AIC值對應的聚類數目為10,最小的BIC值對應的聚類數目亦為10,因此選定聚類數10,對實驗數據進行工況劃分,并保存工況劃分模型的訓練結果。

圖1 不同聚類數下對應的AIC 以及BIC 值
一般研究脫硫系統的電耗或物耗最低作為優化目標。本實驗中設置的優化目標為脫硫系統漿液循環泵的電耗最低,取各個泵的電流之和作為節能指標,來衡量其電耗情況。
在對實驗數據進行工況劃分后,尋找各個工況下的最低節能指標數據作為最優工況,并建立標準庫。
表1展示經過訓練后劃分各個工況的情況。為了了解各個工況的總體情況,表1展示10個工況部分指標的均值以及各個工況的工況數目,具體如下:

表1 工況展示
(6)模型測試。使用訓練好的聚類模型,預測測試樣本所屬的工況類別。比對建立好的標準庫,查詢最優工況及最低節能值。對比原始節能值及預測的節能值,圖2展示測試樣本的原始節能指標值以及通過本實驗建議預測的節能指標值。

圖2 原始節能指標及預測節能指標
其中藍色線代表測試樣本的原始節能指標值,紅色線代表本實驗預測的節能指標值,有圖可以明顯看到紅色線值比藍色線值有明顯的降低。
使用公式(4)計算測試樣本的平均節能能力。通過計算得到測試樣本的平均節能值為10.67%,由此可見,如果根據本實驗方法進行調整優化,比原來大概可以節約10.67%的能耗。由此可見本方法對脫硫優化調整具有一定的輔助及參照作用。
本文通過大數據分析方法研究脫硫系統的優化,采用GMM算法對脫硫系統數據進行工況劃分,然后在實際運行時,預測最優工況,實驗結果顯示根據該方法進行調整,可以取得較好的經濟效益,對脫硫系統優化指導具有重要的參照意義。