并行計算視域下大數據挖掘技術及其在鍋爐性能升級中的應用實踐

2019-05-28 06:13:54李春曉李艷紅

工業加熱 2019年2期

李春曉，李艷紅

（1.西安外事學院工學院計算機系，陜西西安，710077；2.西安外事學院工學院計算機公共教學部，陜西西安，710077）

當前社會環境下互聯網的發展數字化的時代特征越來越明顯，也使電力行業緊跟時代潮流逐漸的信息化[1-2]。最為明顯的就是監控信息系統（Su-pervisory Information System，簡稱SIS）與分布式控制系統（Distributed Control，簡稱DCS）兩者在電力行業中被運用，以便于電力行業中的大量數據能夠完好存儲，數據挖掘也逐漸在電力行業中慢慢被重視，越來越多是相關研究人員在電站機組中碰到難題時選擇運用數據挖掘的方式來進行處理[3]。因此電站在提升鍋爐效率與解決NOx排放等問題時均將數據挖掘聚類分析運用到其中。

1 相關工作背景

1.1 粗糙集理論

在1982年波蘭數學家Pawlak提出了粗糙集理論，為解決難以確定以及難以做到精確時的數據研究理論，主要的研究主體為信息數據系統，以更加簡約的形式來完成數據的分類，且能夠維持信息數據分類的相應能力不被改變。相較于其余的同類型解決數據不能精確的理論而言，此理論最具突出的特點為不必要為待解決問題提供除數據庫的其余任意相關先驗知識，能夠與其余理論形成互補。如今，在臨床醫學、模糊識別以及預測控制等多種行業中得到運用。

粗糙理論的最大優點為其屬性約簡，首先最佳子集從原始特征中來進行篩選，而后在其中選出最為重要的特征，將多余無用的數據刪去，以使數據維度縮小，以此進一步提升數據的研究效益。本文主要在Pawlak屬性基礎之上的決策表屬性約簡算法中完成屬性約簡，具體的屬性約簡主要框架見圖1。

1.2 Hadoop平臺

在Hadoop平臺，需要在MapReduce的主要框架下完成數據的分析，該框架能夠滿足大數據的問題處理模式。且在MapReduce框架下主要運用Map和Reduce兩種函數，即映射與歸約函數來完成數據處理。按照實際情況對數據源分散處理，通過＜key，value＞鍵值對來完成Map與Reduce兩個函數的輸入輸出。Key為聚類類別、value主要是數據維度和主體數據的數量累加。每個數據塊都以分別對應的各自的Map函數同時完成數據的計算輸出，而后進行輸出數據的順序排列與整合，并且對key值一樣的數據來形成Reduce函數的輸入值，而后繼續完成計算。MapReduce框架的具體運作流程見圖2。

圖1 屬性約簡的基本框架

圖2 MapReduce工作流程

2RCK-means新算法流程

在MapReduce的基礎之上進行順序組合而形成的程序則為RCK-means算法，首先同樣需要對數據的原件進行屬性約簡處理，而后根據其順序可分為Canopy與K-means兩個子框架來繼續進行計算。詳細順序流程可見圖3。

（1）首先創建最初的決策表通過粗糙集理論來完成，而后進行條件與決策屬性的判定，再根據兩者屬性的依賴度來完成下一步的屬性約簡，將無關的數據刪去，留下的有用數據組成集合。

（2）在Canopy算法中進行Map函數時，將有用的新數據集合換為＜key，value＞鍵值對的方式，并將其放入m個Map函數繼續進行計算。當每個數據塊的距離閥值，并且需將計算出的數值與D1、D2完成對比之后分類處理，最后迭代形成一個集合，即Canopy集合。

（3）在Canopy算法中進行Reduce函數時，首先需要對Map中完成的結果進行并集處理，組合成一個新的Q集合。之后對該新集合實行Canopy流程，不斷的進行程序處理，直至該集合為空，可以計算出聚類簇K，而后才可將其當做輸入值進行K-means框架的處理。

（4）K-means算法中Map函數時，將Canopy程序處理得出的聚類簇以＜key，value＞鍵值對輸入，之后計算節點與中心點之間的距離計算，而后匯總，進行類別的分類處理，最后用同樣的方式輸出。

（5）通過Combine函數來完成上一階段輸出值的分類處理，之后本地進行數據歸集，對各數據的維度值做總和計算，且需得出數據的數量，最后輸出以＜key，value＞鍵值對的方式。

（6）在K-means算法中進行Reduce函數時，首先需要對上一階段Combine函數的輸出結果進行分析，對各數據的維度值做出總和計算，且需得出數據的數量，最后形成新的聚類中心，之后繼續進行重新的迭代，直到收斂。

圖3RCK-means算法流程

3 在鍋爐效率優化中的運用改進RCK-means算法

3.1 電站鍋爐效率優化中運用大數據技術的意義

電站機組一直將電站鍋爐的能源節約作為其優化的重點，這是由于鍋爐的效率是電站經濟與環保性的重要參考數值。如今，優化方式有以下兩種，其一為對燃燒器與受熱面進行升級整改處理，以此優化效率，亦或引進更為先進的相關設備來實現鍋爐使用時的參數監測。然而此類方式雖能夠產生很好的效果，但同樣需要花費的人力財力也非常高。其二為以DCS為基準，加上數據挖掘來完成鍋爐使用最佳參數的選擇，這一方式的不足之處在于需要較多的依靠模型優化以及算法升級來完成，因此會在模型優化中出現建模過程難以得到樣本的問題，實用度不強。以電站DCS系統擁有的大量數據作為大數據挖掘技術做鋪墊，加之嚴密的計算流程，將影響鍋爐效率的參數從熱力系統的大量數據中挖掘出來，即使實際得出的參數值會與理論上參數最佳值之間有些誤差，但得出的這一參數值能夠成為至今最佳的參數值。本文運用K-means聚類算法的優化加之Hadoop框架，在大量的數據中依據集（簇）聚類中心點來挖掘鍋爐效率的影響參數，以形成最佳集合，之后結合實際理論以及數理檢測來驗證最佳的適用參數，以此保證所得參數符合實際可用性，具有真正的現實意義，能夠被應用于使鍋爐效率提升的參數挖掘，提升整體鍋爐效率。

3.2 大數據挖掘對象

研究以某一600 MW燃煤機組鍋爐作為主體，此鍋爐的燃燒器為擺動四角切圓形，選取分析研究數據一共129 600條，主要數據選取區間為2018-10-01～2018-12-31。

3.3 確定大數據挖掘目標

將鍋爐效率當作本次分析研究的主要目標，運用RCK-means算法來尋找會對鍋爐效率產生影響的數據，在處于一般情況下，運用集（簇）聚類中心點于鍋爐效率之間的聯系來確定最佳的參數，為實際操作確定方向。在能夠影響鍋爐效率的相關參數中，選出以下幾項來分析研究，即排煙氧量，燃燒器擺角，排煙溫度，磨煤機給煤量以及飛灰含碳量。

3.4 大數據預處理

粗糙集理論只能夠對離散型的數據進行分析，因為其具有不能辨別數據關系的這一缺點，然而運用DCS所歸集的大部分均屬于連續而非離散的信息，由此可知在事前需要對DCS歸集的相關信息進行分散處理。能夠分散數據的方式有許多，若運用傳統的方式，則會出現數據分割點難以尋找，且若沒有對數據進行準確的分散，會影響后面的數據處理，進行數據分散較易出現有用數據被排除可能。因此本文選擇運用模糊粗糙集分散方法，顧名思義即為模糊集與粗糙集兩種方式相結合來進行數據分散，運用兩種均具有不確定性質的方式對歸集的數據完成“柔化分”與屬性約簡處理。這樣的分散方式能夠在一定程度上彌補單獨運用粗糙集時存在的不足之處，也降低有用的重要數據被排除的可能性。

3.5 大數據挖掘算法應用及結果

對約簡后的數據運用RCK-means算法來繼續完成數據的挖掘。將Hadoop平臺的支持度設定一個最小值2%。而后依據標準的數據計算處理順序對約簡后形成的集合進行處理，挖掘有用的參數，找到在大量的數據中聚類中心點和鍋爐效率之間最佳的參數值。

據實際分析可知，運行出的排煙氧量最佳優化值與設定的實際值之間會存在著較大差異。當出現低負荷的情況時，設定值會小于最佳優化值，這是因為在此環境下鍋爐較難燃燒，一定程度上使排煙氧量增多會有助于降低不燃燒熱而引起的不利影響，提升整體效益。而當負荷值較大，達到500 MW之上則有助于鍋爐的燃燒，相應的排煙氧量最佳優化值會降低，出現設定值大于最佳優化值的情況。由此可知，在實際運用中，以便于更好的在不同情況下均可達到效率最大化，則不可運用設定值進行操作，需要對不同運行情況下的數據進行更新優化，以找到最適的參數值，達到實際效用。

4結語

運用大數據技術對影響鍋爐效率的數據進行挖掘，尋找最佳的參數值，使鍋爐效率得到最大化。RCK-means新算法的運用將無效數據進行排除，形成最佳的集合，從整體上提升了聚類準確率。在實際運用中，為了更好的在不同情況下均可達到效率最大化，則不可運用設定值進行操作，需要設定一個最佳區間，而后針對不同情況進行數據優化，以找到最合適的參數值。