楊瀚欽,申曉留,王默玉,喬 鑫,劉瑞雪,孫楊博
(華北電力大學 控制與計算機工程學院, 北京102206)
基于大數據的火電廠能耗評估模型的研究
楊瀚欽,申曉留,王默玉,喬 鑫,劉瑞雪,孫楊博
(華北電力大學 控制與計算機工程學院, 北京102206)
為了順利開展節能降耗工作,火電廠需要準確評估自身能耗指標。現階段能耗指標評估主要使用傳統數理統計方法,這些方法難以挖掘數據深層次的信息。使用大數據分析方法中的多元線性回歸方法,得出了一套煤耗指標評估模型,對某電廠600 MW發電機組實際運行數據進行了大數據分析,解決了傳統能耗指標評估方法的缺陷。使用殘差分析法對模型準確性進行了驗證,得出了模型滿足實際需要的結論。
大數據;多元線性回歸;能耗評估;SPSS
現階段能耗評估主要運用數學模型對數據進行復雜運算,得出結果對數據進行評價;或者對數據進行比較,通過比較結果評價數據。使用的分析方法包括:指標權重法和密切值法[3];層次-灰色關聯度分析理論[4];多級模糊綜合評價方法等[5]。
傳統的數據分析方法在處理大量數據時具有局限性:數據缺乏可比性,不同工作狀況下的數據進行直接比較意義不大;數據之間關聯性考慮不全,難以對數據進行深層次的挖掘。運用大數據分析方法可以有效解決這些問題。
本文使用SPSS軟件,采用多元線性回歸方法,對某火電廠600 MW機組測點數據進行數據挖掘。得出了發電機輸出功率、燃煤熱值、環境溫度3個影響因子與煤耗指標之間的關聯關系。使用殘差分析法對模型進行了評價。
本文使用“影響因子”代表抽象的影響因素。機組正常運行時,影響因子與能耗指標的比例關系總是在一個值上下浮動。在找到這一關聯關系的基礎上,可計算出一組給定影響因子對應的最低能耗指標。最低能耗可以作為評估機組節能潛力的標準。
多元線性回歸能有效地挖掘多個自變量與單個因變量之間的聯系,并考慮到了幾乎所有的歷史數據。使用多元線性回歸方法挖掘數據間關聯關系,能夠獲得比使用傳統的數據對比方法更好的結果。常采用的曲線擬合方法是最小二乘法[6-8],常使用的軟件是SPSS和MATLAB[9-10]。
模型的建立方法分為4個步驟:數據采集、數據預處理、模型學習、輸出結果。將這4個步驟總結可得出如圖1所示的流程圖。

圖1 煤耗理論值計算模型流程圖
2.1 數據預處理
2.3 社會因素 涇河川道是彬州梨原主產區,但近年來隨著城鎮開發、交通路網建設及產業結構調整,梨園面積不斷縮減,從東邊新民鎮早飯頭村至西邊涇河西區大佛寺村,沿涇河川道梨園已難得一見。煤礦周邊群眾多選擇進礦務工,收入相當可觀,遂逐漸放棄梨園管理。還有一些鎮為增加群眾收入,推廣坡臺地中藥材種植,收益近2 000元/畝,且管理、采收方便,相比之下梨園生產費時費工,效益還低,群眾自然不愿栽梨。
為了得到準確結果,需要對原始數據進行處理。本文進行的數據預處理工作包括:去除空數據、數據對齊。
電廠機組在運行時會出現停機、檢修等狀態,而機組處于這些狀態時設備測點不會對機組運行數據進行采集,轉而生成空數據。這些空數據會使模型分析產生偏差,需要去除這些空數據。
不同數據由不同測點進行采集,不可能在同一時刻進行采集,需要進行對齊處理。時刻對齊是指將采集時刻最靠近的數據條目看作是同一時刻產生的數據,并將其合并為一條數據[11]。不同測點數據采集時間間隔不同。本文采用1 h作為標準的時間間隔。對數據采集時間間隔小于1 h的數據點進行合并;對于數據采集時間大于1 h的數據點進行拆分。
2.2 建立模型
本文選用的影響因子為:發電機出力、燃煤熱值、環境溫度;被評估的能耗指標為:煤耗指標。使用SPSS軟件進行多元線性回歸,將2015—2016年間的機組運行數據作為輸入進行分析。總數據條目數為4 847條,得出的結果為:
y=-0.008 8x1+0.515x2-0.001x3
式中:y表示煤耗;x1表示發電機出力;x2表示環境溫度;x3表示燃煤熱值。
2.3 結果運用與展示
固定了3個影響因子中的任意2個之后,可以找到第3個影響因子對煤耗指標的影響程度。利用這一模型建立如圖2所示的分析系統。圖中環境溫度增量為20 ℃,出力增量為500 MW時,煤耗增量為-33.9 g/kW·h。

圖2 煤耗因子靈敏度分析系統
3.1 模型自身評價
根據模型分析結果,對模型預測值與實際值的偏差進行計算,計算出R、R平方、調整后R平方、標準偏斜度錯誤,結果如表1。
R表示復相關系數,R越大,線性關系越密切。表1顯示R=0.743,可認為環境溫度、發電機出力、燃煤熱值這3個量與煤耗指標的關系較為密切。

表1 模型預測值與實際值偏差
表2展示了模型的系數及顯著性檢驗結果,可以發現各個系數(常數、出力的系數、環境溫度的系數、燃煤熱值的系數)的顯著性都為0,明顯低于0.05。可認為模型系數與樣本之間的差異為純機會變異;之前的假設與真實情況是一致的。

表2 模型系數
表3展示了模型的殘差估計結果:在4 395個正誤差之中,最大值是45.923,中位數是7.024,說明大部分正誤差維持在一個比較小的水平。正誤差的方差為5.33,為一個較小的值。結合平均值、中位數以及方差可以認為正誤差較小,模型精度較大,同理可以分析負誤差,可以得到負誤差較小,模型精度較大。考慮絕對誤差,發現與正負誤差比較,其中位數無太大變化。
模型標準差較小,說明了模型正負離散程度較小,模型得出的數據較為穩定。
這一結果證明了整個模型的殘差整體集中在較小的一個區間內,多元線性擬合結果較符合實際情況。

表3 殘差估計結果
3.2 模型與預處理前數據分析結果比較
將預處理前的數據作為對照組。使用SPSS分析預處理前的數據,得到如表4所示的模型摘要。將表4與表1對比可以發現,不經過預處理,R值更大,煤耗指標與影響因子之間的線性回歸關系密切程度較大。標準偏斜度錯誤達到了60以上,這說明未經過預處理,線性回歸得出的模型誤差更大,預處理之后線性回歸得到的模型更加精確。

表4 預處理前分析結果偏差
對預處理前的數據回歸得到的模型進行殘差分析,可以得到如表5的分析結果。由表5可以得出:未經過預處理的數據回歸得出的模型殘差很大,其中位數大于平均值,即超過一半的由模型計算出的煤耗指標評估標準與煤耗指標實際值偏差過大。對于電廠實際數據,這種情況不可能出現,即未經過預處理的數據回歸得到的模型不能運用到生產實際中。

表5 預處理前分析結果殘差估計
3.3 分析結果與傳統分析方法對比
火電廠在進行數據分析時,采用傳統的同比、環比等數據分析方法將不同時間段的能耗變化趨勢進行對比,分析結果如圖3所示。圖3展示了12月份煤耗指標變化趨勢的環比分析結果,可以發現2015年的變化趨勢與2014年的變化趨勢相似。但這種分析方案缺少一個標準值對數據進行評估,無法判斷這2個煤耗變化趨勢哪一個比較正常。本文采用的大數據分析方法計算出了某一工作狀況下的標準煤耗指標,這一指標可以用于評估這一工況下實際煤耗指標是否正常,解決了傳統數據分析方法的缺陷。

圖3 煤耗年環比分析示意圖
火電廠能耗評估模型全面地考慮了環境溫度、燃煤熱值、發電機出力等影響能耗指標的多個影響因子。克服了同比和環比分析方法的缺陷,有助于火電廠更加全面、細致地了解自身節能降耗措施的不足,為實施節能改造指明了方向。
[1]劉建華.多變煤質條件下火電廠負荷優化分配方法研究[D].保定: 華北電力大學, 2011.
[2]荊百林,李明,李敏. 火電廠能耗評估方法的應用[J]. 電力設備,2008,9(3):31-33.
[3]李娜,王蕾,劉宏志,等. 基于均方根—密切值的火電廠節能降耗潛力評價研究[J]. 華東電力,2012,40(8):1296-1298.
[4]劉劍. 燃煤機組濕法脫硫系統能效評估方法研究[J]. 電氣應用,2013,(S2):91-94.
[5]王志勇,邱澤晶,王振宇,等. 高耗能企業能效水平的多級模糊綜合評估方法[J]. 冶金能源,2013,32(6):12-16.
[6]緱新科,崔樂樂,巨圓圓,等. 火電廠機組煤耗特性曲線擬合算法研究[J]. 電力系統保護與控制,2014,42(10):84-89.
[7]陳嵐峰,楊靜瑜,崔崧,等. 基于MATLAB的最小二乘曲線擬合仿真研究[J]. 沈陽師范大學學報(自然科學版),2014,32(1):75-79.
[8]李蓓蕾. 多次自適應最小二乘曲線擬合方法及其應用[D].荊州:長江大學,2014.
[9]史春薇,田強,葛騫,等. 基于SPSS統計軟件在多元線性回歸校驗數據中的應用[J]. 當代化工,2014,43(6):1112-1113.
[10]錢寧波,李寒旭,劉銘,等. 基于MATLAB的煤炭成漿濃度的多元線性回歸研究[J]. 煤炭技術,2015,34(5):322-323.
[11]董林. 時空關聯規則挖掘研究[D].武漢:武漢大學,2014.
Research on Energy Consumption Evaluation Model of Thermal Power Plant Based on Large Data
YANG Hanqin, SHEN Xiaoliu, WANG Moyu, QIAO Xin, LIU Ruixue, SUN Yangbo
(School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China)
In order to carry out energy saving and consumption reduction, the thermal power plant needs to accurately assess its energy consumption index. The method of mathematical statistics is the most commonly used traditional evaluation of energy consumption indicators, but it cannot dig out the deep layers of information. Big data analysis method in the multivariate linear regression method is used in this paper to analyse the actual operation data of generating set. This paper puts forward a set of evaluation model of coal consumption, solves the defects of the traditional energy consumption index evaluation method. The model was evaluated by the method of residual error analysis, and the conclusion that the model can meet the requirements of the actual production was made.
big data; multiple linear regression; energy consumption evaluation; SPSS
2016-08-10。
國家自然科學基金(71071053);北京市自然科學基金(9122021)。
楊瀚欽(1992-),男,碩士研究生,研究方向為計算機應用技術,E-mail:yanghanqinyhq@163.com。
TP391
A
10.3969/j.issn.1672-0792.2016.12.001