馬秋波,朱廷俊,夏成璧,朱李鈾,潘艷青
(國網(wǎng)甘肅省電力公司慶陽供電公司,甘肅慶陽 745000)
建立健全的電力用戶能效評估指標體系,是提升該領域用戶能源利用率的首要環(huán)節(jié)[1-9]。在配電側降低線路損耗、用戶側降低設備損耗是提高企業(yè)電能利用率的基本準則。隨著大數(shù)據(jù)技術的推廣,電力用戶的各種用電行為早已“有跡可循”,這些痕跡為調研不同行業(yè)的電力用戶提供了技術支持[10-12]。在科學的評價指標體系引導下,電力用戶能及時改進經(jīng)營策略,而電力公司可有效降低線路損耗,從而達到配用電的雙贏。在此背景下,該文從實用性、科學性與可觀測性的角度出發(fā),對電力用戶在綜合能效評估時所使用的大數(shù)據(jù)分析及存儲方法進行了研究。基于多維矩陣的大數(shù)據(jù)分析技術對電力用戶的觀測值加以擴展,并使用熵值評估法(Entropy Method)避免了評估過程中的主觀因素影響,再利用最小二乘法(Generalized Least Squares,GLS)進行算法集成,進而提升了評估的精度。
在對電力用戶進行能效評估時,隨著企業(yè)數(shù)據(jù)采集密度的增長,各種狀態(tài)數(shù)據(jù)通常采用時間序列的形式在服務器上加以存儲。記x為電力設備某個指標在復數(shù)空間上的T維時間序列,則N個序列可以構成如式(1)所示的觀測矩陣:
式中,C為復數(shù)空間。當N遠小于T時,可將xi繼續(xù)拆分,并疊加得到更高維度的X′:
對電力用戶按照指標體系進行數(shù)據(jù)采集后,再對各個指標下的數(shù)據(jù)加以采集,隨后便能建立狀態(tài)量數(shù)據(jù)集的高維矩陣,最終通過大數(shù)據(jù)模型即可實現(xiàn)對能效的評估。數(shù)據(jù)采集后,首先需量化所采集的狀態(tài)量與能效評估間的相關性。因此,該文引入了置信度指標A來進行相關性的度量:
其中,P是事件發(fā)生的概率,σ是方差,Li,j表示狀態(tài)量i在j條件下出現(xiàn)異常,Mi是狀態(tài)量在觀測值中出現(xiàn)異常。隨后,借助ARMA 模型(Auto-Regressive and Moving Average Model)研究高維矩陣的樣本協(xié)方差矩陣并實現(xiàn)數(shù)據(jù)挖掘[13-15],以獲得該矩陣的譜分布,從而得到電力用戶的異常能效指標。ARMA 是基于自回歸(Autoregressive Model,AR)與滑動平均(Moving Average,MA)的復合模型。對于記錄了某個指標在n個狀態(tài)的高維矩陣X′=(x1,x2,…,xn),其時間序列xt的功率譜密度計算方法如下:
首先將高維矩陣轉化為以p、q為模型參數(shù)的ARMA(p|q)過程,且記B為延遲算子,?、θ為比例因子,則有:
其中,εt是基函數(shù),a和b為展開階數(shù)。
此時,記Φ為序列經(jīng)傅里葉變換后的功率譜密度,則其計算方法為:
其中,ω為傅里葉變換中的角頻率。
當a、b均為1時,即可得到該文使用的ARMA(1,1)模型。對于該模型,可根據(jù)式(6)得到功率譜密度的計算方式為:
其中,φ是[-1,1]的常數(shù)。對于采樣矩陣X,其協(xié)方差矩陣的計算方法如下:
對Sn進行p個時刻的采樣,并計算Sn的能量譜密度(Energy Spectrum Density,ESD),其計算方式為:
其中,I是采樣點中出現(xiàn)異常數(shù)據(jù)的概率。接著對式(7)進行斯蒂爾切斯變換,即可得到極限譜密度函數(shù),此處仍以ARMA(1,1)模型為例,有:
在對樣本數(shù)據(jù)進行檢測后,還需確定評價指標的權重值。由于電力用戶的指標體系較為復雜,故該文采用基于最小二乘原理的熵值評估法確定各級指標的權重。
信息熵(Information Entropy)是信息理論中評價空間內(nèi)部信息分布無序程度的評價指標,信息的無序程度越短,其攜帶的信息量便越大。在大數(shù)據(jù)評估中,通過指標觀測值提供的信息量大小可確定該指標的權重,這便是熵值評估法的基本思想。
對于電力用戶在m個評估項目,n個評價指標下,能夠得到觀測數(shù)據(jù)矩陣R=(rij)m×n,其可表示為:
對于第j個指標,其權重uj的計算方法如下:
在實際的能效評估時,由熵值評估法取得的權重為客觀權重uj。由于在現(xiàn)有的評價體系下,存在固有的主觀評價權重wj,故需盡可能降低兩套權重間的偏差。為此,該文引入最小二乘法進行綜合集成,記最終的綜合權重為W=(W1,W2,…,Wm),則優(yōu)化的目標函數(shù)H為:
由于兩種權重賦值方法所得到的權重是離散分布的,因此引入對熵h(u1,u2),并將該問題轉化為數(shù)學規(guī)劃問題,記d為集合權重:
根據(jù)最小二乘法,該數(shù)學規(guī)劃模型的最優(yōu)解如下:
此時,可得到綜合賦權后的客觀權重a1與主觀權重a2:
該文基于某地區(qū)200 家重要電力客戶數(shù)據(jù)集進行模型的驗證,由于數(shù)據(jù)量大,為提升數(shù)據(jù)的運算分析效率,需基于指標評價體系對數(shù)據(jù)的存儲體系加以設計[16]。該文的指標體系共分為三級,其中,一級指標體系包括技術能效A1、經(jīng)濟能效A2、管理能效A3。圖1 給出了技術能效A1的部分指標。

圖1 文中設計的部分指標體系
由于該文使用的原始數(shù)據(jù)均按照各個指標存儲于389 213 個小文件中,而傳統(tǒng)的HDFS(Hadoop Distributed File System)更適合于大文件的流式存儲,故該文使用圖2 所示的策略對存儲方式進行優(yōu)化。
圖2 中設計了小文件合并的數(shù)據(jù)接口,歸并后的大文件元數(shù)據(jù)結構如表1 所示。

圖2 小文件優(yōu)化存儲策略

表1 歸并后大文件的元數(shù)據(jù)結構
在經(jīng)歷前期的數(shù)據(jù)采集后,依據(jù)該指標體系與高維矩陣分析方法,得到了不同指標觀測值的擴展序列。然后再使用并行化的HDFS 大數(shù)據(jù)處理技術按照指標體系進行數(shù)據(jù)存儲,且采用1 個Master 和7個Slave 存儲節(jié)點,單個Master、Slave 節(jié)點的配置均如表2 所示。測試結果表明,相較于傳統(tǒng)的單服務器存儲,數(shù)據(jù)的訪問效率提升了64.5%。

表2 Master與Slave節(jié)點的配置
隨后通過讀取HDFS 文件系統(tǒng)上的觀測數(shù)據(jù),確定評估模型的各項指標。在確定指標體系中一、二級指標的權重時,采用最小二乘法集成賦權,各個指標的權重值計算結果如表3 所示。
從表中可以看出,在進行電力用戶的能效評估時,在該文的評估模型下,用戶的技術指標對用戶影響較大,權重為57.13%。而用戶的管理效能對用電能效的影響則較小,權重僅為10.93%。在三級指標的權重賦值中,由于各指標下的觀測值已采用高維矩陣進行了序列擴展,故可直接使用熵值評估法進行權重賦值。以B8下的三級指標C16-C21為例,各個指標的熵值、差異系數(shù)及熵權重的計算結果如表4所示。

表3 一二級指標權重值

表4 B8下各指標權重計算結果
表5 給出了200 家電力用戶在技術、經(jīng)濟與管理這3 個一級指標下的評價結果。

表5 企業(yè)能效評估結果
以表中所顯示的5 家用戶為例,通過綜合評價其能效水平依次排序為用戶4>用戶200>用戶1>用戶3>用戶2。通過綜合性的能效評估,各用戶均能夠評估自身在能效上的弱勢項,并針對該項進行專項提升,從而更優(yōu)地提升生產(chǎn)效率。
該文引入了大數(shù)據(jù)分析方法進行電力用戶的綜合能效評估,基于HDFS 大數(shù)據(jù)存儲結構建立了完備的評價指標體系。在數(shù)據(jù)處理上,基于ARMA方法建立了觀測樣本的協(xié)方差矩陣,在確認評估模型的三級指標時,使用了信息熵理論中的熵值評估法,有效避免了評價過程中的主觀因素影響。計算樣例證明,該方法能夠通過打分的形式有效評估用戶的當前能效水平,并可為能效的提升給出合理的改進方向。