基于Hadoop框架的營配調數據處理模型的設計與實現

2019-03-23 02:28:08陸俊，李葵，周明，辛永，陸鑫

通信電源技術 2019年2期

關鍵詞：用戶

陸俊，李葵，周明，辛永，陸鑫

（1.國網安徽省電力有限公司信息通信分公司，安徽合肥 230061；2.國網信通億力科技有限責任公司，福建福州 350003）

0 引言

隨著同期線損管理系統建設的全面推進，同期線損管理要求日益迫切，運檢、調度、營銷等各專業數據質量要求進一步提高，同時降本增效成為經濟新常態下電網企業持續健康發展的關鍵支撐[1]。因此，亟需研究設計有效的治理方法，實現營配調各專業數據特性的自動匹配和識別，進而實現同期線損異常的自動排查，減少拉網式手工排查工作量，挖掘同期線損數據價值，為降損規劃和專業管理提升提供有效支撐。

國內各級供電公司及研究院在營配調貫通數據治理方面進行了大量研究，取得了一定成果。例如，采用數據轉檔、信息采錄、開啟異動等操作實現營銷配貫通[2]；以營配調貫通工程為基礎，通過獲取覆蓋電生產運行到客戶服務的全生命周期海量數據，結合大數據分析手段、數據挖掘技術，提出了電力公司智能預測、客服服務等高級應用的實現方法[3]；以GIS平臺為基礎，突破了營配調專業數據壁壘，設計了營配調數據融合業務應用平臺，實現了電網基礎數據質量和營配調協同工作效率的提升[4]；針對配電網信息共享和應用繼承需要，構建了營配調一體化平臺[5]。

本文采用相關性分析算法、BP神經網絡-時間序列算法和基于分布式計算的TF-IDF算法組成的數據處理模型，自動甄別線變、臺戶關系錯誤數據，協助供電單位直接定位線損異常用戶，減少人工核對工作量，有效解決同期線損中的營配調貫通問題，以真正為基層減負。

1 數據處理模型的設計

本課題研究的數據處理模型由五部分組成：數據預處理、供售電量差值計算、供售電量相關性計算、線損電量預測以及基于TF-IDF算法篩查異常掛點的設備，如圖1所示。

1.1 數據預處理模塊

數據預處理是在數據挖掘前對原始數據進行清洗、集成、轉換、離散、歸約等必要的處理，達到運用挖掘算法進行知識獲取研究所要求的最低標準。通過數據預處理可完善殘缺數據，糾正錯誤數據，去除多余數據，集成所需數據，轉換合適的數據格式，達到數據類型相同化和數據格式一致化。總之，經過數據預處理可獲取實驗所需的樣本數據，提高實驗的可靠性和真實性。

圖1 基于TF-IDF算法的同期線損數據治理模型

1.2 供售電量差值計算

預處理后的數據通過比較供電量和售電量的差值，初步預判一個地區是否出現線損異常情況。設定一個閾值ε0，將之與供、售電量的差值對比。若二者的差值大于閾值，則該地區存在線損異常，需采用TF-IDF算法查找線損異常的原因；否則，需要對供電量和線損電量進行相關性分析，判斷該地區是否出現線損異常。

1.3 供售電量相關性計算

相關性分析是指分析兩個或多個具備相關性的變量元素，衡量變量因素的相關密切程度。相關元素之間需要存在一定的聯系或者概率可進行相關性分析，通常以元素之間的相關性系數來衡量它們之間的相關性。

相關性分析常用的相關性系數有兩種：Pearson相關系數和Spearman相關系數。Spearman系數對處理的樣本數據要求低，統計效能較低。Pearson系數較Spearman系數更適用等間距測度的變量間的相關分析。因此，本文采用Pearson相關系數進行相關性分析。

假設存在兩個向量X=[x1,x2,…,xn]，Y=[y1,y2,…,yn]，則兩者的Pearson相關系數計算公式為：

式（1）中，相關系r的絕對值越大，相關性越強；r的取值范圍和相關性的對應關系如表1所示。

通過計算線損電量和供電量的Pearson相關系數，分析兩者之間的相關性。若兩者強相關（r＞0.6），則直接校驗；否則，繼續進行線損電量的預測。

表1 r的取值范圍和相關性的對應關系表

1.4 線損電量預測

當線損電量和供電量不存在強相關關系時，通過算法獲取預測售電量計算得到線損電量，然后將預測線損電量與實際線損電量相減。若差值小于設定的閾值（ε1），則直接校驗；否則，數據處理模型會判定線損電量出現異常，此時需排查線損異常產生的原因。

售電量有不確定性、復雜性、條件性及多方案性的特點，需綜合考慮多種影響因素從本質上提高售電量預測的精度。本文結合時間序列算法和BP神經網絡模型進行售電量預測。應用時間序列典型分解法提取樣本售電量序列中的趨勢成分和周期性成分，將影響售電量主要因素作為BP神經網絡輸入，根據預測售電量計算線損率實現對異常線損的修正。算法流程如圖2所示。

圖2 BP神經網絡-時間序列算法流程圖

通過對樣本數據進行多次模擬訓練，建立日溫度、日類型、歷史售電量與預測售電量的對應關系，從而達到預測售電量的目的。

根據理論可知，供、售電量關系為：

由式（2）可知，當日供電量已知時，通過預測日售電量可計算日線損電量。通過BP神經網絡-時間序列模型預測售電量后，根據式（2）得到預測線損電量L1。

1.5 基于Hadoop框架的TF-IDF算法篩查異常原因

為快速識別線損計算結果異常的原因，采用基于Hadoop框架的TF-IDF算法，并根據電力設備地址篩查電力設備的異常掛載情況，如線路、變壓器的異常掛載，臺區、用戶關系的異常掛載，從而智能定位線損異常位置，提高線損異常的治理效率。

TF-IDF（Term Frequency-Inverse Document Frequency）是一種用于咨詢檢索和文本挖掘的常用加權技術[6]，可評估單詞對一個文件集或一個語料庫中的一份文件的重要程度。TF-IDF算法的結果是詞頻TF和逆向文件頻率IDF的乘積，即單詞的權重。在某一特定文件內，高TF和在整個文件中的低IDF可以產生高權重。因此，該算法可以過濾常見的詞語，保留重要的詞語。

Hadoop分布式計算的核心是分割任務，并行運行。因此，TF-IDF的計算公式適合用分布式計算求解。TF只與它所在文檔的單詞總數及它在此文檔出現的次數有關。通過分割數據，并行統計文檔中單詞詞頻TF，加快計算速度。得到單詞詞頻TF后，確定包含此單詞的文檔個數，即能以并行計算的方式實現TF-IDF的計算。

2 工程示范應用

實驗測試數據來自于山西省陽泉市區供電公司、國網陽泉供電公司、山西省陽泉郊區供電公司、山西省陽泉平定供電公司、山西省陽泉大戶所和山西省陽泉盂縣供電公司共6家供電公司，時間跨度為2015年5月至2017年7月。數據類型是包括供電量、售電量、線損電量及線損率數據項的電網運行狀態數據，數據采集頻率為1天/次。

2.1 相關性分析結果

應用Pearson相關系數計算陽泉市區及周邊縣城的電網中供電量和線損數據，結果如圖3所示。

由圖3可知，前5個地區的供電量和線損電量具有極強的相關性。但是，在盂縣供電公司，其相關系數r只有0.154 6，說明該地區的線損數據可能存在異常，需要預測盂縣的線損電量。

2.2 線損電量預測

由2.1章節的介紹可知，本文通過預測售電量預測線損電量。因此，預測模型的樣本數據為售電量數據，預測盂縣售電量的樣本數據見表2。其中，節假日類型1表示為節假日，0表示為工作日。

圖3 陽泉周邊地區供電量與線損電量的相關性系數圖示

表2 預測盂縣售電量樣本數據

線損電量預測模塊將售電量的影響因素作為神經網絡-時間序列模型的輸入層，反復訓練直至均方差達到0.002。應用訓練成熟的模型對盂縣售電量進行預測，結果如圖4所示。

圖4中，橫軸表示樣本數據的數量，縱軸表示輸出樣本和錯誤數據，黃色線段表示預測售電量和實際數據之間的差值。由于售電量預測結果與實際數據存在很大差距，因此線損電量的預測值也和實際值相差較大。因為差值超過了預設閾值，所以該區域存在線損異常，需要對盂縣執行TF-IDF算法。篩選分析線損異常的原因，結果是電力設備異常掛載。

圖4 線損預測結果展示圖

2.3 TF-IDF篩查線損異常原因

對線損異常區域陽泉盂縣供電公司所轄區域2 000多個臺區逐一分析，識別臺區中異常掛載的電力設備，以三個臺區為例說明數據處理過程。

2.3.1 電力設備無異常掛載

以仙人臺區的所有用戶地址為例進行TF-IDF分析，結果如表3所示。

表3 仙人臺區用戶地址詞頻分析結果

由表3可知，“山西省”“陽泉市”“盂縣”“仙人”四個詞語的TF值相等，說明四個詞語在該臺區的所有用戶地址中出現的概率一樣，沒有某個詞語出現頻率異常低，可判定該臺區沒有異常用戶。

2.3.2 電力設備出現異常掛載

以李家莊臺區的所有用戶地址為例進行TF-IDF分析，結果如表4所示。

表4 李家莊臺區用戶地址詞頻分析結果

由表4可知，“潘”的TF值遠遠小于其他詞語，說明李家莊臺區內的用戶地址中帶有“潘”的用戶有可能不屬于該臺區，而營配調系統把這些用戶歸為李家莊臺區。李家莊臺區的用戶地址分布如表5所示。

表5 李家莊臺區用戶地址分布

對該臺區的46個用戶地址進行統計，帶有“潘”的用戶地址在李家莊臺區中只有10戶，帶有“李家”的用戶地址有36戶，故地址帶有“盂縣西潘鄉”的用戶可能不屬于該臺區。把這些用戶的地址反饋給工作人員，經現場校驗，表明這些用戶實際中確實掛載在該臺區內，無異常掛載情況，無需在營配調系統中修改其掛載關系。

為了再次驗證TF-IDF算法的準確性，以東杜臺區的所有用戶地址為例進行TF-IDF分析，結果如表6所示。

表6 東杜臺區用戶地址詞頻分析結果

通過統計分析東杜臺區的74個用戶地址發現，地址中帶有“山西省陽泉市盂縣路家村鎮東杜村”的用戶有73戶，地址中帶有“山西省陽泉市盂縣西潘鄉”的用戶僅有1戶，說明該用戶極大可能出現異常掛載。經工作人員現場校驗發現，該用戶確實不屬于該臺區，需在營配調系統中修改其掛載關系。

數據處理模型通過分析盂縣供電量和線損電量的相關關系，判斷盂縣可能出現線損異常，采用TF-IDF算法分析盂縣的所有線變關系、臺戶關系，表明有26個臺區可能出現異常掛載。經工作人員現場校驗，確定其中的16個臺區出現異常掛載情況。通過在營配調系統中糾正錯誤的掛載關系，該地區的線損異常情況得到極大改善。

綜上所述，本文建立的基于Hadoop框架的數據處理模型提高了解決線損異常原因-電力設備異常掛載的準確率，有效減少了人工現場排查的盲目性和工作量，大大節省了人力、物力。

3 結論

本文設計了基于Hadoop的營配調數據處理模型，研究了Person相關算法、BP神經網絡-時間序列算法和基于Hadoop框架的TF-IDF算法，實現了對供電量、售電量相關關系的定量分析，自動篩查了同期線損異常原因，支撐了線損管理的提升。最后，利用實際環境下的測試結果，驗證了數據模型的實用性、有效性及準確性。