汪嬌嬌,丁健,王漢軍
(廣東電網有限責任公司茂名供電局,廣東茂名 525000)
隨著電力系統規模的不斷擴大,數據處理技術的不斷發展,遠程配網定值整定數據呈現出了爆炸式的快速增長,配電網進入了大數據時代[1-3]。由配網定值整定系統采集到的海量數據呈現不同的結構形式,上述數據反映了配電網的不同運行狀態[4-5]。如何高效率采集與處理上述數據,成為了電力系統面臨的嚴峻挑戰。此外,近年來電網數字化建設不斷加快,不同電網企業的信息數據相對獨立,缺乏統一的規范與標準,給配電網數據處理技術增加了難度[6-7]。基于多維異構數據融合技術可以彌補單源數據單一、誤差較大的問題,實現結構與非結構的融合使用。其特點主要是將目標數據表示為相同的特性,并將來自不同自由度的數據體現為綜合信息,以便于對數據產生依賴[8-9]。因此將多方面的配網數據相融合,應用多維信息融合技術實現數據整合,成為了研究的熱點。
多維異構數據融合最典型的方法有小波變換、BP 神經網絡等。文獻[10]基于海量的終端數據,通過多源融合消除數據冗余,提高數據預測的精度;文獻[11]挖掘三組數據的關聯性,采用多源異構數據融合方法消除目標數據集的同質問題;文獻[12]通過優化數據處理方案和排序,增加數據庫的融合率。但上述研究工作均針對數據集進行研究,在遠程配網定值整定數據方法的研究方面仍顯匱乏。
因此,該文基于多維異構數據融合技術提出了一種遠程配網定值數據處理方案。在對采集到的數據進行預處理的基礎上,采用RSA 算法實現了對信息數據的加密運算,以此保證電力大數據的安全、有效性。通過正交基前向神經網絡算法確定最優的網絡參數,從而實現優化的并行數據處理,顯著提高融合數據的處理效率,同時也有效提高了電力數據分析過程中的預測精度。
配網終端設備采集到的數據結構復雜,可能存在數據冗余或缺失等情況。因此在進行多維異構數據融合之前,需要對采集到的數據進行預處理,通過數據清洗、集成等步驟提高原始數據的精度[13]。在實際的數據采集過程中,通常會由于周圍環境、設備質量、人為因素等原因導致數據丟失或失真,所以需要進行數據清洗。對于采集數據有重復的,采用聚類法進行處理;而對于噪聲數據,可采用過濾技術進行處理。此外,為統一數據量綱,對所有采集到的數據進行歸一化處理。標準化處理所采用的轉換函數為:

式中,X′表示標準化之后的數據,其值為0~1 之間的任何值,X、Xmin、Xmax分別表示樣本數據的原始值、最小值和最大值。
通信技術在電力數據傳輸過程中發揮了重要作用,常見的協議有對稱加密技術和非對稱加密技術。對稱加密技術傳輸速度快,可對大量數據進行加密,且加密與解密的秘鑰相同,可以將配電終端采集到的數據安全傳輸到另一端;非對稱加密技術與對稱加密技術不同,其加密與解密過程使用兩個不同的密鑰,然后分別設置密碼,通過這種方法可提高傳輸速度、增加傳輸的安全性[14]。
為了保證電力大數據的安全有效性,該文開發了加密算法與密鑰管理系統。其需要對采集到的數據進行簽名與核對,保證身份與證書一致,以便對身份進行認證和管理,密鑰從管理系統申請獲取。采用RSA 算法實現的密鑰的生成,其算法邏輯為:
1)首先選擇兩個不同的素數A 和B;
2)計算上述兩個素數的乘積;
3)選取隨機數e,使其最大公約數為1;
4)對每個密鑰進行加密變換,變換規則為E(k)=xemodn,解密規則為D(k)=ydmodn;
5)銷毀A 與B,以(e,n)為公開密鑰,(d,n)為私有密鑰。
為提高數據傳輸的效率,在各個數據結構上設置物理內存,按照各個協議之間的規則傳遞數據協議。通過RS485 接口與終端設備進行MODBUS 通信,并配置文件接口類型。基于以太網將配電定值整定數據傳至后臺,其系統模塊框架如圖1 所示。從圖中可以看出,兩個模塊均可獨立進行任務,并可支持多規約的終端設備。

圖1 內存共享與數據采集模塊
數據融合是指在已設計好完整框架內對所有采集的數據按照預定規則進行數據關聯和特征獲取操作,從而能夠快速地對選取對象進行數據監測、評估和處理。數據融合可采用三個層次描述算法的完整性,如圖2 所示。

圖2 數據融合數據圖
采用數據融合算法有以下優勢:
1)由于電力數據在采集過程中存在數據冗余的情況,數據融合可拓寬數據的帶寬;
2)利用電力傳輸通道,提高傳輸速度,增加延時處理;
3)當遇到單一故障時,僅依賴配網定值整定系統可能會造成數據的不準確,而采用數據融合算法可以增加配電線路的復雜故障識別率。
傳統數據融合算法利用反向傳播網絡,傳輸速率慢且誤差函數存在極值點,則會造成數據過擬合的問題[15-16]。采用正交基前向神經網絡算法可確定最優的網絡隱含層數目及神經元個數,提高預測精度與效率。
Hermite 正交基前向神經網絡基于多項式理論,將正交多項式作為激勵函數,簡化迭代過程并節省訓練時間,從而巧妙設定閾值。但該方法僅適用于少量的樣本數據,當處理電力大數據時存在耗時長、內存占用多等問題。而MapReduce 處理框架可處理集群數據集,自動將數據樣本按照處理任務分為多個數據塊。根據節點處理對應的模塊,計算Map 節點和Reduce 節點并執行同步操作。為了減少通信道路堵塞,采用一定的策略進行劃分處理,確保每個數據發送到Reduce 節點。為提高CPU 的處理速率,通常在程序運行過程中多備份運行。同時當出現硬件或軟件問題時,MapReduce 可實時檢測出結果并重新分配節點任務。
MapReduce 根據客戶的任務,可分為全過程的4個獨立部分任務:1)編寫及提交程序;2)協調與處理資源規劃;3)接受并執行命令;4)數據共享與保存,實現以流動形式訪問數據中心。
與傳統串行計算進行對比,若將大樣本數據分解為小樣本數據且由多個處理器進行處理,可大幅提高處理器的運算效率。基于MapReduce 模型的多維異構數據融合算法正是融合了以上思想,從而提高計算速率。其并行處理流程如圖3 所示。

圖3 并行處理流程圖
基于MapReduce 模型的神經網絡在工作時,具有獨立處理、分塊運行的特點,因此將MapReduce 并行化處理。將配電終端采集到的數據使用Map 融合機制分解為子數據集,并根據分配的任務執行各節點任務;再結合融合算法進行指標計算,通過Reduce函數將各個節點進行匯總處理。
配網定值整定系統通過對比數據運算值與整定值,實現遠程數據采集與分析。在采集大量的數據集后,基于Hadoop 平臺并利用HDFS 進行海量存儲,將為數據的傳輸與處理提供便捷。采用配電網終端采集的整定值為目標,數據處理步驟如圖4 所示。

圖4 數據并行融合
并行化的數據融合步驟如下:
1)配網終端采集數據離散化。
依據整定目標,將采集到的電壓、電流、功率等數據進行離散化處理,采用等距方法將上述數據離散化。其中,開關狀態均為離散化變量,無需處理。
2)矩陣化處理。
設N為某一時刻配網終端采集到的數據,用Ni表示某一用電設備在該時刻采集到的數據矩陣:

因此,可以得到多個配網終端采集設備收集的數據矩陣M為:

3)應用MapReduce 并行算法對遠程配網定值數據進行訓練、預測及對比分析。
在遠程配網定值整定系統基礎上,對配網終端采集到的海量數據進行融合分析。其中HDFS 采用主從結構,以NameNode 作為主服務器,管理文件命名和數據訪問系統。基于文中所提到的MapReduce數據處理流程,構建20 臺終端節點形成數據測試平臺,所有流程均在Eclipse 環境中完成。其實驗測試的配置環境,如表1 所示。

表1 配置環境
采用某區域配電網遠程定值整定系統的采集數據,選取電壓、電流、有功功率、無功功率、溫度等作為數據輸入參數,用以下公式將預測功率進行誤差統一化:

式(4)中,Yt表示功率預測值,yt表示功率實際值,n為預測個數,且誤差值越小說明精度越高。
平均絕對誤差表示整體情況的匹配程度,可用以下表達式表示:

式(5)中,M值的大小表示預測的準確度,其值越小說明預測精度越高。
應用該文所述方法與傳統BP 神經網絡算法、灰色預測方法、深度學習進行對比分析,計算各種方法的標準誤差與絕對誤差,對比結果如表2 所示。從表2 可以看出,采用文中所述方法對遠程配網定值數據進行處理時,其誤差值均有所降低,更接近真實值。其原因在于正交多項式作為激勵函數,可以實現數據融合與原始數據的特征,且更能反映原始數據的真實性。

表2 各種方法誤差對比
為進一步分析該文方法的優勢,從算法的效率方面設置四組實驗,將數據集擴充為8 GB、10 GB、12 GB、14 GB。分別記錄系統的處理時間,采用兩種方法進行對比驗證,其所用時間如表3 所示。

表3 兩種方法消耗時間對比
從表3 可以看出,當采集的數據集容量較小時,兩種算法的用時差異不明顯;當采集的數據集容量逐漸增大,兩種算法體現出了明顯的用時差異。從表中還能看出,該文方法表現出更高效率的處理速率,因此更適用于大容量數據的處理場景。
針對如何高效率采集與處理遠程配網定值數據問題,該文基于多維異構數據融合技術研究了遠程配網定值數據處理的方法。在數據采集與預處理、數據傳輸方面,應用數據關聯和特征獲取操作,能夠快速地對選取對象進行數據監測、評估和處理;在數據融合方面,采用正交基前向神經網絡算法可以計算確定出最優的網絡隱含層數及神經元個數,提高預測精度與效率。在遠程配網定值整定系統基礎上,對配網終端采集到的海量數據進行融合分析。結果表明,采用文中所述方法對遠程配網定值數據進行處理時,其誤差值均有所降低,且表現出高效率的處理速率,更適用于大容量數據的處理場景。