董君,馬云飛,張婷婷,左琪剛
(國網(wǎng)天水供電公司,甘肅天水 741000)
隨著近年來配電網(wǎng)投資的增加與配電工程數(shù)據(jù)的快速增長,數(shù)據(jù)的分析及應用也面臨著嚴峻挑戰(zhàn)[1-2]。而數(shù)據(jù)挖掘(Data Mining,DM)、數(shù)據(jù)融合(Data Fusion)與大數(shù)據(jù)分析(Big Data Analysis,BDA)等新一代人工智能技術(shù)(Artificial Intelligence,AI)的更新,給大規(guī)模數(shù)據(jù)的處理及應用帶來了新的解決方案。但配電工程數(shù)據(jù)在生產(chǎn)、運營與管理方面仍存在多源異構(gòu)問題,這也導致數(shù)據(jù)的分析與推廣存在瓶頸[3-4]。針對上述問題,國內(nèi)學者開展了多方面的研究,通過結(jié)合數(shù)據(jù)提取規(guī)則解決多源異構(gòu)數(shù)據(jù)的融合問題,以實現(xiàn)不同數(shù)據(jù)庫間的訪問及共享。文獻[5]通過對比結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的差異,提出適用于海量數(shù)據(jù)的存儲模式,進而解決配電數(shù)據(jù)孤島問題。文獻[6]對不同維度的數(shù)據(jù)均進行了分析,且采用深度學習(Deep Learning,DL)進行特征提取,從而提高了數(shù)據(jù)分類的精度。國外學者的研究則較為超前,初期便提出將數(shù)據(jù)融合框架應用于礦山、鐵路等工程場景,但該框架無法適用于不同維度的數(shù)據(jù)處理與分析之中[7-8]。由于配電工程數(shù)據(jù)呈現(xiàn)多維度、數(shù)據(jù)量廣等特征,故需采用精度更高的算法進行分析與處理。因此,該文采用多源異構(gòu)數(shù)據(jù)融合技術(shù)對配電工程數(shù)據(jù)的分析展開研究。
數(shù)據(jù)融合算法基于反向傳播(Back Propagation,BP)網(wǎng)絡進行樣本數(shù)據(jù)的訓練操作。但由于極值點的確定存在偶然性,因此其易產(chǎn)生數(shù)據(jù)過擬合問題[9-10]。而多源異構(gòu)數(shù)據(jù)融合算法采用正交基前向神經(jīng)網(wǎng)絡來確定隱含層的數(shù)目,故可提高配電工程數(shù)據(jù)分析的精度與效率。
傳統(tǒng)神經(jīng)網(wǎng)絡算法的激勵函數(shù)(Activation Function)為多項式函數(shù),其可通過巧妙設定權(quán)閾值的方式縮短運行時間。但該種處理方式占據(jù)了較多內(nèi)存,因此對硬件設備的處理效率也會有更高要求。而正交基前向神經(jīng)網(wǎng)絡處理算法將單個任務分解為多個子任務,且其節(jié)點與所對應的模塊執(zhí)行同一步驟,并確保了多個數(shù)據(jù)塊可同時發(fā)送至Reduce節(jié)點,進而提高了CPU 的處理效率。
在計算過程中,正交基前向神經(jīng)網(wǎng)絡加入了多源異構(gòu)數(shù)據(jù)融合算法。通過將配電工程數(shù)據(jù)進行分布式處理,以提高處理器的運行效率。該算法的并行處理流程,如圖1 所示。

圖1 多源異構(gòu)數(shù)據(jù)融合并行處理流程圖
配電工程數(shù)據(jù)種類繁多,常見的有配電網(wǎng)工程造價數(shù)據(jù)、架空線路工程數(shù)據(jù)、電纜線路工程數(shù)據(jù)等。通過收集樣本數(shù)據(jù)來對上述信息進行橫向與縱向地對比與分析,便可得到分析結(jié)果。多源異構(gòu)數(shù)據(jù)融合即是對數(shù)據(jù)進行分類,并從多個角度完成融合分析,從而得到相應的結(jié)果[11]。收集到的配電工程數(shù)據(jù)儲存于Hadoop 平臺,該平臺可以儲存海量數(shù)據(jù)[12],再以整定值為目標實現(xiàn)數(shù)據(jù)的融合處理。數(shù)據(jù)融合處理步驟如圖2 所示。

圖2 數(shù)據(jù)融合處理
數(shù)據(jù)融合處理的具體步驟如下:
1)將采集到的配電工程數(shù)據(jù)作離散化處理,包括配電網(wǎng)工程造價數(shù)據(jù)、架空線路工程數(shù)據(jù)與電纜線路工程數(shù)據(jù)等。其中,配電設備的狀態(tài)用0-1 變量表示。
2)將上述離散化的數(shù)據(jù)進行矩陣化處理,用Ni表示時刻i采集到的配電工程數(shù)據(jù)集合的數(shù)據(jù)矩陣為:
其中,t為與時間相關(guān)的數(shù)據(jù)參數(shù)。因此,P個配電工程數(shù)據(jù)矩陣M可表示為:
3)采用正交基前向神經(jīng)網(wǎng)絡對配電工程數(shù)據(jù)進行訓練、預測及分析。
常見的配電工程數(shù)據(jù)源有:配電網(wǎng)工程造價數(shù)據(jù)、架空線路工程數(shù)據(jù)、電纜線路工程數(shù)據(jù)等。這些數(shù)據(jù)都存在著多來源、多維度、冗余等特征,因此需要對所收集到的樣本數(shù)據(jù)做預處理,才能進行數(shù)據(jù)分析及應用。對于收集到的配電工程異構(gòu)數(shù)據(jù),分析其數(shù)據(jù)間的關(guān)聯(lián)性,且輸入預處理后的結(jié)果,即可作為數(shù)據(jù)訓練與迭代的信號源。當采集到配電網(wǎng)工程的各類數(shù)據(jù)時,需對上述數(shù)據(jù)進行降噪處理,同時剔除異常數(shù)據(jù),從而提高數(shù)據(jù)的準確率。假設數(shù)據(jù)總樣本數(shù)為N,其中子樣本數(shù)據(jù)集A、B、C與關(guān)聯(lián)數(shù)據(jù)集Y分別可表示為:
則樣本數(shù)據(jù)i可表示為:
由于配電工程數(shù)據(jù)分類不明確,因此為有效識別工程數(shù)據(jù)的種類,采用了無監(jiān)督學習、聚類分析特征的稀疏自編碼數(shù)據(jù)融合算法。該算法除了可以還原數(shù)據(jù)本質(zhì)、體現(xiàn)無監(jiān)督特征之外,還能主動提取樣本數(shù)據(jù)信息,并根據(jù)數(shù)據(jù)特征將其分為不同的種類,且最終得到數(shù)據(jù)融合結(jié)果。此外與傳統(tǒng)數(shù)據(jù)融合算法不同,該算法的編碼器在損失函數(shù)中增加了稀疏約束(Sparsity Constraint)[13],以限制數(shù)據(jù)的范圍,并增加配網(wǎng)工程數(shù)據(jù)的特征提取能力。稀疏自編碼器數(shù)據(jù)融合算法的流程,如圖3 所示[14-15]。

圖3 稀疏自編碼器數(shù)據(jù)融合算法流程
從圖中可看出,該算法的數(shù)據(jù)分析有三個關(guān)鍵點:1)在對配電工程數(shù)據(jù)重構(gòu)的過程中采用稀疏自編碼器(Sparse AutoEncoder,SAE);2)采用均方損失函數(shù)以及Adam 數(shù)據(jù)優(yōu)化器優(yōu)化處理配電工程數(shù)據(jù),并初始化網(wǎng)絡參數(shù);3)通過K-medoid 算法設置數(shù)據(jù)中心點,再進行反復迭代以找到數(shù)據(jù)分類的基數(shù)。
當采集到配電工程數(shù)據(jù)之后,為確保整體與局部數(shù)據(jù)的一致性及協(xié)調(diào)性,仍需對邊緣數(shù)據(jù)進行自適應增強處理[16]。首先,定義數(shù)據(jù)一致性為:
式中,gout(x,y)、gave(x,y)表示配電工程數(shù)據(jù)在直角坐標系中的輸出值與數(shù)據(jù)局部平均值。
為提高數(shù)據(jù)的真實性,進一步定義數(shù)據(jù)的邊緣值為:
隨后再進行數(shù)據(jù)還原操作,所采用的還原公式為:
其中,Pin、Pout分別表示配電工程數(shù)據(jù)的輸入與輸出分量;而β(x,y)則表示還原系數(shù),其可通過下式計算得到:
式中,δ為偏置量。綜上,經(jīng)過數(shù)據(jù)還原及數(shù)據(jù)一致性計算,通過處理局部與整體數(shù)據(jù)的協(xié)調(diào)性,可對邊緣數(shù)據(jù)進行自適應增強處理。
該算例分析的基礎數(shù)據(jù)主要采集于某地區(qū)2020年1 月1 日—2020 年12 月31 日竣工投產(chǎn)的電力公司,新建或整體改造10 kV 及以下配電網(wǎng)工程(包括配電站房、配電變壓器、架空線路、電纜工程)概算和決算的數(shù)據(jù)。其中,配電站房類工程完全覆蓋;架空線路工程10 kV 路徑長度不小于2 km,0.4 kV 路徑長度不小于1 km;而電纜線路工程的路徑長度則為0.5 km 以上。該地區(qū)2020 年共收集配電工程、架空線路工程及電纜線路工程樣本1 147 項,總計靜態(tài)投資32 650.40 萬元。其中配電工程樣本分類統(tǒng)計情況如表1 所示。

表1 配電工程樣本分類統(tǒng)計情況
配網(wǎng)工程數(shù)據(jù)分析分別從工程樣本情況、造價水平、分項費用、不同項目管理單位造價水平等多源異構(gòu)數(shù)據(jù)融合開展分析研究。收集該地區(qū)2020 年農(nóng)網(wǎng)改造升級工程及高損臺區(qū)治理工程中完成財務決算的項目,并開展投資結(jié)余率研究,以進一步掌握配電網(wǎng)工程造價的規(guī)律。
2020 年配電變臺工程樣本總計624 項,共667 臺(套),靜態(tài)投資4 442.34 萬元。技術(shù)方案分為100、200、400 kVA 及100 kVA 以下小成套共四種類型。配電變臺工程典型技術(shù)方案的分布具體如表2所示。

表2 配電變臺工程典型技術(shù)方案
根據(jù)圖4 所示的配電網(wǎng)工程總體結(jié)余率散點分布情況,將結(jié)余率劃分為四個區(qū)間,并統(tǒng)計配電工程、架空線路工程與電纜線路工程結(jié)余情況。由圖可知,配電網(wǎng)工程結(jié)余率主要分布在0%~10%的范圍內(nèi),總體占比達到69.35%,其次是10%~20%范圍內(nèi),占比達到23.26%,而20%以上的結(jié)余率工程占比為7.08%。

圖4 配電網(wǎng)工程總體結(jié)余率散點分布
進一步地,使用四種方法對該地區(qū)的配電網(wǎng)工程數(shù)據(jù)進行分析。計算不同方法的標準誤差與絕對誤差,統(tǒng)計結(jié)果如表3 所示。從表中可看出,當采用本方法對配網(wǎng)數(shù)據(jù)進行分析時,標準誤差與絕對誤差均有所降低,且更能反映真實值。原因在于,該方法采用了正交多項式作為激勵函數(shù)來實現(xiàn)不同類型數(shù)據(jù)的融合。因此,其更能反映原始數(shù)據(jù)的特征。

表3 四種方法誤差對比
為進一步分析該文方法在不同數(shù)據(jù)量時的計算效率,分別設置了四組實驗,分析當配網(wǎng)數(shù)據(jù)集在5、10、15、20 GB 情形下的處理器運行時間。兩種方法的運行時間,如表4 所示。從表中可看出,隨著配網(wǎng)工程數(shù)據(jù)量的增大,兩種方法所用時長均在增加。但在數(shù)據(jù)量相同時,所述方法用時更短。由此證明了該文方法具有高效的運行速度,故能適用于大容量配網(wǎng)工程數(shù)據(jù)的場景。

表4 兩種方法消耗時間對比
針對配電工程數(shù)據(jù)量較大、維度多、分析與處理困難等問題,該文開展了基于多源異構(gòu)數(shù)據(jù)融合的配電工程數(shù)據(jù)分析方法研究。在數(shù)據(jù)特征提取時,首先利用正交基前向神經(jīng)網(wǎng)絡算法有效提高了特征提取精度;然后,采用稀疏自編碼數(shù)據(jù)融合算法來識別數(shù)據(jù)種類;最終再使用均方損失函數(shù)及Adam 數(shù)據(jù)優(yōu)化器優(yōu)化處理配電工程數(shù)據(jù),并對邊緣數(shù)據(jù)進行自適應增強處理。算例分析表明,該方法可從不同的維度體現(xiàn)配電工程數(shù)據(jù)所反映的問題,能更優(yōu)地體現(xiàn)數(shù)據(jù)的真實值,且運行速度也較快。未來將繼續(xù)推進智能算法在數(shù)據(jù)提取過程中應用的研究,以進一步提升數(shù)據(jù)分析的精度。