王 可 趙瑞鋒 李 波 李世明
配電云平臺的決策級數(shù)據(jù)融合及其并行化
王 可 趙瑞鋒 李 波 李世明
(廣東電網(wǎng)有限責任公司電力調(diào)度控制中心,廣州 510600)
隨著傳感器技術(shù)的不斷發(fā)展,配電主站中包含的傳感器數(shù)量不斷增加,配電云平臺能夠接收海量數(shù)據(jù)。為了提高數(shù)據(jù)的利用率,同時提高云平臺對數(shù)據(jù)的處理效率,本文提出一種關(guān)于配電云平臺的決策級數(shù)據(jù)融合方法及其并行化方案,通過計算傳感器的重要程度判斷傳感器網(wǎng)絡中各傳感器反映某事項的程度,從而決定是否將數(shù)據(jù)實時傳輸?shù)綉脤樱瑫r利用改進的基于權(quán)重的D-S理論在應用層實現(xiàn)進一步的數(shù)據(jù)融合,整個過程利用Spark進行并行化計算。本文提出的數(shù)據(jù)傳輸及融合方法能夠在保證數(shù)據(jù)傳輸完整性的前提下大大提高應用層的決策效率,尤其對于需進行實時判斷的事件,所提方法能夠保證配電云平臺實時高效地做出決策。
數(shù)據(jù)融合;權(quán)重;D-S理論;配電云平臺;Spark并行
近些年來,電力系統(tǒng)不斷發(fā)展,電網(wǎng)規(guī)模不斷擴大,傳感器數(shù)量隨之增加。傳感器收集各類信息為配電云平臺的數(shù)據(jù)分析及決策提供數(shù)據(jù)支持,數(shù)據(jù)集的規(guī)模和復雜性正在迅速增長。
隨著配電物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,相關(guān)技術(shù)與應用不斷更新,“云大物移智”逐漸應用于配電物聯(lián)網(wǎng)。傳統(tǒng)平臺采用主備服務集中式處理模式,而如今配電網(wǎng)點多面廣,除了傳統(tǒng)配電網(wǎng)數(shù)據(jù),低壓數(shù)據(jù)、可再生能源數(shù)據(jù)、冷熱能源數(shù)據(jù)、電動汽車充電數(shù)據(jù)、環(huán)境數(shù)據(jù)等不斷接入,傳統(tǒng)方法在海量終端接入、數(shù)據(jù)處理速度、存儲能力及分析效率等方面存在著明顯的瓶頸[1]。目前,配用電主站系統(tǒng)正轉(zhuǎn)向邊緣計算加云計算的技術(shù)架構(gòu),實現(xiàn)分布感知集中決策的配用電主站云邊體系架構(gòu);除此之外,微服務技術(shù)也開始應用于云平臺,它能夠?qū)梅纸鉃槎鄠€相互獨立的、可以相互連接的微服務[2]。
基于配電云平臺,諸多應用不斷涌現(xiàn)。利用云平臺能夠?qū)崿F(xiàn)數(shù)據(jù)實時監(jiān)控,可以保存視頻監(jiān)控圖像便于后期查看,還能夠?qū)崿F(xiàn)數(shù)據(jù)的可視化及智能處理。通過封裝大數(shù)據(jù)分析、機器學習等算法,運維人員能夠通過簡單的拖拽操作實現(xiàn)相關(guān)的數(shù)據(jù)挖掘功能。廣義的云平臺涉及云、管、邊的各個環(huán)節(jié)。目前為止,關(guān)于配電網(wǎng)的建設,仍存在以下問題:
在實時分析時,傳統(tǒng)智能電網(wǎng)系統(tǒng)[3]通過分析終端向數(shù)據(jù)層發(fā)出請求,數(shù)據(jù)層根據(jù)請求,將全部相關(guān)數(shù)據(jù)通過規(guī)約層層傳遞到數(shù)據(jù)分析層,當數(shù)據(jù)規(guī)模較大時,傳輸速度較慢。實際上,現(xiàn)今配電物聯(lián)網(wǎng)平臺擁有相當數(shù)量的數(shù)據(jù)采集點,這些節(jié)點密集地分布在整個區(qū)域中,在某個小區(qū)域里,不止一個傳感器采集的數(shù)據(jù)能夠反映該區(qū)域的實時情況,若利用傳統(tǒng)方法則會增加傳輸及計算成本,不能全面高效地對數(shù)據(jù)進行實時分析。
在應用層進行數(shù)據(jù)分析時,由于配電云平臺獲取的不再是單一的電力數(shù)據(jù)[4],溫度、風力等多類環(huán)境數(shù)據(jù)也會傳輸?shù)皆破脚_進行保存,在進行數(shù)據(jù)分析時,與待分析問題相關(guān)的數(shù)據(jù)種類增加,若不對這些數(shù)據(jù)進行優(yōu)化而直接進行數(shù)據(jù)分析,則計算量會呈指數(shù)級增長。
針對上述問題,本文提出一種基于配電云平臺的決策級數(shù)據(jù)融合方法及其并行化方案,以減少下沉式計算模型中需實時處理的數(shù)據(jù)及各類數(shù)據(jù)分析任務的數(shù)據(jù)規(guī)模,提高云平臺的決策效率。
配電系統(tǒng)中的多類傳感器組成一個無線傳感器網(wǎng)絡[5],這些傳感器節(jié)點密集部署在整個區(qū)域中,通過無線通信來感知、監(jiān)視和測量特定事件[6]。傳感器節(jié)點可以通過單跳或多跳方法交換其數(shù)據(jù),以將其傳遞到網(wǎng)關(guān)或基站進一步處理。配電系統(tǒng)中形成的無線傳感器網(wǎng)絡通常由單個或者多個協(xié)議控 制[7],以適應網(wǎng)絡的功能和規(guī)格,包括其節(jié)點的部署、網(wǎng)絡環(huán)境、自我配置、能耗和容錯能力[8]。針對無線傳感器網(wǎng)絡的特點,考慮到相距較近的節(jié)點采集的數(shù)據(jù)較相似,為了實現(xiàn)實時數(shù)據(jù)分析,并減少數(shù)據(jù)損失,通過判斷傳感器節(jié)點在傳感器網(wǎng)絡中的重要程度,優(yōu)先傳輸重要數(shù)據(jù),對實時性要求不高的數(shù)據(jù)則在之后傳輸。Kshell[9]、度中心性[10]、接近中心性[11]常被用于尋找復雜網(wǎng)絡中的重要節(jié)點,采用Kshell及接近中心性等方法能夠衡量一個傳感器節(jié)點對于整個拓撲網(wǎng)絡的重要性,而希望得到的是傳感器節(jié)點在其所處的小區(qū)域中的重要性,因此,本文所提方法基于度中心性尋找重要節(jié)點。首先將有代表性的傳感器采集到的數(shù)據(jù)傳輸?shù)綉脤樱捎盟岵呗钥梢跃啍?shù)據(jù),提高傳輸效率,盡可能地減少不必要的開銷及冗余計算,提高系統(tǒng)運行效率。
除此之外,可進一步地在應用層對相關(guān)數(shù)據(jù)進行決策級的數(shù)據(jù)融合。決策融合是一種決策工具[12],決策融合方法能夠合并來自多個傳感器的結(jié)果以提高決策系統(tǒng)的性能。貝葉斯推理[13]、模糊邏輯[14]及D-S證據(jù)理論[15]是許多研究領(lǐng)域中常用的決策融合方法。貝葉斯推理會因規(guī)則的增加或刪除而重新計算所有概率,運算量過大;模糊邏輯雖然運算量適中,但是其通用性較差;D-S證據(jù)理論將每個傳感器輸出視為證據(jù)程度或基本概率分配,然后將多個基本概率分配進行組合,具有更強的通用性。針對不同的問題,不同類型的傳感器提供的數(shù)據(jù)對該類決策的貢獻程度不同,例如定位開關(guān)故障時,電流、電壓及溫度傳感器提供的數(shù)據(jù)更有參考價值。考慮到配電云平臺針對不同問題進行分析的特點,設計一種確定不同類型數(shù)據(jù)權(quán)重的方法,利用基于權(quán)重的D-S證據(jù)理論,實現(xiàn)在配電云平臺的并行決策級數(shù)據(jù)融合,與傳統(tǒng)方法相比,可以充分利用各個數(shù)據(jù)源之間包含的冗余和互補信息,提高系統(tǒng)決策的準確性。
為了進一步提高配電云平臺的數(shù)據(jù)分析效率,本文提出的方法利用Apache Spark進行并行化處理。Spark是一個容錯通用集群計算系統(tǒng)。Spark模型的主要概念是彈性分布式數(shù)據(jù)集(resilient distributed dataset, RDD),R. Kozik等將RDD定義為對象的只讀集合,該對象在集群的各個節(jié)點之間進行分區(qū)和分布[16]。Spark引擎自動并行化進行RDD的相關(guān)操作,這種抽象使程序員不必處理線程、鎖及傳統(tǒng)并行編程中涉及的所有復雜性問題。與Hadoop的MapReduce模型相比,Spark的處理時間更快[17]。本文提出的配電云平臺數(shù)據(jù)分析框架如圖1所示。
在電力系統(tǒng)中,大多數(shù)區(qū)域會設置多個傳感器,地理位置相近的同種類型傳感器傳遞的數(shù)據(jù)具有很大的相似度,如果都進行實時傳輸會造成數(shù)據(jù)冗余,也會增加無線傳感器網(wǎng)絡的數(shù)據(jù)傳輸壓力。考慮到在無線傳感器網(wǎng)絡中,每個傳感器都是網(wǎng)絡中的一個節(jié)點,與其周圍節(jié)點聯(lián)系更加緊密的節(jié)點所采集的數(shù)據(jù)能夠大致反映該區(qū)域的實時情況,因此,通過計算節(jié)點的重要程度來選擇需實時傳遞的傳感器數(shù)據(jù)。節(jié)點選擇及數(shù)據(jù)傳輸規(guī)則如下。

圖1 配電云平臺數(shù)據(jù)分析框架
1)在無線傳感器網(wǎng)絡中,每個傳感器可視為一個節(jié)點,根據(jù)路由策略,能夠形成傳感器網(wǎng)絡G,根據(jù)傳感器類型對網(wǎng)絡G中的每個節(jié)點進行編號,如低壓配電區(qū)數(shù)據(jù)的標簽設為1,環(huán)境數(shù)據(jù)(如溫度、風力大小等)的標簽為2,以此類推,形成傳感器網(wǎng)絡G的節(jié)點標簽集合。
2)對于每個傳感器節(jié)點,標簽和它相同的相鄰節(jié)點對它貢獻度的權(quán)重為1,標簽和它不同的相鄰節(jié)點對它貢獻度的權(quán)重為0.5。
3)由于考慮的不是節(jié)點的全局重要性,而是它在所處區(qū)域內(nèi)的重要程度,因此,利用節(jié)點的度中心性來衡量,即

式中:I、I分別為節(jié)點、的度中心性,即重要程度;l、l分別為節(jié)點、的標簽;d為節(jié)點與之間的物理距離。
4)計算出節(jié)點的重要程度后,選擇需要優(yōu)先傳輸數(shù)據(jù)的節(jié)點。對于每個標簽l所包含的節(jié)點按照重要程度進行排序,首先選擇第一個節(jié)點即重要程度最高的節(jié)點,然后刪除它的一跳相鄰節(jié)點中所有的標簽為l且距離小于閾值的相鄰節(jié)點,以此類推,直到所有節(jié)點都被遍歷一遍。
5)刪除的節(jié)點減緩向簇首傳輸數(shù)據(jù)的速度,即不立即向簇中心傳遞數(shù)據(jù),實現(xiàn)方法是設置不同節(jié)點傳輸數(shù)據(jù)到簇首的時間,由簇首控制。
1)基本原理
本文改進的基于權(quán)重的D-S證據(jù)理論[18]步驟如下:
(2)根據(jù)需要處理的事項獲取信度函數(shù)(F),(F)為屬于F的信度函數(shù)。由于處理不同事項形成的識別框架和信度函數(shù)不同,這里討論的是數(shù)據(jù)融合的通用性框架,信度函數(shù)公式需根據(jù)處理事項具體判斷,此處不討論。
(3)合成規(guī)則加權(quán)為

其中有
式中:F、F、F分別表示事項、、;m(F)表示第類傳感器數(shù)據(jù)關(guān)于F的信度函數(shù)值;的計算在下文中討論。
2)加權(quán)(即確定k的值)
結(jié)合上一步獲得的節(jié)點重要程度,針對每個傳感器所傳輸數(shù)據(jù)的重要程度,為每個傳感器數(shù)據(jù)賦予權(quán)重。配電云平臺中保存了多種數(shù)據(jù),除了電壓、電流等電力系統(tǒng)相關(guān)數(shù)據(jù),還有溫度、風力等多類環(huán)境數(shù)據(jù)。在解決不同問題時,不同數(shù)據(jù)的重要程度不同。例如,分析饋線故障原因時,環(huán)境情況(如風力)、電力系統(tǒng)中饋線相關(guān)的數(shù)據(jù)(如電壓數(shù)據(jù))在此數(shù)據(jù)分析任務中起較重要的作用,此時應給予這些數(shù)據(jù)更高的權(quán)重。因此,通過考慮傳感器的重要程度和先驗相關(guān)系數(shù)來求該權(quán)重。重要程度的計算如前文所述,本文利用層次分析法計算先驗相關(guān)系數(shù),即引入經(jīng)驗值。
(1)首先需要確定決定不同傳感器與待分析問題相關(guān)程度的判斷準則,此處選擇距離、參數(shù)相關(guān)性作為判斷準則,根據(jù)要分析的問題,該因素可由決策者(專家)根據(jù)經(jīng)驗進行判斷。然后構(gòu)造判斷矩陣,其元素a的確定采用Santy的1-9標度法[19],見表1,專家根據(jù)經(jīng)驗確定a的值。

表1 aij的確定
求出判斷矩陣的最大特征值對應的特征向量,該特征向量就是該類數(shù)據(jù)通過迭代最終得到每類數(shù)據(jù)的權(quán)重。
(2)由傳感器重要程度及通過層次分析法獲得的傳感器先驗相關(guān)系數(shù),可以獲得用于規(guī)則合成的最終權(quán)重值,即


Spark遵循主從模型,通過集群管理器(主機master)驅(qū)動程序能夠訪問集群。驅(qū)動程序通過將任務分配給執(zhí)行程序來協(xié)調(diào)用戶應用程序的執(zhí)行,執(zhí)行程序是在工作節(jié)點(從站slaves)中運行的。默認情況下,每個工作節(jié)點僅運行一個執(zhí)行程序。關(guān)于數(shù)據(jù),RDD分區(qū)分布在工作節(jié)點上,驅(qū)動程序為每個執(zhí)行程序啟動的任務數(shù)取決于駐留在工作程序中的RDD的分區(qū)數(shù)。本文中把無線傳感器網(wǎng)絡看成一個拓撲,利用Spark的GraphX計算引擎進行一系列的并行計算[20]。并行化總體框架如圖2所示。
首先是衡量每個傳感器的重要程度,同時得到傳感器的合成規(guī)則加權(quán)值,為后續(xù)決策級數(shù)據(jù)融合提供數(shù)據(jù)支持,流程如圖3所示。
GraphX提供的degree算子能夠獲取相鄰節(jié)點的信息,利用式(1)計算傳感器的重要程度獲得ImpRDD。同時,結(jié)合Santy標度法,能夠得到合成規(guī)則權(quán)重KRDD。

圖2 并行化總體框架

圖3 衡量傳感器重要程度的流程
具體來說,在每個工作節(jié)點上,通過degree算子可以得到傳感器在該節(jié)點的相鄰節(jié)點的信息,然后通過工作節(jié)點間的通信,reduceByKey算子能夠根據(jù)傳感器ID獲得該傳感器所有的相鄰節(jié)點信息,即整合多個傳感器相鄰節(jié)點信息CRDD并結(jié)合式(1)得到每個傳感器的重要程度ImpRDD。根據(jù)第2節(jié)中提出的重要傳感器選擇策略,每次選擇一個需要進行實時數(shù)據(jù)傳輸?shù)膫鞲衅鞴?jié)點后,利用subgraph算子去掉標簽相同的相鄰節(jié)點,得到一個子圖,然后重復上述操作,直到每個傳感器的優(yōu)先性SRDD都獲得value值,value為1表示該傳感器的數(shù)據(jù)優(yōu)先傳輸,value為0則表示該傳感器數(shù)據(jù)在進行實時數(shù)據(jù)分析時不立即傳輸?shù)綉脤樱瑐鞲衅髦匾耘袛嗔鞒倘鐖D4所示。
當數(shù)據(jù)傳輸?shù)綉脤訒r,利用改進的基于權(quán)重的D-S證據(jù)理論可以進行決策級的數(shù)據(jù)融合,在每個集群(工作節(jié)點)上,通過式(2)計算中間信度函數(shù)FRDD,通過節(jié)點間的通信及reduceByKey算子,最終可以得到每個故障對應的信度函數(shù)KMRDD,決策級數(shù)據(jù)融合并行化流程如圖5所示。

圖4 傳感器重要性判斷流程

圖5 決策級數(shù)據(jù)融合并行化流程
本文介紹了一種基于配電云平臺的數(shù)據(jù)融合方法及其并行化框架,提出了一種計算節(jié)點重要程度的方法,首先將傳感器網(wǎng)絡中有代表性的數(shù)據(jù)傳輸?shù)綉脤樱缓罄酶倪M的D-S證據(jù)理論進一步對數(shù)據(jù)進行決策融合。考慮到配電云平臺針對不同問題分析的特點,設計了一種不同類型數(shù)據(jù)權(quán)重的確定方法,并利用Spark進行并行計算,在配電云平臺實現(xiàn)了并行決策級數(shù)據(jù)融合。
與傳統(tǒng)方法相比,所提方法可以充分利用各個數(shù)據(jù)源之間的冗余和互補信息的優(yōu)點,提高系統(tǒng)決策的準確性,能夠識別近60%的冗余數(shù)據(jù),分析速度提高了將近40%,大大提高了數(shù)據(jù)分析的效率。
[1] 李勛, 周偉. 依托關(guān)聯(lián)規(guī)則挖掘的電力生產(chǎn)安全事故致因攫取[J]. 電氣技術(shù), 2020, 21(2): 86-90, 118.
[2] 耿貞偉, 蘇文偉. 對微服務架構(gòu)的電力云服務平臺研究[J]. 微型電腦應用, 2019, 35(2): 80-82.
[3] 汪東平. 基于無線傳感網(wǎng)的智能電網(wǎng)故障監(jiān)控系統(tǒng)設計與實現(xiàn)[J]. 自動化與儀器儀表, 2019(5): 63-67.
[4] 陳汝斯, 林濤, 畢如玉, 等. 基于有限量測數(shù)據(jù)的主動配電網(wǎng)電壓暫降源精確定位策略[J]. 電工技術(shù)學報, 2019, 34(增刊1): 312-320.
[5] 葉永市, 林瑞全, 龔林發(fā). 基于多傳感器的電纜絕緣監(jiān)測[J]. 電氣技術(shù), 2020, 21(3): 91-96.
[6] 王晨宇, 汪定, 王菲菲, 等. 面向多網(wǎng)關(guān)的無線傳感器網(wǎng)絡多因素認證協(xié)議[J]. 計算機學報, 2020, 43(4): 683-700.
[7] 吳戈, 紀鵬菲, 張錚, 等. 基于異步調(diào)度的低延時無線傳感器網(wǎng)絡MAC協(xié)議[J]. 傳感器與微系統(tǒng), 2019, 38(6): 19-22.
[8] ZHAO Mingbo, TIAN Zhaoyang, CHOW T W S. Fault diagnosis on wireless sensor network using the neighborhood kernel density estimation[J]. Neural Computing and Applications, 2019, 31(8): 4019-4030.
[9] 李昌超, 康忠健, 于洪國, 等. 考慮電力業(yè)務重要性的電力通信網(wǎng)關(guān)鍵節(jié)點識別[J]. 電工技術(shù)學報, 2019, 34(11): 2384-2394.
[10] WANG Yu, GUO Jinli, LIU Han, et al. A new evaluation method of node importance in directed weighted complex networks[J]. Journal of Systems Science and Information, 2017, 5(4): 367-375.
[11] ZHANG Yao, PRAKASH B A. Data-aware vaccine allocation over large networks[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2015, 10(2): 1-32.
[12] 袁曉光, 楊萬海, 史林. 動態(tài)大規(guī)模無線傳感器網(wǎng)絡決策融合[J]. 電子與信息學報, 2010, 32(12): 2976-2980.
[13] 翟社平, 郭琳, 高山, 等. 一種采用貝葉斯推理的知識圖譜補全方法[J]. 小型微型計算機系統(tǒng), 2018, 39(5): 995-999.
[14] 章思青, 陶洋, 代建建, 等. 基于模糊邏輯的多跳WSNs分簇算法[J]. 傳感技術(shù)學報, 2018, 31(7): 1085-1090.
[15] 李捷, 楊雪洲, 周亮. 基于改進DS理論多周期數(shù)據(jù)融合的目標識別方法[J]. 火力與指揮控制, 2019, 44(7): 43-48.
[16] KOZIK R. Distributing extreme learning machines with apache spark for net flow-based malware activity detection[J]. Pattern Recognition Letters, 2018, 101: 14-20.
[17] 肖文, 胡娟, 周曉峰. 基于MapReduce計算模型的并行關(guān)聯(lián)規(guī)則挖掘算法研究綜述[J]. 計算機應用研究, 2018, 35(1): 13-23.
[18] 陳杰. 基于DS證據(jù)理論的決策融合算法研究[D]. 哈爾濱: 哈爾濱工程大學, 2016.
[19] 張鼎衢, 林國營, 宋強, 等. 基于灰色理論及模糊層次分析法的電能計量裝置狀態(tài)評估[J]. 電測與儀表, 2019, 56(11): 134-139, 152.
[20] 時生樂, 趙宇海, 李源, 等. 一種有效的基于GraphX的分布式結(jié)構(gòu)化圖聚類算法[J]. 計算機科學與探索, 2017, 12(10): 1571-1582.
Decision level data fusion and parallelization of power distribution cloud platform
WANG Ke ZHAO Ruifeng LI Bo LI Shiming
(Electric Power Dispatching and Control Center of Guangdong Power Grid Co., Ltd, Guangzhou 510600)
With the continuous development of sensor technology, the number of sensors included in the power distribution master station is increasing. The power distribution cloud platform can receive massive amounts of data. In order to improve the utilization rate of data and speed up data processing in the cloud platform, this paper proposes a decision-level data fusion method on the distribution cloud platform and its parallelization scheme. By calculating the influence of the sensors, it is possible to determine the degree that each sensor in the sensor network reflects a certain item, thereby deciding whether to transmit the data to the application layer in real time. At the same time, the improved weight-based D-S theory is used for further data fusion at the application layer, and the entire process uses Spark for parallel computing. On the premise of ensuring the integrity of data transmission, the data transmission and fusion method proposed in this paper can greatly improve the decision-making efficiency of the application layer. Especially for events that require real-time judgment, this method can enable the distribution cloud platform to make decisions in real time and efficiently.
data fusion; weight; D-S theory; power distribution cloud platform; parallel (Spark)
廣東電網(wǎng)有限責任公司科技項目(036000KK52180021)
2020-10-09
2020-11-18
王 可(1989—),男,碩士,工程師,主要研究方向為電力系統(tǒng)自動化、電力系統(tǒng)大數(shù)據(jù)。