黃純德 陳曉亮 朱珊珊 王晶華 郭光
摘要:隨著智能電網(wǎng)的不斷優(yōu)化擴(kuò)展及數(shù)據(jù)集的沉淀,海量大數(shù)據(jù)因?yàn)閿?shù)據(jù)量太大、維數(shù)太高而陷入了“維數(shù)災(zāi)難”中,在工程實(shí)踐中難以對其進(jìn)行有效的研究。提出了運(yùn)用拉普拉斯特征映射(Laplacian Eigenmaps)對電網(wǎng)大數(shù)據(jù)進(jìn)行自適應(yīng)學(xué)習(xí)并降維,運(yùn)用降維后的數(shù)據(jù)在Hadoop平臺上進(jìn)行實(shí)驗(yàn)分析,證明其能有效地應(yīng)用于智能電網(wǎng)大數(shù)據(jù)的降維運(yùn)算。
關(guān)鍵詞:智能電網(wǎng)大數(shù)據(jù);機(jī)器學(xué)習(xí);拉普拉斯特征映射;數(shù)據(jù)降維
中圖分類號:TP30文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2018)18-69-3
Big Data Dimensionality Reduction Method for Grid Based on Machine Learning
HUANG Chunde1, CHEN Xiaoliang2, ZHU Shanshan2, WANG JingHua2, GUO Guang3(1. Shanxi Electric Power Research Institute, Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 2. Shanxi Electric Power Company of State Grid, TaiYuan Shanxi 030001, China; 3. Beijing Zhongke Chuangyi Technology Co., Ltd., BeiJing 100198, China)
0引言
智能電網(wǎng)在電力網(wǎng)絡(luò)運(yùn)行、用電信息收集、儀器儀表狀態(tài)檢測及計(jì)費(fèi)營銷記錄系統(tǒng)等多個(gè)方面會產(chǎn)生大量的數(shù)據(jù),有效地從這些數(shù)據(jù)中挖掘有價(jià)值的信息具有重要的意義。雖然這些海量大數(shù)據(jù)中包含了智能電網(wǎng)運(yùn)行的重要信息,但是卻因?yàn)閿?shù)據(jù)量太大、維數(shù)太大而陷入了“維數(shù)災(zāi)難”中,在工程實(shí)踐中難以對其進(jìn)行有效的研究。周國亮等人[1-2]針對輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)價(jià)值密度低的特點(diǎn),利用分形理論對監(jiān)測數(shù)據(jù)做降維處理,對提高設(shè)備的狀態(tài)評估及故障診斷水平具有一定的輔助作用。趙慶周等人[3]根據(jù)網(wǎng)絡(luò)關(guān)聯(lián)矩陣以及區(qū)域差分規(guī)則,對各節(jié)點(diǎn)測控一體化終端采集的電流、功率數(shù)據(jù)進(jìn)行預(yù)處理,生成高維時(shí)空狀態(tài)監(jiān)測矩陣來分析智能電網(wǎng)的運(yùn)行狀態(tài)。這些方法對智能電網(wǎng)大數(shù)據(jù)預(yù)處理有一定的效果,但是其前期需要做大量的準(zhǔn)備和篩選工作,不利于工程實(shí)踐的應(yīng)用。因此,本文提出一種基于機(jī)器學(xué)習(xí)的智能電網(wǎng)大數(shù)據(jù)預(yù)處理方法,能有效地實(shí)現(xiàn)對智能電網(wǎng)的海量大數(shù)據(jù)進(jìn)行降維處理。
1智能電網(wǎng)大數(shù)據(jù)
大數(shù)據(jù)處理是指運(yùn)用各類數(shù)學(xué)分析理論和方法,對各類軟硬件系統(tǒng)中的數(shù)據(jù)集合進(jìn)行感知、獲取、管理、處理和分析的過程。從電力企業(yè)的角度對從智能電網(wǎng)中采集到的海量大數(shù)據(jù)按照數(shù)據(jù)來源進(jìn)行劃分,可以分成企業(yè)內(nèi)部數(shù)據(jù)和企業(yè)外部數(shù)據(jù)2類:①內(nèi)部數(shù)據(jù):大多來自于電網(wǎng)的技術(shù)及應(yīng)用系統(tǒng),主要包含電力生產(chǎn)及管理系統(tǒng)、電網(wǎng)數(shù)據(jù)獲取及監(jiān)控系統(tǒng)、配電輸電控制系統(tǒng)及客戶信息和服務(wù)系統(tǒng)等;②企業(yè)外部數(shù)據(jù)則比較分散,數(shù)據(jù)的形式及管理單位也不統(tǒng)一,其主要來自于地理信息系統(tǒng)、氣象信息系統(tǒng)以及互聯(lián)網(wǎng)等。智能電網(wǎng)大數(shù)據(jù)具有數(shù)據(jù)形式多樣、數(shù)據(jù)來源廣泛等特性,并且半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)數(shù)量也在一直增加。
智能電網(wǎng)的大數(shù)據(jù)主要有以下4個(gè)特點(diǎn)[4],如圖1所示。①來源多重性:數(shù)據(jù)源是多種多樣的,且大小不一的系統(tǒng)并存;②空間分布性:數(shù)據(jù)源在空間中的分布各不相同,從家庭智能電表,到各級變壓器及變電站等,無處不在;③時(shí)間多尺度性:數(shù)據(jù)時(shí)間跨度大,差別很大;④實(shí)時(shí)交互性:SCADA數(shù)據(jù)、智能電表數(shù)據(jù)及PMU數(shù)據(jù)等可以實(shí)時(shí)反應(yīng)電網(wǎng)的運(yùn)行狀態(tài)。
2拉普拉斯特征映射數(shù)據(jù)降維
從智能電網(wǎng)中采集到的高維樣本數(shù)據(jù)(維)實(shí)際上是在一個(gè)低維流形中(維,≤)并且該流形結(jié)構(gòu)保留了原始數(shù)據(jù)的幾何特征,而為樣本數(shù)據(jù)的本征維數(shù)。作為有效的機(jī)器學(xué)習(xí)大數(shù)據(jù)降維方法,拉普拉斯特征映射是一種從局部的角度去構(gòu)建數(shù)據(jù)間關(guān)系的非線性降維方法[5],其思想是計(jì)算和尋找出相互間有關(guān)系的點(diǎn)在降維后的低維空間中盡可能地靠近,并能保留高維數(shù)據(jù)中的有用信息,反映出數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。


3實(shí)驗(yàn)分析
Laplacian Eigenmaps電網(wǎng)大數(shù)據(jù)降維算法將采用Java語言進(jìn)行編碼,在Hadoop平臺中進(jìn)行實(shí)驗(yàn)驗(yàn)證。Hadoop[6]是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),其采用Master/Slave模式,其中一個(gè)Master節(jié)點(diǎn)統(tǒng)一管理一個(gè)或多個(gè)Slaves節(jié)點(diǎn),實(shí)驗(yàn)中采用Hadoop2.2.0版系統(tǒng)。
將采用2類數(shù)據(jù)對Laplacian Eigenmaps算法的性能進(jìn)行分析,這2類數(shù)據(jù)來自西南某地區(qū)智能電網(wǎng),其中,變壓器故障檢測數(shù)據(jù)Data1包括7個(gè)條件屬性和1個(gè)決策屬性,而智能變電站通信網(wǎng)絡(luò)實(shí)時(shí)性和可靠性預(yù)測數(shù)據(jù)Data2包括9個(gè)條件屬性和1個(gè)決策屬性,其數(shù)據(jù)集容量均為15 GB。對這2類數(shù)據(jù)集的條件屬性進(jìn)行降維約簡,來比較不同屬性情況下Laplacian Eigenmaps算法的降維效率,然后針對加速比把該算法與常用并行降維算法進(jìn)行性能比較分析。如表1所示,從時(shí)間復(fù)雜度、空間復(fù)雜度及算法準(zhǔn)確性3個(gè)方面分析了Laplacian Eigenmaps算法與常用并行降維算法的性能優(yōu)劣。為了進(jìn)一步證明本文方法的有效性,又從約簡效率和加速比這2個(gè)方面比較了本文方法與主流降維方法的性能,其結(jié)果如表2所示。

如圖3所示,Data1為15 GB的變壓器故障檢測數(shù)據(jù),Data2為15 GB的變電站通信網(wǎng)絡(luò)實(shí)時(shí)性和可靠性預(yù)測數(shù)據(jù),該圖表示這2類數(shù)據(jù)運(yùn)用Laplacian Eigenmaps算法的降維效率。從圖中可以發(fā)現(xiàn),數(shù)據(jù)Data2降維所用的時(shí)間略多于Data1,這是由于Data2包含了9個(gè)條件屬性和1個(gè)決策屬性,多于Data1的7個(gè)條件屬性和1個(gè)決策屬性。
算法的降維約簡效率會隨著其并行化程度的升高而增加,為了驗(yàn)證Laplacian Eigenmaps算法的約簡效率,利用15 GB的變壓器故障檢測數(shù)據(jù),對搭建的Hadoop平臺分別選取節(jié)點(diǎn)數(shù)為5,10和15進(jìn)行等規(guī)模數(shù)據(jù)集的時(shí)效對比實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如圖4所示,可以看出,在數(shù)據(jù)規(guī)模不變的情況下,當(dāng)節(jié)點(diǎn)數(shù)不斷地增加,Laplacian Eigenmaps算法的約簡效率也會相應(yīng)地提升。

4結(jié)束語
提出了一種基于機(jī)器學(xué)習(xí)的智能電網(wǎng)大數(shù)據(jù)預(yù)處理方法,用Laplacian Eigenmaps來對電網(wǎng)大數(shù)據(jù)進(jìn)行自適應(yīng)學(xué)習(xí)并降維,然后運(yùn)用降維后的數(shù)據(jù)來進(jìn)行分析,在Hadoop平臺上進(jìn)行了實(shí)驗(yàn)分析,結(jié)果證明Laplacian Eigenmaps算法能有效地應(yīng)用于智能電網(wǎng)大數(shù)據(jù)的降維運(yùn)算,提高了數(shù)據(jù)挖掘水平,具有非常廣闊的應(yīng)用前景。
參考文獻(xiàn)
[1]周國亮,宋亞奇,王桂蘭,等.狀態(tài)監(jiān)測大數(shù)據(jù)存儲及聚類劃分研究[J].電工技術(shù)學(xué)報(bào),2013,28(S2):337-344.
[2]李澤文,鄧拓夫,曾祥君,等.智能電網(wǎng)能量流的時(shí)空多尺度大數(shù)據(jù)探討[J].電力科學(xué)與技術(shù)學(xué)報(bào),2015,30(1):22-27.
[3]趙慶周,李勇,田世明,等.基于智能配電網(wǎng)大數(shù)據(jù)分析的狀態(tài)監(jiān)測與故障處理方法[J].電網(wǎng)技術(shù),2016,40(3):774-780.
[4]劉廣一,朱文東,陳金祥,等.智能電網(wǎng)大數(shù)據(jù)的特點(diǎn)、應(yīng)用場景與分析平臺[J].南方電網(wǎng)技術(shù),2016,10(5):102-110.
[5] Belkin M,Niyogi P.Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[J]. Advances In Neural Information Processing Systems,2002,14(9):585-591.
[6]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(S1):12-18.