陳思羽, 張雁, 王志強(qiáng)
(國(guó)網(wǎng)陜西省電力公司信息通信公司,陜西 西安 710048)
隨著通信技術(shù)水平的不斷提高,以國(guó)家電網(wǎng)通信信息管理系統(tǒng)(TMS)為基礎(chǔ)的通信信息化平臺(tái)的功能也在不斷增加,但是在電源管理方面依舊是空白,只能進(jìn)行基本的臺(tái)賬信息錄入,無(wú)法實(shí)現(xiàn)電源數(shù)據(jù)的動(dòng)態(tài)管理和數(shù)據(jù)交互,為此提出一種電源數(shù)據(jù)的分類方法,為實(shí)現(xiàn)電源數(shù)據(jù)的信息化管理提供支持。
在現(xiàn)有的研究中,文獻(xiàn)[1]提出了一種不均衡數(shù)據(jù)分類算法,雖然能夠提高對(duì)少數(shù)類樣本的分類準(zhǔn)確率,但是并不適用于電源數(shù)據(jù)處理。文獻(xiàn)[2]提出了一種基于自適應(yīng)隨機(jī)森林的數(shù)據(jù)流分類算法,雖然能夠提高平衡數(shù)據(jù)流分類的效率,但是無(wú)法推廣到非平衡數(shù)據(jù)流中。
本文基于以上內(nèi)容,根據(jù)電網(wǎng)通信系統(tǒng)中電源數(shù)據(jù)的特性和通信管理系統(tǒng),對(duì)電網(wǎng)電源信息數(shù)據(jù)管理系統(tǒng)進(jìn)行設(shè)計(jì),提出一種改進(jìn)樸素貝葉斯分類算法,對(duì)電源信息數(shù)據(jù)處理提供支持。
在電網(wǎng)通信管理系統(tǒng)中,通信電源的數(shù)據(jù)信息管理處于探索期,還沒有一個(gè)規(guī)范的標(biāo)準(zhǔn),通信電源的信息也只有靜態(tài)臺(tái)賬數(shù)據(jù),無(wú)法對(duì)現(xiàn)有的業(yè)務(wù)提供支持[3]。為此結(jié)合計(jì)算機(jī)技術(shù)對(duì)通信電源數(shù)據(jù)管理系統(tǒng)進(jìn)行設(shè)計(jì),如圖1所示。

圖1 通信電源管理系統(tǒng)
為了更好地表現(xiàn)系統(tǒng)結(jié)構(gòu),將系統(tǒng)分為3個(gè)層次,分別是應(yīng)用層、平臺(tái)層和采集層[4]。
采集層主要負(fù)責(zé)數(shù)據(jù)的采集,數(shù)據(jù)的采集主要依靠數(shù)據(jù)采集單元來(lái)實(shí)現(xiàn),數(shù)據(jù)采集完成后,通過(guò)數(shù)據(jù)接口向上層傳遞[5]。除此之外,還有動(dòng)力環(huán)境為數(shù)據(jù)采集提供動(dòng)力支持。采集層處理數(shù)據(jù)采集設(shè)備單元之外,還有各種網(wǎng)元和設(shè)備網(wǎng)管,管理數(shù)據(jù)傳輸?shù)脑O(shè)備。實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)闹悄芑芾怼P枰赋龅氖牵捎谑褂玫牟杉O(shè)備來(lái)自不同的廠家,導(dǎo)致向上層傳輸?shù)慕涌诜N類過(guò)多,同時(shí)數(shù)據(jù)傳輸?shù)姆N類也會(huì)很多[6]。
平臺(tái)層主要負(fù)責(zé)數(shù)據(jù)的存儲(chǔ),將采集到的各種類型的數(shù)據(jù)進(jìn)行處理以及存儲(chǔ),云存儲(chǔ)隨著不斷發(fā)展已經(jīng)被廣泛地應(yīng)用到各個(gè)領(lǐng)域[7]。云存儲(chǔ)最大的優(yōu)勢(shì)在于可以使用少數(shù)的硬件存儲(chǔ)設(shè)備來(lái)獲得幾十倍甚至幾百倍的云存儲(chǔ)空間。本文的數(shù)據(jù)存儲(chǔ)方式也使用云存儲(chǔ),既保證了數(shù)據(jù)的安全性,又減少了系統(tǒng)成本[8]。
數(shù)據(jù)應(yīng)用層主要是對(duì)數(shù)據(jù)的應(yīng)用,主要包括數(shù)據(jù)的實(shí)時(shí)監(jiān)控,通信資源分配以及通信系統(tǒng)的運(yùn)行管理,數(shù)據(jù)最終會(huì)傳輸?shù)綉?yīng)用終端上,根據(jù)數(shù)據(jù)的信息來(lái)判斷系統(tǒng)的運(yùn)行情況。
系統(tǒng)的數(shù)據(jù)采集單元部署在電網(wǎng)通信網(wǎng)絡(luò)中的通信電源附近,設(shè)定采集頻率進(jìn)行固定采集,同時(shí)為了防止采集數(shù)據(jù)缺失和缺少,還需要進(jìn)行不固定補(bǔ)采。
系統(tǒng)的對(duì)外接口主要負(fù)責(zé)與外部系統(tǒng)之間的信息交互,外部系統(tǒng)主要包括本級(jí)電網(wǎng)公司的SG-OSS系統(tǒng)和GIS系統(tǒng)等。
系統(tǒng)的接口決定著數(shù)據(jù)信息的交互方式和傳輸方式,系統(tǒng)可以通過(guò)對(duì)接口協(xié)議的統(tǒng)一化管理來(lái)實(shí)現(xiàn)數(shù)據(jù)交互的標(biāo)準(zhǔn)化。
C4.5決策樹分類算法過(guò)程如下。
(1) 假設(shè)通信管理系統(tǒng)中數(shù)據(jù)集S內(nèi)有Si個(gè)分類模塊,i={1,2,…,n},設(shè)置m個(gè)屬性標(biāo)簽,定義Ti為每個(gè)屬性標(biāo)簽集合,i={1,2,…,n}。假設(shè)Si是Ti類中的數(shù)據(jù)樣本,對(duì)于一個(gè)固定樣本分類所需要的期望值為:
(1)
(2) 屬性A對(duì)數(shù)據(jù)進(jìn)行劃分的子集信息量為:
(2)
(3) 求信息增益,計(jì)算方法為原來(lái)的信息需求減去現(xiàn)在的信息需求:
Gain(A)=Info(S)-E(A)
(3)
(4) 屬性A的信息增益率:
(4)
(5)
C4.5算法的主要過(guò)程是對(duì)生成的決策樹進(jìn)行剪枝操作,不斷地完善決策樹模型,對(duì)后續(xù)的數(shù)據(jù)分類提供支持。
樸素貝葉斯分類算法的核心思想是計(jì)算樣本數(shù)據(jù)中屬于每個(gè)類別的概率,然后根據(jù)概率的大小來(lái)確定樣本數(shù)據(jù)的最終分類,即概率最大的類別為最終分類,主要過(guò)程如下。
(1) 提取數(shù)據(jù)樣本的特征向量,用集合x表示,x={x1,x2,…,xn},其中每一個(gè)xi都代表一個(gè)數(shù)據(jù)特征。
(2) 經(jīng)過(guò)C4.5決策樹的特征分類后有類別y={y1,y2,…,yn}。
(3) 計(jì)算樣本數(shù)據(jù)屬于每種類別的概率:P(y1|x),P(y2|x),…,P(yn|x)。
(4) 根據(jù)概率大小判斷數(shù)據(jù)的最終類別:P(yk|x)=max{P(y1|x),…,P(yn|x)},就確認(rèn)為數(shù)據(jù)類別。
基于以上描述,本研究提出的新型分類算法步驟為:
(1) 提取樣本數(shù)據(jù)的特征向量。
(2) 采用C4.5決策樹算法進(jìn)行分類。
(3) 根據(jù)決策樹模型計(jì)算權(quán)重。
(4) 根據(jù)權(quán)重采用貝葉斯分類器分類。
(5) 得到分類結(jié)果。
樸素貝葉斯分類算法認(rèn)為數(shù)據(jù)屬性之間沒有任何關(guān)聯(lián),是相互獨(dú)立的,但是數(shù)據(jù)的屬性或多或少都會(huì)有關(guān)聯(lián),通過(guò)C4.5決策樹的訓(xùn)練模型來(lái)計(jì)算屬性權(quán)重能夠讓分類結(jié)果更準(zhǔn)確,最終的樸素貝葉斯分類的計(jì)算公式為:
P(yk|x)=max{P(y1|x)·w1,…,P(yn|x)·wn}
(6)
w1+w2+…+wn=1
(7)
權(quán)重的具體數(shù)值則需要根據(jù)數(shù)據(jù)的具體屬性分類個(gè)數(shù)決策樹模型來(lái)確定,可以通過(guò)反推來(lái)確定權(quán)重?cái)?shù)值,即用已知屬性的數(shù)據(jù)代入模型來(lái)確定權(quán)重。
上述系統(tǒng)中數(shù)據(jù)通過(guò)縱向橫向接口來(lái)進(jìn)行數(shù)據(jù)的傳遞,但是由于下層設(shè)備的廠家過(guò)多,導(dǎo)致接口種類也過(guò)多,這樣的后果就是傳輸?shù)臄?shù)據(jù)的類型過(guò)多,不利于后續(xù)的信息處理。因此需要對(duì)上述的數(shù)據(jù)采集方案進(jìn)行改造。
本文采用的數(shù)據(jù)采集方案用到的硬件配置為Xilinx XC7A200T型號(hào)的邏輯處理芯片、FPGA驅(qū)動(dòng)和ADC HMCAD1520芯片。
工作原理為:輸入采集到信息的模擬信號(hào),Xilinx XC7A200T芯片可以將模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)并傳送到FPGA驅(qū)動(dòng)上,F(xiàn)PGA會(huì)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理,這樣采集到的數(shù)據(jù)信息就會(huì)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),選用Xilinx XC7A200T芯片的原因在于其內(nèi)部有寄存器,可以用于配置功能參數(shù),同時(shí)為了保證接口的統(tǒng)一性。本文在FPGA的設(shè)計(jì)過(guò)程中添加了SPI接口的自動(dòng)配置模塊,主要是實(shí)現(xiàn)HMCAD1520芯片的初始化參數(shù)自動(dòng)配置,配置根據(jù)采集需求來(lái)定。
為了提高數(shù)據(jù)傳輸?shù)娜萘恳约八俣龋贔PGA中設(shè)計(jì)一個(gè)高速接口模塊,并利用數(shù)據(jù)時(shí)鐘來(lái)實(shí)現(xiàn)同步校準(zhǔn),方案的實(shí)施框架如圖2所示。
該模塊是以Xilinx內(nèi)部自帶的DDR和信號(hào)延時(shí)調(diào)節(jié)IP原語(yǔ)為基礎(chǔ)設(shè)計(jì)的,同步模塊的作用是校準(zhǔn)時(shí)鐘和數(shù)據(jù)的建立時(shí)間以及保持時(shí)間,這樣可以保證數(shù)據(jù)采集的準(zhǔn)確有效,完成數(shù)據(jù)的高質(zhì)量、高速度和高穩(wěn)定性采集,為后續(xù)的數(shù)據(jù)處理提供幫助。

圖2 方案實(shí)施框架
采用MATLAB仿真軟件對(duì)上述的改進(jìn)樸素貝葉斯分類算法進(jìn)行驗(yàn)證和性能分析,其中計(jì)算機(jī)配置的硬件為Windows10操作系統(tǒng),CPU為Inter Core i5-7500H@3.40 GHz四核,運(yùn)行內(nèi)存16G。為了驗(yàn)證上述算法的有效性,將系統(tǒng)在某電網(wǎng)公司試運(yùn)行一年,選取系統(tǒng)運(yùn)行一年中四個(gè)月的數(shù)據(jù)作為數(shù)據(jù)集樣本,數(shù)據(jù)集的基本特征如表1所示。

表1 數(shù)據(jù)集特征
采用上述數(shù)據(jù),對(duì)本文提出的算法、樸素貝葉斯算法(算法1)和C4.5決策樹算法(算法2)進(jìn)行對(duì)比驗(yàn)證,驗(yàn)證的指標(biāo)基于混淆矩陣原理的精準(zhǔn)率和召回率,將上述四個(gè)數(shù)據(jù)集樣本按4 ∶1劃分為訓(xùn)練集和測(cè)試集,并訓(xùn)練模型。
精準(zhǔn)率的計(jì)算公式為:
precision=TP/(TP+FP)
(8)
召回率的計(jì)算公式為:
recall=TP/(TP+FN)
(9)
對(duì)數(shù)據(jù)樣本進(jìn)行特征提取,然后采用訓(xùn)練集對(duì)三種算法進(jìn)行訓(xùn)練,分別采用三種算法對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類,通過(guò)式(8)、式(9)計(jì)算得到三種算法的精準(zhǔn)率和召回率,如表2所示。

表2 三種算法的精準(zhǔn)率和召回率對(duì)比
從表2可以看出,本文算法的精準(zhǔn)率和召回率都高于算法1和算法2。為了更直觀地表現(xiàn)三種算法的性能,將上述數(shù)據(jù)中的精準(zhǔn)率和樣本數(shù)量的關(guān)系用曲線圖3表示。

圖3 三種算法的精準(zhǔn)率對(duì)比
從圖3可以看出,本文提出的算法的精準(zhǔn)率在數(shù)據(jù)樣本較小時(shí),精準(zhǔn)率存在波動(dòng)現(xiàn)象,波動(dòng)幅度不明顯,但是隨著樣本數(shù)據(jù)的增加,最終穩(wěn)定在90%以上,而另外兩種算法的精準(zhǔn)率不僅波動(dòng)較大,并且低于本文提出的算法5%左右。由此可見,本文算法的性能優(yōu)于其他兩種算法。
在某電網(wǎng)公司的通信網(wǎng)絡(luò)中將上述數(shù)據(jù)采集方案的性能進(jìn)行驗(yàn)證,與傳統(tǒng)的數(shù)據(jù)采集方案的采集速度和數(shù)據(jù)質(zhì)量進(jìn)行對(duì)比,采集頻率為3次/min,記錄每次采集數(shù)據(jù),調(diào)出一天內(nèi)兩種方案的采集數(shù)據(jù)進(jìn)行對(duì)比,可以得到表3數(shù)據(jù)。

表3 采集信息數(shù)據(jù)

圖4 采集效率對(duì)比
本文提出的數(shù)據(jù)采集方案的時(shí)間為35 s/次,傳統(tǒng)數(shù)據(jù)采集方案的采集時(shí)間為60 s/次;本文的數(shù)據(jù)采集方案采集的數(shù)據(jù)完整度為98.5%,傳統(tǒng)數(shù)據(jù)采集方案的數(shù)據(jù)采集完整度為92.3%。只依靠一天的采集數(shù)據(jù)并不能表現(xiàn)一種方案的好壞,記錄一年的采集數(shù)據(jù),計(jì)算數(shù)據(jù)采集的效率,穩(wěn)定性是一個(gè)綜合的指標(biāo)。本文數(shù)據(jù)采集效率計(jì)算方式為數(shù)據(jù)的完整度除以采集時(shí)間,通過(guò)計(jì)算可以得到數(shù)據(jù)采集效率對(duì)比圖,如圖4所示。
通過(guò)圖4可以看出,本文的數(shù)據(jù)采集方案的數(shù)據(jù)采集效率為30%左右,相比傳統(tǒng)數(shù)據(jù)采集方案提高了15個(gè)百分點(diǎn)。基于以上描述,本文提出的數(shù)據(jù)采集方案性能優(yōu)于傳統(tǒng)數(shù)據(jù)采集方案,不僅提高了數(shù)據(jù)采集的效率,還提高了采集數(shù)據(jù)的質(zhì)量。
本文針對(duì)電網(wǎng)通信系統(tǒng)中的通信電源數(shù)據(jù)的管理空白,引入大數(shù)據(jù)算法對(duì)電源數(shù)據(jù)實(shí)現(xiàn)信息化管理,優(yōu)化了傳統(tǒng)的數(shù)據(jù)采集方案,提高了數(shù)據(jù)采集的質(zhì)量和效率,為后續(xù)的數(shù)據(jù)處理提供支持。最后通過(guò)試驗(yàn)證明了算法和數(shù)據(jù)采集方案的有效性,具有良好的應(yīng)用前景。但是由于試驗(yàn)數(shù)據(jù)的不充分,難免會(huì)有一些問題沒有發(fā)現(xiàn),在后續(xù)的研究中可以進(jìn)一步的優(yōu)化。