俞 陽,顧晶晶
(1.國網江蘇省電力有限公司營銷服務中心,江蘇南京 210019;2.國網江蘇省電力有限公司句容市供電分公司,江蘇句容 212400)
工業電力數據的采集結果受到天氣、能源等數據之間關聯性的影響,導致電力數據類型不斷增多,電力大數據實時處理的特點使其對數據處理和分析的速度要求更高[1]。有效使用軟硬件資源、降低投資、節約成本、及時挖掘出知識的“金塊”數據海,使員工能夠獲得高層次知識,有效地管理和控制電網的重要決策,是解決大數據時代網格控制難題的有效方法之一,電力企業共享大數據就是其中一種[2]。以往一直采用經典的粗糙集理論來減少時間復雜性,提高工作效率。但是,這些屬性約簡算法假設所有數據都一次性加載到內存中,顯然不能共享電力服務大數據[3]。在傳統關系數據庫技術的基礎上提出的屬性約簡共享方法,在處理小規模屬性約簡問題時具有很好的時間性能,但由于硬件的嚴重限制,這些方法能夠處理的數據量和及時性都很低,導致共享周期很長[4]。針對這一問題,提出基于云計算的電力服務大數據共享系統,借助軟硬件資源來處理大量增加的電力服務大數據。
智能電網中的發電、配電、傳輸、銷售、管理等各個環節都會產生大量的數據,稱為電力服務大數據。該系統是通過各種設備上部署的大量傳感器、每個用戶家庭安裝的智能電表、市場營銷系統收集到的客戶反饋等多種數據源生成的,并匯集為一個集中的數據中心進行統一存儲管理。電力服務數據具有體量大、種類多、速度快等特點[5]。
1)體量大
隨著智能電網建設的深入,設備傳感器、智能儀表等終端數據采集設備已經密集部署,數據采集規模將呈指數級增長,達到TB 甚至PB 級別[6]。
2)類型多
除傳統的結構化數據外,生產管理、營銷等系統也產生了大量的音頻、視頻等半結構化、非結構化數據[7]。資料種類的多樣化要求存儲與處理技術的多樣化,研究的重點是電氣信息采集的數據處理系統,仍然是以結構化數據為主,沒有對半結構化和非結構化數據的處理進行討論[8]。
3)速度快
大容量數據的采集和處理速度極快,終端數量的迅速增加,對存儲系統提出每秒可達到數十萬次數據吞吐量的要求[9-11]。
電力服務云計算大數據共享系統由超級節點和終端節點兩部分組成,各節點之間通過無線傳感器網絡連接。系統硬件結構如圖1 所示。
在電力服務大數據共享系統中,超級節點為系統提供終端節點發現、資源發布、內容定位等服務,同時為所有終端節點提供注冊信息和元數據[12-13]。主要負責本地資源庫的管理、電力服務的大數據共享和元數據文件生成[14-15]。
In America,where the white dominate the country,the black belong to a culturally subordinate group.In a similar way,female belongs to another culturally subordinate group in patriarchal culture.

圖1 系統硬件結構
選用PIC18LF6680 單片機作為超級節點主控制器的核心處理器,內置8 位RISC 處理器核心,外置10 MHz時鐘驅動,內置鎖相環,最高驅動頻率40 MHz,最大容量4G;64K 增強自編程閃存,3.5K 高速、全靜態隨機存儲器,1K 可擦式可編程存儲器;此外,處理器還集成了許多外部設備。擴展處理器外設上的4 個按鈕,輸入一些命令信息;展開4 組數碼管和2 個led 顯示節點的工作狀態;在實際操作中,設備的按鈕和顯示器組成一個簡單的人機交互界面,便于開發和調試節點軟件[16-18]。
將標準RS232 串口擴展為MAX232 級轉換器,以方便接口調試。使用者可以透過電腦觀察結點的工作狀況,并充分考慮到某些儀器會使用CAN 總線。SN65HVD230 收發機擴展了CAN 總線接口,支持CAN 總線接口協議。
在生產單總線設備時,將一個64 位的二進制ROM 代碼寫成芯片序列號。通過這種方式,每一個設備都可以通過尋址進行識別。64 位的ROM 代碼結構如下:前8 位為產品類型,后8 位包含56 位CRC校驗碼,并包含每個設備的序列號。DS1820 型號傳感器如圖2 所示。

圖2 DS1820型號傳感器
用DS1820 型傳感器涂覆3 針的PR-35 或8 針的SOIC,GND 作接地處理;用I/O 作數據輸入/輸出,用PR-35 作漏電保護;VDD 作為外部+5 V 電源端,未用時應接地;NC 為空針頭。該數字傳感器包括寄生電源、單接口的64 位激光動態存儲器和一塊平板式靜態存儲器,主要用于存儲共享資源。由于每個DS1820 包含一個硅序列號,因此可以將多個DS1820芯片連接到總線上。DS1820 只有一條接口線(單線接口),可以讀寫DS1820 的信息,也可以從數據總線獲取電力服務大數據。DS1820 只有3 個引腳,其中兩個連接電源VDD 和GND,另一個連接總線DQ(數據輸入/輸出)。它的輸出和輸入都是數字信號,與TTL 電平相容,可以直接與單片機相連,縮短轉換時間。
在數據共享中,最重要的部分是平臺層。通過信息共享平臺,用戶可以對信息進行查詢和反饋,并具有安全監測功能。對于節點規模較大、節點結構完整的應用層,通過相應設備就可以滿足不同節點的信息需求。云計算共享的基本原則是:篩選大量的共享模型,建立電力服務大數據共享模型的排序方法,從而達到最優和最完善的效果。其具體過程如下:
設M(t)為互補判斷矩陣,當時間t為0 時,可設置迭代判斷次數為n。最小非負偏差量為,最大非負偏差量為,其中i、j表示電力服務大數據最小和最大數量。根據式(1)求取互補判斷矩陣M(t)一致性指數:

如果互補判斷矩陣M(t)一致性指數小于設定的閾值,那么需直接輸出互補判斷矩陣結果,否則需重新選擇數據來判斷。根據該結果,對云計算環境下電力服務大數據共享模式展開分析,以此獲取最優共享結果。
基于云計算的電力服務大數據共享系統實驗驗證過程中,數據庫服務器選用的是MySQL 數據庫,應用服務器為tomcat,對電力服務大數據系統訪問流程如下所示:提出訪問申請,接收器接收到正確地址,按照負載均衡方案,請求結果被轉發到虛擬機上進行數據交互。

圖3 干擾數據檢測流程
將Java 作為開發語言,將struts 作為系統框架,將tomcat 用作應用服務器,SQL Server2012 用作系統開發中的數據庫管理系統。Myeclipse7.0 也被用作開發工具。利用Cooja 網絡模擬器進行模擬實驗,利用HMACMDS 算法生成認證消息代碼,并與tinyDTLS 庫驗證數據源。在仿真中使用的網絡拓撲如圖4 所示。

圖4 網絡拓撲結構
模擬期間沒有考慮信息延遲,之前信任值與當前信任值中新產生的信任值相同,所以所有權重設為0.5。通過仿真實驗,分析了由于錯誤信息而導致正常節點整體信任度下降的原因。
4.2.1 數據干擾情況下共享效率對比分析
1)創造虛假信息
創造虛假信息對數據共享造成一定干擾,基于該情況分別使用基于經典粗糙集理論共享系統、基于傳統關系數據庫技術共享系統和基于云計算共享系統分析電力服務大數據共享效率,結果如圖5所示。
由圖5 可知,使用傳統兩種系統的數據共享效率都低于70%,而使用基于云計算共享系統數據共享效率始終高于85%。

圖5 創造虛假信息情況下3種系統共享效率對比結果
2)多個攻擊點
由于共享系統是由大量數據匯集經過處理后組成的系統,因此容易受到多個攻擊點攻擊,導致數據中干擾數據較多?;谠撉闆r將3 種系統共享效率進行對比分析,結果如圖6 所示。

圖6 多個攻擊點情況下3種系統共享效率對比結果
由圖6 可知,在該情況下3 種系統共享效率與創造虛假信息干擾行為相比都呈現出上升趨勢,使用基于云計算共享系統數據共享效率始終高于90%。
通過分析結果可知,基于云計算共享系統在數據干擾情況下共享效率較高。
4.2.2 正常情況下共享效率對比分析
為了進一步驗證該系統設計的合理性,剔除干擾數據,如圖7 所示。
在主機訓練集的范圍內,數據能夠正常工作。若監測到的數據異常,則表示受到攻擊。如監控數據正確,則需要修正。在此基礎上,提出了共享系統V1 的經典粗糙集理論、傳統關系數據庫的共享系統V2技術、基于云計算的共享系統V3技術,用以比較分析電力服務大數據共享的效率。表1中列出了結果。

圖7 剔除干擾數據

表1 3種系統共享效率對比分析
由表1可知,在無干擾數據情況下,3種系統共享效率都相對較高,絕大部分超過70%,具有良好共享效率。
針對電力服務的特點,以云計算為背景,結合云計算技術的最新發展,建立基于關系數據庫電力服務的電力數據分析系統,解決電力數據分析系統性能和可伸縮性瓶頸問題。實驗結果表明,該系統性能優良,能有效地提高硬件資源利用率,縮短應用程序的響應時間。為了應對電力大數據爆炸給數據分析技術帶來的挑戰,未來還可以增加支持跨數據中心的分布式存儲系統和工作流管理模塊。