王 巖,黃 瑩,林君穎
(1.海南電網有限責任公司信息通信分公司,海南 海口 570203;2.海南電網有限責任公司客戶服務中心,海南 海口 570203)
隨著我國電力行業的飛速發展,電力系統在長期運行中也產生愈來愈多的數據信息,導致傳統數據處理系統出現較多的技術弊端。在目前現代信息技術背景下,大數據、云計算等新興技術的應用,為電力行業的數據處理提供了新機遇。因此文中立足電力行業的業務開展情況及特點,將云平臺引入研究,提出基于云平臺的電力系統數據處理方案。該方案能夠運用云平臺的數據存儲資源,實現對海量電力系統運行數據的高效處理,有效提升了電力系統的數據處理工作效率。提出了基于邏輯回歸的改進分類算法,可以實現用電記錄數據的分類計算,做到正常、異常兩種用電數據的有效區分,能夠為電力企業提供更合理的決策支撐。
云計算將計算任務分布在大量計算機構成的資源池中,各系統根據需要獲取資源池內提供的各類計算、存儲等資源服務,主要依賴以下3 種技術。
實現計算機程序基于虛擬平臺而非真實平臺運行,能夠有效簡化系統配置,明顯提升計算機技術的工作效率。虛擬化技術系統結構如圖1 所示。

圖1 虛擬化技術系統結構
大數據技術能夠處理各種數據類型,從中獲取具有豐富價值的數據信息。大數據關鍵技術包括數據采集、預處理、存儲、分析和挖掘以及結果呈現,如圖2 所示。Hadoop 共計包括了三大核心組成,分別為Hdfs、Yarn 和MapReduce。

圖2 大數據關鍵技術
基于Hadoop 能夠提供有效的大數據處理技術支持,側重于數據計算、存儲、分析,并未重點針對數據進行接入處理。流式處理則能夠實現數據流入至系統中,完成連續的數據計算。
該文搭建云平臺的關鍵步驟如下:
1)部署Hadoop 集群。首先進行JDK 和SSH 安裝,并對Hadoop 配置文件進行修改,對文件成功復制后進行格式化處理,在可以通過DataNode 成功看到Node、Manager 后,即表示搭建成功。
2)部署ZooKeeper 集群。ZooKeeper 能夠實現Hbase、Kafka 以及Spark 的多集群協調管理。首先對zoo.cfg 文件進行修改,成功復制文件后即可啟動服務,部分代碼如下:

3)部署Hive。為了有效提升Hive 元數據處理的安全性,通過MySQL 實現元數據存儲,完成MySQL安裝后進行Live 配置。首先完成MySQL 安裝,之后對hive-site.xml 文件進行修改,成功復制文件后即可啟動服務。
4)部署Hbase 集群。在完成ZooKeeper 集群安裝后,下載安裝regionservers、hbase-env.sh 等文件,成功復制文件后即可啟動服務。
5)部署Spark 集群。首先進行SCALA 安裝,對其中參數配置進行修訂,成功復制文件后即可啟動服務。
6)部署Kafka 集群。在完成ZooKeeper 集群安裝后,修改相應配置文件,成功復制文件后即可啟動服務。
根據以上建立該次研究的云平臺,主要是為了滿足以下功能:1)處理系統大數據集。2)實時查詢數據。3)對流式數據進行處理分發。4)統計分析并成功挖掘數據。
平臺技術架構如圖3 所示。

圖3 云平臺技術架構圖
從數據采集來看,實現電力行業運行數據的遠程采集,作為我國建設智能電網的關鍵基礎技術,能夠在電力行業數據采集中應用數據處理技術,有效提高數據遠程采集的時效性、精準度。經服務器匯總并處理數據,在數據庫內寫入數據即可實現數據持久化工作,并上調應用服務層。
其次,從電量數據計算業務來看,在電網運行中存在諸多業務邏輯,其中以電量計算、線損計算最為廣泛,差異化表計能夠在電力系統的不同運行狀態下,成功采集各類運行數據,雖然應用了差異化數據處理方法,但最終能獲取統一的數據格式。
最后,從查詢業務來說,一般情況下業務人員對于計算機信息技術并不熟悉,所以不可能要求從業電力行業人員能夠經計算系統得出計算結果。所以需要實現以下的數據查詢任務,包括查詢原始數據、單日電量、單日線損、單用戶歷史電量、單用戶歷史線損。
基于云平臺能夠有效整合大數據組件,實現橫向數據處理平臺拓展,有效增強系統數據處理的計算存儲能力。基于云平臺電力業務處理方案的數據流程如圖4 所示,主要運用了模塊化設計理念,包括數據采集分發、在線處理、離線處理、存儲查詢、Web展示五大模塊。

圖4 基于云平臺電力業務處理方案數據流程
數據采集分發模塊能夠采集并分發電力行業數據;在線處理模塊可以檢測系統設備的運行產生數據;離線處理模塊能夠計算用戶的電量、線損,滿足具體的查詢業務;存儲查詢模塊可以存儲和查詢相應的詳細數據信息;Web 展示模塊能夠為系統操作用戶呈現最終的數據參數輸入、查詢結果。
3.3.1 邏輯回歸算法
邏輯回歸計算公式如下:

根據式(1)建立邏輯回歸計算模型,其最大似然函數公式如下:

3.3.2 基于信息量特征選擇法
1)在用電數據分析過程中,產生的異常數據一般為產生較大波動以及較大波動頻率的數據,可能是運用的計量設備發生了故障,應當對其進行相應的技術排查。在分析過程中極易發現多數用戶都能獲得穩定的用電數據,所以在全部用電數據中異常數據的占比較小。所以在對用電數據進行分析時,需要重視異常數據的正確分類。
2)在對電力行業信息量進行計算并選取特征數據時,可以運用高維用電數據進行分類,根據一定特征輸入分類算法,在分類建模過程中判定該類分類數據的依據,主要的測試集內包括了正常、異常兩類數據,而該類數據并不能直接代表類別特點,所以在特征輸入時需要盡可能避免產生異常特征。
在選取特征時就要求能夠對每一個異常特征都完成相應的信息量計算,并根據相應的選取規則有效降低計算復雜度。特征選取流程圖如圖5所示。

圖5 特征選取流程圖
測試中主要的實驗環境包含2 臺聯想服務器、1 000 M 以太網交換機,并配置了5 臺云平臺節點和Web 服務器。
該方案設計中,云平臺對于數據的底層存儲由Hdfs 實現,經前置機Kafka 有效分發數據后,存入Hdfs 系統,所以獲得了良好的云平臺數據讀寫性能,然后將關系型數據庫內存儲數據輸入Hdfs 內。Hadoop 能夠提供API 獲得Put,成功拷貝Hdfs 內的數據,即可存儲處理后的數據。監測數據曲線如圖6所示,圖中曲線代表隨著實驗次數增加,所測得實驗數據總量也隨之增長。該次設計的基于云平臺的電力行業數據處理方案,能夠獲得較快的數據讀寫速度,并且可以滿足每天最高達到5 TB 以上的數據讀寫量,所以可以用于承載電力行業的數據業務處理。

圖6 監測數據曲線圖
隨著我國智能電網事業的大力開展,智能電表的廣泛應用產生了海量數據。該文提出基于云平臺的電力行業數據處理方案,實現了Hadoop、Kafka、Hbase 等大數據處理技術的有效整合,并提出基于邏輯回歸算法的數據分類計算方法,經平臺測試驗證了該數據處理方案能夠獲得較好的數據讀寫、安全及平臺拓展性,簡化了數據處理計算的復雜度。