林耀
摘 要:本文通過兩部分對用電信息采集的非結構化數據的管理工作進行了詳細的說明,首先對非結構化數據進行了概述;之后重點介紹了其系統結構的內容。
關鍵詞:用電信息采集系統 非結構化數據 結構化數據
一、用電信息采集系統非結構化數據的概述
全覆蓋與全采集的用電信息采集系統廣泛運用于國家電網中,在一定程度上提升了國網公司的電力營銷服務能力,同時提升了國家電網的企業形象。然而,當前所采集的信息與數據,呈現數據分散以及利用效率較低等特點。而且,電力營銷服務工作,不但要求擁有結構化的數據,同時也要求以文本與視頻等非結構化數據作為支撐。因此,相關的工作人員需要重點管理用電信息采集系統非結構化數據。
用電信息采集系統主要由三部分構成:主站、通信信道以及采集設備。用電信息系統能夠對用戶信息進行及時的采集與處理,從而準確地了解用戶的用電狀況,及時發現是否存在異常狀況。電子信息技術的進步,在一定程度上推動了電網信息化程度,使得用電信息采集系統需要采集傳統結構化數據以及非結構化數據。當前,電力領域的研究人員開始研究基于大數據信息技術的用電信息采集系統的應用問題。只是運用結構化數據對用戶的用電特點進行分析,則無法滿足電力營銷服務的高級應用內容。因此,必須做好電力用戶的非結構數據的采集以及管理工作,從而更好地滿足電力營銷服務。研究人員將用戶類型分為A-E五個分類,這些用戶的非結構數據是電力營銷服務的重要支撐數據。同時,根據數據對用電預測狀況以及故障預判趨勢的重要程度,分為基礎類、普通類、專用類以及特殊類。具體分類以及介紹如圖1所示。
但是,國內的非結構化數據的研究進度比較慢,同時其專業信息技術還有待完善。與此同時,存儲物理設備的容量以及兼容性等問題。所以,必須對用電信息采集系統的非結構化數據進行科學合理的管理和設計。
二、用電信息采集系統的系統架構
非結構化數據的用戶擁有不同的類型,同時數據分類和大小也有所差異,從而無法從數據分析中提煉有價值的研究內容。然而,這些非結構化數據擁有大數據的主要特征,所以擁有較大的研究作用。運用非結構化數據對電力用戶的用電信息進行分析與預測,能夠在很大程度上拓展電力營銷業務的范圍。
通過數據采集、存儲以及挖掘三方面對非結構化數據進行管理。首先,數據采集主要感知和采集前端的相關數據;而數據存儲主要是將非結構化數據實施結構化存儲;最后數據挖掘主要是運用這些非結構化數據的過程。具體的非結構化數據管理過程如圖2所示。
1.非結構化數據管理的數據采集。電力用戶的數據信息經過采集之后,將信息傳送到數據中心。其中,將這些非結構化數據進行分類,根據來源的不同主要分為采集終端、系統平臺以及用戶側三類。采集終端能夠采集結構化與非結構化數據,能夠實時采集與上傳信息。系統平臺是用電營銷業務工作過程中,所建立的客服以及收費等功能系統。用戶側主要是用戶為了滿足自我信息查詢與追蹤所運用的信息渠道。
2.非結構化數據管理的數據存儲。多樣化的非結構化數據,使得數據的存儲與挖掘存在一些不方便。比如:非結構化數據的保存格式不同,使得存儲的空間范圍以及內存劃分尺度不同;同時盡管數據格式相同,然而不同的用戶數據的容量與屬性也不相同。所以,需要運用Hadoop的分布式架構,實施主從式的虛擬化;之后實施數據的預處理工作;最終運用Hadoop信息技術實施數據的存儲管理。
Hadoop信息技術主要由三部分組成:Hadoop Common、HDFS以及MapReduce。其中HDFS屬于Hadoop的重要內容之一。同時,HDFS主要是針對大數據實施存儲以及管理的文件系統,該系統能夠較好地實施非結構化數據的管理工作。HDFS的主要組件以及功能介紹如表1所示。
MapReduce也屬于Hadoop的重要內容之一,同時該數據庫主要針對大規模的PB級別的數據實施計算管理。MapReduce區別于傳統關系型的數據庫來說,擁有很多優點,比如:MapReduce可以處理的數據規模較大,同時數據更新速度也比較快。MapReduce與傳統關系型數據對比來說,其具體的特點說明如表2所示。
3.非結構化數據管理的數據挖掘。非結構化數據的類型較多,同時這些數據之間擁有較大的差異,所以運用不同的數據挖掘方法。對于文本數據來說,可以根據文本的分類或者抽取特征項的方式,對數據進行挖掘。同時,對視頻數據可以運用對象識別以及模型庫比對等方式進行數據挖掘;而音頻數據的挖掘,一半運用相關性分組以及可視化等技術進行數據挖掘。
總 結
用電信息系統采集的非結構化數據擁有一定的隱私性,同時也擁有較強的實用性。因此,對這些非結構化數據進行管理設計,成為了相關研究人員的重點研究課題。運用相應的專業技術,對非結構數據進行采集、存儲以及挖掘,同時根據所挖掘的信息與數據更好地管理電力工作。
參考文獻:
[1] 祝恩國,劉宣,葛磊蛟.用電信息采集系統非結構化數據管理設計[J].電力系統及其自動化學報,2016,(10).