馬 飛,王 勇,郭 偉
(北京匯通金財信息科技有限公司,北京 100053)
基于用電信息大數據平臺在用戶群體中的應用分析
馬 飛,王 勇,郭 偉
(北京匯通金財信息科技有限公司,北京 100053)
近年,大數據技術已經在國民生產生活各個領域取得了巨大的經濟和社會價值。電力行業數據是大數據應用的重要領域之一,用電數據具有自身鮮明的行業特點,其中蘊藏著豐富的商業價值和社會價值。本文介紹了如何運用大數據平臺進行數據采集、存儲和數據挖掘,通過具體場景分析了大數據技術在用戶用電信息中的具體應用,從而改善用戶體驗,提高企業運營競爭力。
大數據;Hadoop;Hbase;Spark;數據挖掘;用電信息
2016年3月16日全國兩會發布《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》,綱要提出實施國家大數據戰略,把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。深化大數據在各行業的創新應用,探索與傳統產業協同發展新業態新模式,加快完善大數據產業鏈。加快海量數據采集、存儲、清洗、分析發掘、可視化、安全與隱私保護等領域關鍵技術攻關。促進大數據軟硬件產品發展。完善大數據產業公共服務支撐體系和生態體系,加強標準體系和質量技術基礎建設[1]。
大數據作為重要的戰略資源已經在全球范圍內達成共識,國家電網是世界領先的電力能源企業,在國內也是率先實施大數據運用的重要企業之一。促進電力行業的大數據應用,有著重要的現實意義。
2015年,國網公司《國家電網公司大數據應用指導意見》明確了大數據應用頂層設計和應用計劃,涉及三大領域35項典型應用場景,并正式啟動企業級大數據平臺的研發的試點工作。在電網生產、經營管理和優質服務3大領域全面推進大數據應用建設,構建服務于政府決策、社會用戶、管理提升、安全保電等應用,提升公司數據應用水平,深化數據價值挖掘,創新服務模式,截至2016年累計建成74個應用,計劃2017年新建85個應用。同年,國家電網公司發布《信息通信新技術推動智能電網和“一強三優”現代公司創新發展行動計劃》,加快推進“大云物移”等新技術在智能電網和公司經營管理中的創新應用,推動電網向全球能源互聯網發展[2]。
2.1 用電信息大數據平臺關鍵技術
用電信息大數據平臺采用目前主流的 Hadoop大數據體系架構設計開發,采用hive作為數據倉庫來進行數據分析,hbase作為nosql數據庫進行數據實時查詢和存儲,zookeeper作為分布式應用協調服務,spark作為數據挖掘和機器學習工具,sqoop進行數據遷移。
2.1.1 Hadoop介紹
Google的三大論文奠定了現在風靡全球的大數據理論基礎。HDFS是 Google《The Google File System》的開源實現,MapReduce是《MapReduce:Simplified Data Processing on Large Clusters》的開源實現。Hadoop則是項目的總稱,主要是由HDFS和MapReduce組成。HDFS為海量的數據提供了分布式文件存儲,MapReduce則是一個編程模型,為海量數據提供了并行計算框架。
2.1.1.1 Hdfs介紹
Hdfs是一個開源的分布式文件系統,屬于Hadoop的核心模塊,設計理念是采用一臺或多臺機器來保存 metadata,剩下的機器則用來保存數據。HDFS采用master/slave主從架構。一個HDFS集群是由一個Namenode和一定數目的Datanode組成。Namenode是一個中心服務器,負責管理文件系統的名字空間(namespace)以及客戶端對文件的訪問。集群中的Datanode一般是一個節點一個,負責管理它所在節點上的存儲。
從內部看,一個文件其實被分成一個或多個數據塊,這些塊存儲在一組 Datanode上。Namenode執行文件系統的名字空間操作。它也負責確定數據塊到具體Datanode節點的映射。Datanode負責處理文件系統客戶端的讀寫請求。在 Namenode的統一調度下進行數據塊的創建、刪除和復制[3]。

圖1 Hdfs架構圖Fig.1 Hdfs architecture diagram
2.1.1.2 MapReduce介紹
MapReduce是一個基于集群的高性能編程模型,用于處理海量T級數據的并行計算。其核心處理模型是,用戶首先創建一個Map函數處理一個基于 key/value pair的數據集合,輸出中間的基于key/value pair的數據集合;然后再創建一個Reduce函數用來合并所有的具有相同中間 key值的中間value值。
采用MapReduce架構的程序能夠在大量的普通PC機上實現并行化處理。這個系統在運行時只關心:如何分割輸入數據,在大量計算機組成的集群上的調度,集群中計算機的錯誤處理,管理集群中計算機之間必要的通信。采用MapReduce架構可以使那些沒有并行計算和分布式處理系統開發經驗的程序員有效利用分布式系統的豐富資源[4]。
2.1.2 Hbase
Hbase是Google《Bigtable: A Distributed Storage System for Structured Data》論文的開源實現,是一個分布式的、面向列的開源數據庫,HBase中的所有數據文件都存儲在Hadoop HDFS文件系統上。是一個開源,面向列,適合存儲海量非結構化數據或半結構化數據的分布式存儲系統。Hbase支持上百億行,上百萬列的大表存儲,支持 PB級的數據存儲和快速查詢。
2.1.3 Hive
Hive是基于Hadoop的一個數據倉庫工具,以普通程序員熟悉的SQL風格進行數據統計和分析。Hive將HDFS上結構化的數據文件映射為一張數據庫表,采用HQL語音進行查詢和處理。HQL底層處理則被轉換為MapReduce任務進行運行,所以無法實現實時交互查詢,Hive主要針對的是OLAP應用。
2.1.4 Spark
Spark是基于內存的并行化計算框架,極大提高了大數據環境下數據處理的實時性。核心數據模型是彈性分布式數據集RDD。相比于Mapreduce計算模型,Spark將中間輸出結果緩存在在內存中,從而不再需要讀寫HDFS。Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
2.1.5 Sqoop
Sqoop主要用于在Hadoop(Hive)與傳統的關系數據庫中傳遞數據,可以很方便的將關系型數據庫中的數據導進到HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
2.1.6 數據平臺技術架構圖
數據平臺技術框架圖如圖2所示。

圖2 信息大數據平臺技術架構圖Fig.2 Information big data platform technology architecture
2.2 用電信息大數據平臺處理流程
2.2.1 數據采集
大數據平臺采取定制的ETL應用和sqoop兩種方式實現數據采集。現網賬單數據來自各個省市的營銷平臺,數據來源多樣,數據格式各個省市也不相同。采用ETL應用完成數據抽取、數據清洗和數據加載工作。使用hbase api直接插入數據庫。對于歷史數據,則采取sqoop直接從oracle導入Hbase。
2.2.2 數據存儲
用戶用電信息具有以下特點:
(1)數據量大,一個省一年用電信息大約1億多,全國一年用電信息接近40億條數據。
(2)數據穩定,采集到的用電數據不存在更新刪除操作,主要用來用戶的查詢和后臺統計分析。
(3)數據之間無復雜的關聯關系,比較適合nosql數據庫存儲。
經過技術選項,采用 hbase進行數據的實時存儲數據庫,測試實驗證明,對于億級數據查詢,響應毫秒級別。
2.2.3 數據處理
數據采集和數據存儲都是為數據統計和數據挖掘做準備,數據挖掘的過程就是從大量的數據中通過算法搜索隱含在其中的、人們事先不知道的但又是潛在的有用信息和知識的過程。對于實時性需求不高的統計分析,采用Hive進行統計計算,比如計算年度總電量,年度用電排名等場景。對于需要數據挖掘和比較復雜的統計分析,則采用 mapreduce和 spark進行結合,運用各種數據模型和挖掘算法進行具體分析。
2.2.4 數據展現
成果的展示是大數據應用的最后一步。如果分析的結果無法正確的展現,有可能會誤導用戶和決策者。各種各樣的數據可視化技術是大數據展示的有效方式。
2013年《中國電力大數據白皮書》中指出,電力大數據的特征可以概括為3V3E。其中的3E分別是指數據即能量(Energy)、數據即交互(Exchange)、數據即共情(Empathy)。數據即共情指出,企業的根本目的在于創造客戶,創造需求。用電信息數據聯系到千家萬戶,推動企業應用以客戶為中心,本質就是對電力用戶的終極關懷。通過對電力用戶需求的充分挖掘和滿足,建立情感聯系,為廣大電力用戶提供更加優質、安全、可靠的電力服務[5]。
3.1 趣味賬單
簡單點的用電賬單統計分析,我們可以繪制家庭、小區、城市的全天、季度、年度用電曲線。復雜一點的統計,比如年度最高用電是那天,那個月份用電最高,一天那個時段是用電高峰,用電消費排位等,可以采用hive進行月度或年度統計,使枯燥的數據變得生動有趣,提高用戶使用興趣,增加產品使用粘度。
3.2 用電數據預測
對于普通家庭用戶來說,日用電數據一般隨季節進行波動,總體上表現比較平穩,采用時間序列預測法中的季節趨勢預測未來的用電數據。對即將欠費的用戶及時發送信息進行溫馨提醒,這對于預付費用戶,可以極大提高用戶用電體驗度,防止由于欠費導致突然停電的風險。
季節趨勢預測法根據經濟事物每年重復出現的周期性季節變動指數,預測其季節性變動趨勢[6]。具體到用電信息數據,我們采用按照月、年的用電信息數據進行季節趨勢預測,進行未來的用電數據預測。
3.3 營銷智能分析系統
3.3.1 用電信息特征值提取
由于用戶的用電量及用電行為不同,為了實現精準營銷,需要細化用戶。
根據居民用電變化趨勢、用電量、用戶基本信息、峰值、谷值、欠費記錄、繳費情況作為特征值進行大數據挖掘、聚類分析。挖掘客戶用電行為特征,識別高價值客戶和高風險欠費客戶。
特征值提取:
用電變化趨勢:以年為單位,計算用戶的年用電量的年增長率。
用電量:一定程度上反應用戶的經濟狀況,經濟狀況良好的用戶,用電量較大。反之,則用電量較小。
貢獻度:根據用戶繳費進行區間加權計算。
信譽度:主要針對用戶的欠費和違規用電、惡意盜電等情況。可以以此建立用戶的征信體系。欠費金額和欠費次數兩個維度進行考核[7]。
通過K-Means聚類算法將用戶劃分為不同的客戶群,對不同的客戶群進行不同的營銷方案,針對性的提高服務能力。
3.3.2 Spark MLlib K-Means算法簡介
K-means 聚類算法原理。
聚類分析是一個無監督學習(Unsupervised Learning)過程,一般是用來對數據對象按照其特征屬性進行分組,經常被應用在客戶分群,欺詐檢測,圖像分析等領域[8]。K-means 應該是最有名并且最經常使用的聚類算法了,其原理比較容易理解,并且聚類效果良好,有著廣泛的使用。
和諸多機器學習算法一樣,K-means 算法也是一個迭代式的算法,其主要步驟如下:
第一步,選擇 K 個點作為初始聚類中心。
第二步,計算其余所有點到聚類中心的距離,并把每個點劃分到離它最近的聚類中心所在的聚類中去。在這里,衡量距離一般有多個函數可以選擇,最常用的是歐幾里得距離(Euclidean Distance),也叫歐式距離。公式如下:
其中C代表中心點,X代表任意一個非中心點。
第三步,重新計算每個聚類中所有點的平均值,并將其作為新的聚類中心點。

最后,重復(二),(三)步的過程,直至聚類中心不再發生改變,或者算法達到預定的迭代次數,又或聚類中心的改變小于預先設定的閥值。
Spark MLlib K-means 算法的實現在初始聚類點的選擇上,借鑒了一個叫 K-means||的類 K-means++實現。K-means++ 算法在初始點選擇上遵循一個基本原則: 初始聚類中心點相互之間的距離應該盡可能的遠。基本步驟如下[9]:
第一步,從數據集X中隨機選擇一個點作為第一個初始點。
第二步,計算數據集中所有點與最新選擇的中心點的距離 D(x)。
第四部,重復(二),(三)步過程,直到 K 個初始點選擇完成。
聚類算法多次迭代示意圖[10]。
3.4 客戶用戶信用等級
信用等級各個行業都有自己特有的計算方式,對于用戶用電數據來說,建立一套特有的用電信用等級系統,可以有效的分配客戶資源,對一些風險進行提取防控,我們以用戶貢獻度和欠費時長兩個指標進行考核[11]。
3.5 電力地圖
最著名的電力大數據應用就是美國的“洛杉磯電力地圖”。美國加州大學洛杉磯分校、洛杉磯水電部及政府規劃辦公室共同開發了洛杉磯電力地圖,將街區面積、建設時間、居民平均收入等信息集合在一起,歸結分析社會各群體的用電特征,為城市發展和電網建設提供準確、直觀、有效的規劃測算依據[12]。

圖3 聚類算法示意圖Fig.3 Diagram of clustering algorithm
具體到用電信息大數據平臺而言,由于平臺存儲了全國各個省市的居民用電信息。則可以描述各個國家以及各個省市的用電地圖。通過用電地圖發現穩定增長的用電區域和用戶群體,從而為該區域的用戶提供精準營銷等商業活動。
本文基于普通家庭用戶用電信息,采用主流大數據存儲、大數據挖掘技術,對具體的業務進行了應用分析。探討了如何利用大數據,為用戶提供更加智慧便捷的服務,進一步深化、挖掘了潛在的社會和商業價值。為企業提升服務水平和精細化營銷提供數據參考,從而提升企業經濟效益。
[1] 中華人民共和國國民經濟和社會發展第十三個五年規劃綱要(2016).
[2] 國家電網. 國家電網公司大數據應用指導意見2013.
[3] Apache, Hadoop分布式文件系統: 架構和設計2013.
[4] Alex, Google MapReduce中文版2010.
[5] 中國電機工程學會電力信息化專業委員會. 中國電力大數據發展白皮書2013.
[6] 楊穎. 運用季節和趨勢模型預測用電負荷[J]. 電力需求側管理, 2004, 6(3): 22-24.
[7] 肖乃慎, 李博, 孔德詩. 大數據背景下的電網客戶用電行為分析系統設計[J]. 電子設計工程, 2015.3.
[8] 孫志偉, 大數據環境下用電行為分析的研究2015.3.
[9] 李玉波, 楊余旺, 唐浩,等. 基于Spark的K-means安全區間更新優化算法[J]. 計算機技術與發展, 2017, 27(8): 1-6.
[10] Wikipedia, k-means clustering--Standard algorithm (2017).
[11] 程麗冰. 大數據時代的電力客戶分群管理應用研究[D]. 華南理工大學, 2016.
[12] 沈玉玲, 呂燕, 陳瑞峰. 基于大數據技術的電力用戶行為分析及應用現狀[J]. 電氣自動化, 2016, 38(3):50-52.
Application Analysis in User Groups Based on Electricity Information Big Data Platform
MA fei1, WANG yong2, GUO wei3
(Beijing huitong jincai information technology Co., Ltd., Beijing 100053, China)
In recent years, big data technology has made great economic and social value in all fields of national production and life. Electricity industry is one of the important areas of big data, electricity big data has its own distinctive industry characteristics, electricity information data contains rich commercial value and social value. This paper introduces how to use big data platform for data acquisition, storage and data mining, through specific scene analysis of large data technology application in electric information of users, so as to improve the user experience,improve the competitiveness of enterprises.
Big data; Hadoop; Hbase; Spark; Data mining; Electricity information
TP311.13
A
10.3969/j.issn.1003-6970.2017.11.026
本文著錄格式:馬飛,王勇,郭偉. 基于用電信息大數據平臺在用戶群體中的應用分析[J]. 軟件,2017,38(11):132-136
馬飛(1981-),男,本科,北京匯通金財信息科技有限公司,主要研究方向:大數據;王勇(1982-),男,北京匯通金財信息科技有限公司,主要研究方向:互聯網+電力營銷服務、互聯網技術;郭偉(1981-),男,國網新疆電力科學研究院,研究方向:電力營銷、供電服務、互聯網+電力營銷服務。