馬 飛,王 勇,郭 偉
(北京匯通金財(cái)信息科技有限公司,北京 100053)
基于用電信息大數(shù)據(jù)平臺(tái)在用戶群體中的應(yīng)用分析
馬 飛,王 勇,郭 偉
(北京匯通金財(cái)信息科技有限公司,北京 100053)
近年,大數(shù)據(jù)技術(shù)已經(jīng)在國(guó)民生產(chǎn)生活各個(gè)領(lǐng)域取得了巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。電力行業(yè)數(shù)據(jù)是大數(shù)據(jù)應(yīng)用的重要領(lǐng)域之一,用電數(shù)據(jù)具有自身鮮明的行業(yè)特點(diǎn),其中蘊(yùn)藏著豐富的商業(yè)價(jià)值和社會(huì)價(jià)值。本文介紹了如何運(yùn)用大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)采集、存儲(chǔ)和數(shù)據(jù)挖掘,通過(guò)具體場(chǎng)景分析了大數(shù)據(jù)技術(shù)在用戶用電信息中的具體應(yīng)用,從而改善用戶體驗(yàn),提高企業(yè)運(yùn)營(yíng)競(jìng)爭(zhēng)力。
大數(shù)據(jù);Hadoop;Hbase;Spark;數(shù)據(jù)挖掘;用電信息
2016年3月16日全國(guó)兩會(huì)發(fā)布《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》,綱要提出實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快推動(dòng)數(shù)據(jù)資源共享開(kāi)放和開(kāi)發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新。深化大數(shù)據(jù)在各行業(yè)的創(chuàng)新應(yīng)用,探索與傳統(tǒng)產(chǎn)業(yè)協(xié)同發(fā)展新業(yè)態(tài)新模式,加快完善大數(shù)據(jù)產(chǎn)業(yè)鏈。加快海量數(shù)據(jù)采集、存儲(chǔ)、清洗、分析發(fā)掘、可視化、安全與隱私保護(hù)等領(lǐng)域關(guān)鍵技術(shù)攻關(guān)。促進(jìn)大數(shù)據(jù)軟硬件產(chǎn)品發(fā)展。完善大數(shù)據(jù)產(chǎn)業(yè)公共服務(wù)支撐體系和生態(tài)體系,加強(qiáng)標(biāo)準(zhǔn)體系和質(zhì)量技術(shù)基礎(chǔ)建設(shè)[1]。
大數(shù)據(jù)作為重要的戰(zhàn)略資源已經(jīng)在全球范圍內(nèi)達(dá)成共識(shí),國(guó)家電網(wǎng)是世界領(lǐng)先的電力能源企業(yè),在國(guó)內(nèi)也是率先實(shí)施大數(shù)據(jù)運(yùn)用的重要企業(yè)之一。促進(jìn)電力行業(yè)的大數(shù)據(jù)應(yīng)用,有著重要的現(xiàn)實(shí)意義。
2015年,國(guó)網(wǎng)公司《國(guó)家電網(wǎng)公司大數(shù)據(jù)應(yīng)用指導(dǎo)意見(jiàn)》明確了大數(shù)據(jù)應(yīng)用頂層設(shè)計(jì)和應(yīng)用計(jì)劃,涉及三大領(lǐng)域35項(xiàng)典型應(yīng)用場(chǎng)景,并正式啟動(dòng)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的研發(fā)的試點(diǎn)工作。在電網(wǎng)生產(chǎn)、經(jīng)營(yíng)管理和優(yōu)質(zhì)服務(wù)3大領(lǐng)域全面推進(jìn)大數(shù)據(jù)應(yīng)用建設(shè),構(gòu)建服務(wù)于政府決策、社會(huì)用戶、管理提升、安全保電等應(yīng)用,提升公司數(shù)據(jù)應(yīng)用水平,深化數(shù)據(jù)價(jià)值挖掘,創(chuàng)新服務(wù)模式,截至2016年累計(jì)建成74個(gè)應(yīng)用,計(jì)劃2017年新建85個(gè)應(yīng)用。同年,國(guó)家電網(wǎng)公司發(fā)布《信息通信新技術(shù)推動(dòng)智能電網(wǎng)和“一強(qiáng)三優(yōu)”現(xiàn)代公司創(chuàng)新發(fā)展行動(dòng)計(jì)劃》,加快推進(jìn)“大云物移”等新技術(shù)在智能電網(wǎng)和公司經(jīng)營(yíng)管理中的創(chuàng)新應(yīng)用,推動(dòng)電網(wǎng)向全球能源互聯(lián)網(wǎng)發(fā)展[2]。
2.1 用電信息大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)
用電信息大數(shù)據(jù)平臺(tái)采用目前主流的 Hadoop大數(shù)據(jù)體系架構(gòu)設(shè)計(jì)開(kāi)發(fā),采用hive作為數(shù)據(jù)倉(cāng)庫(kù)來(lái)進(jìn)行數(shù)據(jù)分析,hbase作為nosql數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)實(shí)時(shí)查詢和存儲(chǔ),zookeeper作為分布式應(yīng)用協(xié)調(diào)服務(wù),spark作為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具,sqoop進(jìn)行數(shù)據(jù)遷移。
2.1.1 Hadoop介紹
Google的三大論文奠定了現(xiàn)在風(fēng)靡全球的大數(shù)據(jù)理論基礎(chǔ)。HDFS是 Google《The Google File System》的開(kāi)源實(shí)現(xiàn),MapReduce是《MapReduce:Simplified Data Processing on Large Clusters》的開(kāi)源實(shí)現(xiàn)。Hadoop則是項(xiàng)目的總稱(chēng),主要是由HDFS和MapReduce組成。HDFS為海量的數(shù)據(jù)提供了分布式文件存儲(chǔ),MapReduce則是一個(gè)編程模型,為海量數(shù)據(jù)提供了并行計(jì)算框架。
2.1.1.1 Hdfs介紹
Hdfs是一個(gè)開(kāi)源的分布式文件系統(tǒng),屬于Hadoop的核心模塊,設(shè)計(jì)理念是采用一臺(tái)或多臺(tái)機(jī)器來(lái)保存 metadata,剩下的機(jī)器則用來(lái)保存數(shù)據(jù)。HDFS采用master/slave主從架構(gòu)。一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的Datanode組成。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對(duì)文件的訪問(wèn)。集群中的Datanode一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。
從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊,這些塊存儲(chǔ)在一組 Datanode上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點(diǎn)的映射。Datanode負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫(xiě)請(qǐng)求。在 Namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制[3]。

圖1 Hdfs架構(gòu)圖Fig.1 Hdfs architecture diagram
2.1.1.2 MapReduce介紹
MapReduce是一個(gè)基于集群的高性能編程模型,用于處理海量T級(jí)數(shù)據(jù)的并行計(jì)算。其核心處理模型是,用戶首先創(chuàng)建一個(gè)Map函數(shù)處理一個(gè)基于 key/value pair的數(shù)據(jù)集合,輸出中間的基于key/value pair的數(shù)據(jù)集合;然后再創(chuàng)建一個(gè)Reduce函數(shù)用來(lái)合并所有的具有相同中間 key值的中間value值。
采用MapReduce架構(gòu)的程序能夠在大量的普通PC機(jī)上實(shí)現(xiàn)并行化處理。這個(gè)系統(tǒng)在運(yùn)行時(shí)只關(guān)心:如何分割輸入數(shù)據(jù),在大量計(jì)算機(jī)組成的集群上的調(diào)度,集群中計(jì)算機(jī)的錯(cuò)誤處理,管理集群中計(jì)算機(jī)之間必要的通信。采用MapReduce架構(gòu)可以使那些沒(méi)有并行計(jì)算和分布式處理系統(tǒng)開(kāi)發(fā)經(jīng)驗(yàn)的程序員有效利用分布式系統(tǒng)的豐富資源[4]。
2.1.2 Hbase
Hbase是Google《Bigtable: A Distributed Storage System for Structured Data》論文的開(kāi)源實(shí)現(xiàn),是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),HBase中的所有數(shù)據(jù)文件都存儲(chǔ)在Hadoop HDFS文件系統(tǒng)上。是一個(gè)開(kāi)源,面向列,適合存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)。Hbase支持上百億行,上百萬(wàn)列的大表存儲(chǔ),支持 PB級(jí)的數(shù)據(jù)存儲(chǔ)和快速查詢。
2.1.3 Hive
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,以普通程序員熟悉的SQL風(fēng)格進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析。Hive將HDFS上結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,采用HQL語(yǔ)音進(jìn)行查詢和處理。HQL底層處理則被轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行,所以無(wú)法實(shí)現(xiàn)實(shí)時(shí)交互查詢,Hive主要針對(duì)的是OLAP應(yīng)用。
2.1.4 Spark
Spark是基于內(nèi)存的并行化計(jì)算框架,極大提高了大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實(shí)時(shí)性。核心數(shù)據(jù)模型是彈性分布式數(shù)據(jù)集RDD。相比于Mapreduce計(jì)算模型,Spark將中間輸出結(jié)果緩存在在內(nèi)存中,從而不再需要讀寫(xiě)HDFS。Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。
2.1.5 Sqoop
Sqoop主要用于在Hadoop(Hive)與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中傳遞數(shù)據(jù),可以很方便的將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)進(jìn)到HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。
2.1.6 數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)圖
數(shù)據(jù)平臺(tái)技術(shù)框架圖如圖2所示。

圖2 信息大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)圖Fig.2 Information big data platform technology architecture
2.2 用電信息大數(shù)據(jù)平臺(tái)處理流程
2.2.1 數(shù)據(jù)采集
大數(shù)據(jù)平臺(tái)采取定制的ETL應(yīng)用和sqoop兩種方式實(shí)現(xiàn)數(shù)據(jù)采集。現(xiàn)網(wǎng)賬單數(shù)據(jù)來(lái)自各個(gè)省市的營(yíng)銷(xiāo)平臺(tái),數(shù)據(jù)來(lái)源多樣,數(shù)據(jù)格式各個(gè)省市也不相同。采用ETL應(yīng)用完成數(shù)據(jù)抽取、數(shù)據(jù)清洗和數(shù)據(jù)加載工作。使用hbase api直接插入數(shù)據(jù)庫(kù)。對(duì)于歷史數(shù)據(jù),則采取sqoop直接從oracle導(dǎo)入Hbase。
2.2.2 數(shù)據(jù)存儲(chǔ)
用戶用電信息具有以下特點(diǎn):
(1)數(shù)據(jù)量大,一個(gè)省一年用電信息大約1億多,全國(guó)一年用電信息接近40億條數(shù)據(jù)。
(2)數(shù)據(jù)穩(wěn)定,采集到的用電數(shù)據(jù)不存在更新刪除操作,主要用來(lái)用戶的查詢和后臺(tái)統(tǒng)計(jì)分析。
(3)數(shù)據(jù)之間無(wú)復(fù)雜的關(guān)聯(lián)關(guān)系,比較適合nosql數(shù)據(jù)庫(kù)存儲(chǔ)。
經(jīng)過(guò)技術(shù)選項(xiàng),采用 hbase進(jìn)行數(shù)據(jù)的實(shí)時(shí)存儲(chǔ)數(shù)據(jù)庫(kù),測(cè)試實(shí)驗(yàn)證明,對(duì)于億級(jí)數(shù)據(jù)查詢,響應(yīng)毫秒級(jí)別。
2.2.3 數(shù)據(jù)處理
數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)都是為數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘做準(zhǔn)備,數(shù)據(jù)挖掘的過(guò)程就是從大量的數(shù)據(jù)中通過(guò)算法搜索隱含在其中的、人們事先不知道的但又是潛在的有用信息和知識(shí)的過(guò)程。對(duì)于實(shí)時(shí)性需求不高的統(tǒng)計(jì)分析,采用Hive進(jìn)行統(tǒng)計(jì)計(jì)算,比如計(jì)算年度總電量,年度用電排名等場(chǎng)景。對(duì)于需要數(shù)據(jù)挖掘和比較復(fù)雜的統(tǒng)計(jì)分析,則采用 mapreduce和 spark進(jìn)行結(jié)合,運(yùn)用各種數(shù)據(jù)模型和挖掘算法進(jìn)行具體分析。
2.2.4 數(shù)據(jù)展現(xiàn)
成果的展示是大數(shù)據(jù)應(yīng)用的最后一步。如果分析的結(jié)果無(wú)法正確的展現(xiàn),有可能會(huì)誤導(dǎo)用戶和決策者。各種各樣的數(shù)據(jù)可視化技術(shù)是大數(shù)據(jù)展示的有效方式。
2013年《中國(guó)電力大數(shù)據(jù)白皮書(shū)》中指出,電力大數(shù)據(jù)的特征可以概括為3V3E。其中的3E分別是指數(shù)據(jù)即能量(Energy)、數(shù)據(jù)即交互(Exchange)、數(shù)據(jù)即共情(Empathy)。數(shù)據(jù)即共情指出,企業(yè)的根本目的在于創(chuàng)造客戶,創(chuàng)造需求。用電信息數(shù)據(jù)聯(lián)系到千家萬(wàn)戶,推動(dòng)企業(yè)應(yīng)用以客戶為中心,本質(zhì)就是對(duì)電力用戶的終極關(guān)懷。通過(guò)對(duì)電力用戶需求的充分挖掘和滿足,建立情感聯(lián)系,為廣大電力用戶提供更加優(yōu)質(zhì)、安全、可靠的電力服務(wù)[5]。
3.1 趣味賬單
簡(jiǎn)單點(diǎn)的用電賬單統(tǒng)計(jì)分析,我們可以繪制家庭、小區(qū)、城市的全天、季度、年度用電曲線。復(fù)雜一點(diǎn)的統(tǒng)計(jì),比如年度最高用電是那天,那個(gè)月份用電最高,一天那個(gè)時(shí)段是用電高峰,用電消費(fèi)排位等,可以采用hive進(jìn)行月度或年度統(tǒng)計(jì),使枯燥的數(shù)據(jù)變得生動(dòng)有趣,提高用戶使用興趣,增加產(chǎn)品使用粘度。
3.2 用電數(shù)據(jù)預(yù)測(cè)
對(duì)于普通家庭用戶來(lái)說(shuō),日用電數(shù)據(jù)一般隨季節(jié)進(jìn)行波動(dòng),總體上表現(xiàn)比較平穩(wěn),采用時(shí)間序列預(yù)測(cè)法中的季節(jié)趨勢(shì)預(yù)測(cè)未來(lái)的用電數(shù)據(jù)。對(duì)即將欠費(fèi)的用戶及時(shí)發(fā)送信息進(jìn)行溫馨提醒,這對(duì)于預(yù)付費(fèi)用戶,可以極大提高用戶用電體驗(yàn)度,防止由于欠費(fèi)導(dǎo)致突然停電的風(fēng)險(xiǎn)。
季節(jié)趨勢(shì)預(yù)測(cè)法根據(jù)經(jīng)濟(jì)事物每年重復(fù)出現(xiàn)的周期性季節(jié)變動(dòng)指數(shù),預(yù)測(cè)其季節(jié)性變動(dòng)趨勢(shì)[6]。具體到用電信息數(shù)據(jù),我們采用按照月、年的用電信息數(shù)據(jù)進(jìn)行季節(jié)趨勢(shì)預(yù)測(cè),進(jìn)行未來(lái)的用電數(shù)據(jù)預(yù)測(cè)。
3.3 營(yíng)銷(xiāo)智能分析系統(tǒng)
3.3.1 用電信息特征值提取
由于用戶的用電量及用電行為不同,為了實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),需要細(xì)化用戶。
根據(jù)居民用電變化趨勢(shì)、用電量、用戶基本信息、峰值、谷值、欠費(fèi)記錄、繳費(fèi)情況作為特征值進(jìn)行大數(shù)據(jù)挖掘、聚類(lèi)分析。挖掘客戶用電行為特征,識(shí)別高價(jià)值客戶和高風(fēng)險(xiǎn)欠費(fèi)客戶。
特征值提取:
用電變化趨勢(shì):以年為單位,計(jì)算用戶的年用電量的年增長(zhǎng)率。
用電量:一定程度上反應(yīng)用戶的經(jīng)濟(jì)狀況,經(jīng)濟(jì)狀況良好的用戶,用電量較大。反之,則用電量較小。
貢獻(xiàn)度:根據(jù)用戶繳費(fèi)進(jìn)行區(qū)間加權(quán)計(jì)算。
信譽(yù)度:主要針對(duì)用戶的欠費(fèi)和違規(guī)用電、惡意盜電等情況。可以以此建立用戶的征信體系。欠費(fèi)金額和欠費(fèi)次數(shù)兩個(gè)維度進(jìn)行考核[7]。
通過(guò)K-Means聚類(lèi)算法將用戶劃分為不同的客戶群,對(duì)不同的客戶群進(jìn)行不同的營(yíng)銷(xiāo)方案,針對(duì)性的提高服務(wù)能力。
3.3.2 Spark MLlib K-Means算法簡(jiǎn)介
K-means 聚類(lèi)算法原理。
聚類(lèi)分析是一個(gè)無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)過(guò)程,一般是用來(lái)對(duì)數(shù)據(jù)對(duì)象按照其特征屬性進(jìn)行分組,經(jīng)常被應(yīng)用在客戶分群,欺詐檢測(cè),圖像分析等領(lǐng)域[8]。K-means 應(yīng)該是最有名并且最經(jīng)常使用的聚類(lèi)算法了,其原理比較容易理解,并且聚類(lèi)效果良好,有著廣泛的使用。
和諸多機(jī)器學(xué)習(xí)算法一樣,K-means 算法也是一個(gè)迭代式的算法,其主要步驟如下:
第一步,選擇 K 個(gè)點(diǎn)作為初始聚類(lèi)中心。
第二步,計(jì)算其余所有點(diǎn)到聚類(lèi)中心的距離,并把每個(gè)點(diǎn)劃分到離它最近的聚類(lèi)中心所在的聚類(lèi)中去。在這里,衡量距離一般有多個(gè)函數(shù)可以選擇,最常用的是歐幾里得距離(Euclidean Distance),也叫歐式距離。公式如下:
其中C代表中心點(diǎn),X代表任意一個(gè)非中心點(diǎn)。
第三步,重新計(jì)算每個(gè)聚類(lèi)中所有點(diǎn)的平均值,并將其作為新的聚類(lèi)中心點(diǎn)。

最后,重復(fù)(二),(三)步的過(guò)程,直至聚類(lèi)中心不再發(fā)生改變,或者算法達(dá)到預(yù)定的迭代次數(shù),又或聚類(lèi)中心的改變小于預(yù)先設(shè)定的閥值。
Spark MLlib K-means 算法的實(shí)現(xiàn)在初始聚類(lèi)點(diǎn)的選擇上,借鑒了一個(gè)叫 K-means||的類(lèi) K-means++實(shí)現(xiàn)。K-means++ 算法在初始點(diǎn)選擇上遵循一個(gè)基本原則: 初始聚類(lèi)中心點(diǎn)相互之間的距離應(yīng)該盡可能的遠(yuǎn)。基本步驟如下[9]:
第一步,從數(shù)據(jù)集X中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始點(diǎn)。
第二步,計(jì)算數(shù)據(jù)集中所有點(diǎn)與最新選擇的中心點(diǎn)的距離 D(x)。
第四部,重復(fù)(二),(三)步過(guò)程,直到 K 個(gè)初始點(diǎn)選擇完成。
聚類(lèi)算法多次迭代示意圖[10]。
3.4 客戶用戶信用等級(jí)
信用等級(jí)各個(gè)行業(yè)都有自己特有的計(jì)算方式,對(duì)于用戶用電數(shù)據(jù)來(lái)說(shuō),建立一套特有的用電信用等級(jí)系統(tǒng),可以有效的分配客戶資源,對(duì)一些風(fēng)險(xiǎn)進(jìn)行提取防控,我們以用戶貢獻(xiàn)度和欠費(fèi)時(shí)長(zhǎng)兩個(gè)指標(biāo)進(jìn)行考核[11]。
3.5 電力地圖
最著名的電力大數(shù)據(jù)應(yīng)用就是美國(guó)的“洛杉磯電力地圖”。美國(guó)加州大學(xué)洛杉磯分校、洛杉磯水電部及政府規(guī)劃辦公室共同開(kāi)發(fā)了洛杉磯電力地圖,將街區(qū)面積、建設(shè)時(shí)間、居民平均收入等信息集合在一起,歸結(jié)分析社會(huì)各群體的用電特征,為城市發(fā)展和電網(wǎng)建設(shè)提供準(zhǔn)確、直觀、有效的規(guī)劃測(cè)算依據(jù)[12]。

圖3 聚類(lèi)算法示意圖Fig.3 Diagram of clustering algorithm
具體到用電信息大數(shù)據(jù)平臺(tái)而言,由于平臺(tái)存儲(chǔ)了全國(guó)各個(gè)省市的居民用電信息。則可以描述各個(gè)國(guó)家以及各個(gè)省市的用電地圖。通過(guò)用電地圖發(fā)現(xiàn)穩(wěn)定增長(zhǎng)的用電區(qū)域和用戶群體,從而為該區(qū)域的用戶提供精準(zhǔn)營(yíng)銷(xiāo)等商業(yè)活動(dòng)。
本文基于普通家庭用戶用電信息,采用主流大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)挖掘技術(shù),對(duì)具體的業(yè)務(wù)進(jìn)行了應(yīng)用分析。探討了如何利用大數(shù)據(jù),為用戶提供更加智慧便捷的服務(wù),進(jìn)一步深化、挖掘了潛在的社會(huì)和商業(yè)價(jià)值。為企業(yè)提升服務(wù)水平和精細(xì)化營(yíng)銷(xiāo)提供數(shù)據(jù)參考,從而提升企業(yè)經(jīng)濟(jì)效益。
[1] 中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要(2016).
[2] 國(guó)家電網(wǎng). 國(guó)家電網(wǎng)公司大數(shù)據(jù)應(yīng)用指導(dǎo)意見(jiàn)2013.
[3] Apache, Hadoop分布式文件系統(tǒng): 架構(gòu)和設(shè)計(jì)2013.
[4] Alex, Google MapReduce中文版2010.
[5] 中國(guó)電機(jī)工程學(xué)會(huì)電力信息化專(zhuān)業(yè)委員會(huì). 中國(guó)電力大數(shù)據(jù)發(fā)展白皮書(shū)2013.
[6] 楊穎. 運(yùn)用季節(jié)和趨勢(shì)模型預(yù)測(cè)用電負(fù)荷[J]. 電力需求側(cè)管理, 2004, 6(3): 22-24.
[7] 肖乃慎, 李博, 孔德詩(shī). 大數(shù)據(jù)背景下的電網(wǎng)客戶用電行為分析系統(tǒng)設(shè)計(jì)[J]. 電子設(shè)計(jì)工程, 2015.3.
[8] 孫志偉, 大數(shù)據(jù)環(huán)境下用電行為分析的研究2015.3.
[9] 李玉波, 楊余旺, 唐浩,等. 基于Spark的K-means安全區(qū)間更新優(yōu)化算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2017, 27(8): 1-6.
[10] Wikipedia, k-means clustering--Standard algorithm (2017).
[11] 程麗冰. 大數(shù)據(jù)時(shí)代的電力客戶分群管理應(yīng)用研究[D]. 華南理工大學(xué), 2016.
[12] 沈玉玲, 呂燕, 陳瑞峰. 基于大數(shù)據(jù)技術(shù)的電力用戶行為分析及應(yīng)用現(xiàn)狀[J]. 電氣自動(dòng)化, 2016, 38(3):50-52.
Application Analysis in User Groups Based on Electricity Information Big Data Platform
MA fei1, WANG yong2, GUO wei3
(Beijing huitong jincai information technology Co., Ltd., Beijing 100053, China)
In recent years, big data technology has made great economic and social value in all fields of national production and life. Electricity industry is one of the important areas of big data, electricity big data has its own distinctive industry characteristics, electricity information data contains rich commercial value and social value. This paper introduces how to use big data platform for data acquisition, storage and data mining, through specific scene analysis of large data technology application in electric information of users, so as to improve the user experience,improve the competitiveness of enterprises.
Big data; Hadoop; Hbase; Spark; Data mining; Electricity information
TP311.13
A
10.3969/j.issn.1003-6970.2017.11.026
本文著錄格式:馬飛,王勇,郭偉. 基于用電信息大數(shù)據(jù)平臺(tái)在用戶群體中的應(yīng)用分析[J]. 軟件,2017,38(11):132-136
馬飛(1981-),男,本科,北京匯通金財(cái)信息科技有限公司,主要研究方向:大數(shù)據(jù);王勇(1982-),男,北京匯通金財(cái)信息科技有限公司,主要研究方向:互聯(lián)網(wǎng)+電力營(yíng)銷(xiāo)服務(wù)、互聯(lián)網(wǎng)技術(shù);郭偉(1981-),男,國(guó)網(wǎng)新疆電力科學(xué)研究院,研究方向:電力營(yíng)銷(xiāo)、供電服務(wù)、互聯(lián)網(wǎng)+電力營(yíng)銷(xiāo)服務(wù)。