李俊艷 鄭州電力高等專科學(xué)校
隨著社會(huì)信息化程度的不斷提高,數(shù)字化信息量呈現(xiàn)爆炸式增長,互聯(lián)網(wǎng)信息化進(jìn)入極速增長期。國際互聯(lián)網(wǎng)數(shù)據(jù)公司IDC統(tǒng)計(jì)全球數(shù)據(jù)以每年50%的速度增長。電力工業(yè)是國家基礎(chǔ)能源的重要組成部分,麥肯錫從大數(shù)據(jù)應(yīng)用在各行各業(yè)的發(fā)展等方面研究闡述對人類生活等方面產(chǎn)生的意義。2012年達(dá)沃斯世界經(jīng)濟(jì)論壇上大數(shù)據(jù)成為會(huì)議熱點(diǎn),探討如何利用數(shù)據(jù)產(chǎn)生良好社會(huì)效益。2013年電機(jī)工程學(xué)會(huì)發(fā)布《中國電力大數(shù)據(jù)發(fā)展白皮書》,重新定義了電力大數(shù)據(jù)的特征,以期推動(dòng)大數(shù)據(jù)更加廣泛的應(yīng)用到電力工業(yè)領(lǐng)域。隨著智能電表普及,SCADA系統(tǒng)部署完善,電力工業(yè)數(shù)字信息化程度大幅提高,電力企業(yè)信息化建設(shè)從80年代財(cái)務(wù)電算化信息化建設(shè)到大規(guī)模企業(yè)信息化建設(shè),計(jì)算機(jī)技術(shù)在電力行業(yè)中得到廣泛應(yīng)用。電力大數(shù)據(jù)的使用在電力行業(yè)各環(huán)節(jié)都有體現(xiàn),本文使用R語言與Hadoop分布式計(jì)算平臺(tái)相結(jié)合,提高數(shù)據(jù)分析速度。通過分析不同用戶用電特征,對用戶進(jìn)行針對性電力營銷策略。
數(shù)據(jù)采集技術(shù)的快速發(fā)展使得數(shù)據(jù)可在短時(shí)間內(nèi)完成海量積累,數(shù)據(jù)挖掘技術(shù)是智能系統(tǒng)理論研究的重要課題。通過人工智能等技術(shù)從海量歷史數(shù)據(jù)中獲取有價(jià)值知識(shí),目前數(shù)據(jù)庫儲(chǔ)存數(shù)據(jù)量日益增多,通過數(shù)據(jù)挖掘技術(shù)可獲取數(shù)據(jù)中隱含的有價(jià)值的信息。研究通過數(shù)據(jù)挖掘技術(shù)預(yù)測電力負(fù)荷,為更合理的進(jìn)行電力調(diào)度提供技術(shù)支撐。
數(shù)據(jù)挖掘技術(shù)聚類分析是將海量大數(shù)據(jù)劃分為互斥組,沃爾瑪購物車分析中發(fā)現(xiàn),將啤酒和尿不濕放在一起銷售可提高銷量。阿里巴巴成立大數(shù)據(jù)團(tuán)隊(duì),分析客戶購物習(xí)慣。聚類分析是大數(shù)據(jù)挖掘分析的一種重要方式,很多聚類算法被收錄在大數(shù)據(jù)分析軟件中。麥肯錫公司發(fā)布大數(shù)據(jù)報(bào)告后,隨著技術(shù)的進(jìn)步,數(shù)據(jù)從GB級發(fā)展到PB級。傳統(tǒng)數(shù)據(jù)處理方式在大數(shù)據(jù)處理速度上不能滿足實(shí)際需求,分布式計(jì)算平臺(tái)Hadoop因其低成本,高性價(jià)比等特性成為企業(yè)大數(shù)據(jù)平臺(tái)首選解決方案。隨著智能電表在用戶側(cè)普及,電力大數(shù)據(jù)在電網(wǎng)應(yīng)用得到發(fā)展。
隨著社會(huì)高度信息化,每天有大量來自商業(yè)、生活等各方面的數(shù)據(jù)注入計(jì)算機(jī)網(wǎng)絡(luò),數(shù)據(jù)爆炸式增長,如何從海量大數(shù)據(jù)中挖掘出具有實(shí)際價(jià)值的信息,為企業(yè)提供決策支撐成為企業(yè)的迫切需要。數(shù)據(jù)挖掘可用于任何數(shù)據(jù)集合,對包含有多種不同數(shù)據(jù)類型的數(shù)據(jù)集合同樣適用。數(shù)據(jù)挖掘技術(shù)根據(jù)處理的數(shù)據(jù)類型有很多模式,包括回歸分析,聚類分析等。數(shù)據(jù)挖掘技術(shù)涉及多個(gè)學(xué)科領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、神經(jīng)網(wǎng)絡(luò)等多門學(xué)科知識(shí)。數(shù)據(jù)分析處理過程包括數(shù)據(jù)收集、數(shù)據(jù)處理和結(jié)果展示幾步,在進(jìn)行數(shù)據(jù)收集的過程中,由于各種原因可能造成屬性值缺失,數(shù)據(jù)重復(fù)等問題,很多數(shù)據(jù)不具有參考價(jià)值,需要在分析數(shù)據(jù)前把可能影響數(shù)據(jù)分析結(jié)果的無用信息清洗掉,以便得到最準(zhǔn)確的分析結(jié)果。聚類是根據(jù)特定規(guī)則,把數(shù)據(jù)集中特征相似的數(shù)據(jù)劃分到同一組,特征差異較大的數(shù)據(jù)劃分到不同的組,是一種常見的數(shù)據(jù)分析方法。數(shù)據(jù)在完成分析處理之后,通常以圖形化、圖表化等直觀的方式展示給用戶。
Hadoop是Doug Cutting等人受谷歌實(shí)驗(yàn)室論文MapReduce:Simplified Data Processing on Large Clusters啟發(fā)開發(fā)出來的一套分布式計(jì)算框架,因其靈活性、開源性等特征,用戶能夠非常快速地在Hadoop分布式平臺(tái)上運(yùn)行自己開發(fā)的用于處理大數(shù)據(jù)的應(yīng)用程序,被行業(yè)內(nèi)很多互聯(lián)網(wǎng)公司使用。
Hadoop是一個(gè)可以對大規(guī)模數(shù)據(jù)集進(jìn)行分布式快速處理的軟件框架,它以并行的方式工作,實(shí)現(xiàn)數(shù)據(jù)的快速高效處理。Hadoop配置在一個(gè)集群上,當(dāng)啟動(dòng)Hadoop集群時(shí),分布于集群各個(gè)節(jié)點(diǎn)的一組進(jìn)程開始運(yùn)行。Hadoop平臺(tái)的核心包括分布式計(jì)算框架MapReduce和文件系統(tǒng)HDFS等。MapReduce采用“分而治之”的形式,把大規(guī)模數(shù)據(jù)劃分成多個(gè)數(shù)據(jù)塊,把各個(gè)數(shù)據(jù)塊分配到不同的節(jié)點(diǎn)進(jìn)行處理,最后把所有節(jié)點(diǎn)的處理結(jié)果進(jìn)行整合,得到最終的結(jié)果。分布式文件系統(tǒng)HDFS主要用于Hadoop中數(shù)據(jù)文件的管理,其存儲(chǔ)可靠性高、數(shù)據(jù)吞吐量大、規(guī)模可擴(kuò)展性強(qiáng)、系統(tǒng)容錯(cuò)能力強(qiáng)和網(wǎng)絡(luò)堵塞概率低等特性,為大規(guī)模數(shù)據(jù)的存儲(chǔ)提供了良好的保障,是處理大規(guī)模數(shù)據(jù)集的合適平臺(tái)。
電力數(shù)據(jù)具有體量大的特點(diǎn),電力數(shù)據(jù)采集方式有很多,在不同環(huán)節(jié)產(chǎn)生海量電力大數(shù)據(jù),通過對這些數(shù)據(jù)分析,可以更好的為用戶提供服務(wù)。智能電表的大規(guī)模普及使得對用戶用電負(fù)荷數(shù)據(jù)采集變的非常方便,本文針對電力大數(shù)據(jù)在用戶用電側(cè)電力負(fù)荷數(shù)據(jù)研究,分析用戶的用電行為特性,更合理地分配調(diào)度電力資源。
電力數(shù)據(jù)在收集、傳輸過程中,由于種種原因,最終從數(shù)據(jù)源導(dǎo)出后通常會(huì)產(chǎn)生部分?jǐn)?shù)據(jù)重復(fù),數(shù)據(jù)屬性值缺失等問題,在數(shù)據(jù)分析之前,需要對原始數(shù)據(jù)中可能引發(fā)不良影響的元數(shù)據(jù)進(jìn)行清洗,包括分析數(shù)據(jù)、缺失值處理、異常值處理、去重處理、噪音數(shù)據(jù)處理等步驟。從數(shù)據(jù)源中獲取的用戶負(fù)荷數(shù)據(jù)含有時(shí)間屬性,智能電表采集數(shù)據(jù)的頻率為每15分鐘一次,通過查看采集在數(shù)據(jù),發(fā)現(xiàn)存在用戶數(shù)據(jù)負(fù)荷數(shù)值缺失等情況。
電力用戶負(fù)荷曲線是時(shí)間序列格式,屬性在不同時(shí)間點(diǎn),屬性值按照一定的順序線性展示,具有非平穩(wěn)性,波動(dòng)幅度隨時(shí)間變化。用電負(fù)荷曲線很大程度上體現(xiàn)了用戶日常用電習(xí)慣,包括負(fù)荷種類,計(jì)量機(jī)電等分類方式。本文涉及用電負(fù)荷按時(shí)間周期分類方式,采用用戶日負(fù)荷曲線,二維空間坐標(biāo)系中Y軸表示用戶用電負(fù)荷,X軸表示數(shù)據(jù)采集時(shí)間。時(shí)間序列分析算法采用傳統(tǒng)靜態(tài)數(shù)據(jù)聚類算法無法勝任。
凝聚式層次聚類算法在電力行業(yè)用電負(fù)荷預(yù)測中也有應(yīng)用,采用層次結(jié)構(gòu)作為算法輸出結(jié)果,將數(shù)據(jù)集中節(jié)點(diǎn)當(dāng)做簇,層次聚類算法通常利用樹狀圖的形式展示結(jié)果。基于歐式距離的聚類算法將負(fù)荷曲線點(diǎn)間的幾何平均距離作為對象相似性判斷標(biāo)準(zhǔn),易造成用電負(fù)荷劇烈不準(zhǔn)確。本文通過將DTW聚類算法應(yīng)用于云計(jì)算平臺(tái),對電力大數(shù)據(jù)進(jìn)行聚類。
電力大數(shù)據(jù)與Hadoop結(jié)合已有很多應(yīng)用,研究通過運(yùn)用HDFS存儲(chǔ)智能電網(wǎng)數(shù)據(jù),對電力數(shù)據(jù)分析預(yù)測,本文對電力用戶負(fù)荷數(shù)據(jù)進(jìn)行聚類分析,通過Hadoop平臺(tái)進(jìn)行分布式計(jì)算,快速得出結(jié)果,提高數(shù)據(jù)分析的時(shí)效性。
實(shí)驗(yàn)采用主機(jī)服務(wù)器搭建Hadoop集群實(shí)驗(yàn),在Cent0S系統(tǒng)解壓下載好的JDK,為使集群中NameNode節(jié)點(diǎn)通信方便,本文采用JournalNode方式,節(jié)點(diǎn)用作其他服務(wù)。主備NameNode節(jié)點(diǎn)切換方式為手動(dòng)自動(dòng),實(shí)驗(yàn)采用簡單手動(dòng)切換模式。安裝R語言及相關(guān)R包完成實(shí)驗(yàn)環(huán)境搭設(shè)。在R語言控制臺(tái)可進(jìn)行數(shù)據(jù)分析。通過比較序列時(shí)間維度拉升操作,使用DTW算法找到時(shí)間序列匹配模式。DTW層次聚類法具有較高準(zhǔn)確性,但執(zhí)行時(shí)需生成鄰近矩陣,如直接對電力大數(shù)據(jù)應(yīng)用DTW層次聚類算法時(shí)間復(fù)雜度高,通過借鑒Srinath對亞馬遜客戶數(shù)據(jù)聚類分析法得出DTW層次聚類算法。
DTW層析聚類算法需通過構(gòu)建時(shí)間序列點(diǎn)距離矩陣,首先對從全部電力負(fù)荷數(shù)據(jù)中隨機(jī)抽樣,將電力負(fù)荷數(shù)據(jù)部署到Hadoop集群的HDFS上,計(jì)算完整的負(fù)荷數(shù)據(jù)與抽樣數(shù)據(jù)聚類中心DTW距離,對數(shù)據(jù)排列歸并得到負(fù)荷數(shù)據(jù)聚類結(jié)果。方案解決了對大數(shù)據(jù)進(jìn)行DTW層次聚類分析高復(fù)雜度的不足,數(shù)據(jù)使用廣東省某一區(qū)域電網(wǎng)大用戶工作日的日負(fù)荷曲線數(shù)據(jù),通過使用DTW層次聚類算法分析歷史數(shù)據(jù)得到用戶用電負(fù)荷特征,縱坐標(biāo)為負(fù)荷值,橫坐標(biāo)為96個(gè)采集點(diǎn)。負(fù)荷曲線特點(diǎn)體現(xiàn)為平均負(fù)荷值較大,工作時(shí)間從凌晨至早上;平均復(fù)合值適中,一天出現(xiàn)三個(gè)波峰;除了固定時(shí)段平均負(fù)荷值出現(xiàn)波谷以外,全天都維持比較高的功率。
在全球信息化時(shí)代浪潮下,如何利用大數(shù)據(jù)技術(shù)為生活帶來更大效益成為當(dāng)下熱門課題。本文對電力大數(shù)據(jù)挖掘進(jìn)行深入研究,對用戶電力負(fù)荷曲線聚類算法對比提出Hadoop平臺(tái)分析解決方案。將DTW層次聚類算法應(yīng)用于Hadoop分布式計(jì)算平臺(tái)對電力大數(shù)據(jù)分析,能夠提高聚類分析結(jié)果的準(zhǔn)確性和時(shí)效性。