沈夢雪,李屹然
(1.國網(wǎng)棗陽市供電公司,湖北 棗陽 441200;2.國網(wǎng)老河口供電公司,湖北 老河口 441800)
在過去的十年,各個行業(yè)對電力的需求不斷加大,用電高峰季缺電現(xiàn)象更是時有發(fā)生。隨著可再生能源的發(fā)展,發(fā)電方式變得十分多樣。智能電網(wǎng)提供了一種安全可靠的集成方式,在保證電力系統(tǒng)安全運(yùn)行的前提下,有效結(jié)合可再生能源與傳統(tǒng)發(fā)電方式。智能電網(wǎng)可以視作是電力系統(tǒng)與海量信息的結(jié)合體,由傳感器、執(zhí)行器、智能電表、分布式管理系統(tǒng)、決策支持系統(tǒng)組成,與電力系統(tǒng)與統(tǒng)計(jì)學(xué)、應(yīng)用數(shù)學(xué)和智能算法等領(lǐng)域相融合。但由于電力網(wǎng)絡(luò)的復(fù)雜性,巨大的網(wǎng)格產(chǎn)生了高維的數(shù)據(jù),除結(jié)構(gòu)化數(shù)據(jù)外,還包含大量的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),為數(shù)據(jù)的提取、存儲帶來了許多困難[1-2]。對智能電網(wǎng)而言,數(shù)據(jù)提取、轉(zhuǎn)化、存儲以及決策管理是智能電網(wǎng)運(yùn)行的關(guān)鍵所在,為大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用提供了廣闊的平臺[2]。尤其是在削峰填谷、提供分布式系統(tǒng)的能源效率、提高配電系統(tǒng)可靠性等方面,大數(shù)據(jù)技術(shù)將會起到關(guān)鍵性的作用。基于當(dāng)前智能電網(wǎng)中數(shù)據(jù)的特點(diǎn),本文主要介紹了一種基于云計(jì)算的智能電網(wǎng)大數(shù)據(jù)分析系統(tǒng)體系結(jié)構(gòu),并指出大數(shù)據(jù)技術(shù)在智能電網(wǎng)中運(yùn)用的發(fā)展方向以及需要解決的問題和面臨的挑戰(zhàn)。
大數(shù)據(jù)技術(shù)是一種廣泛收集數(shù)據(jù)并從其中提取知識的技術(shù)[3]。大數(shù)據(jù)分析由以下幾個部分構(gòu)成:分布式文件系統(tǒng)框架構(gòu)成的多用戶數(shù)據(jù)庫,如Hadoop,Mahout等;數(shù)據(jù)庫管理系統(tǒng),如Cassandra,HBase以及查詢語言,如HiveQL。將大數(shù)據(jù)分析應(yīng)用于智能電網(wǎng)中,可以存儲各類智能電網(wǎng)中的歷史數(shù)據(jù),例如溫度數(shù)據(jù)、用戶電能需求和電能生產(chǎn)數(shù)據(jù)等。這些數(shù)據(jù)可以存儲在云環(huán)境中并進(jìn)行處理。現(xiàn)將大數(shù)據(jù)分析的框架介紹如下。
Hadoop又稱作Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),它可以通過本地計(jì)算從一臺服務(wù)器擴(kuò)展到數(shù)千臺計(jì)算機(jī)。而MapReduce是Hadoop的并行數(shù)據(jù)處理系統(tǒng),它可以在大量潛在的高級語言中執(zhí)行,如C、C++和腳本編程語言,Python等。Hadoop MapReduce模型體系結(jié)構(gòu)如圖1所示。

圖1 Hadoop MapReduce模型體系結(jié)構(gòu)
MapReduce由每個集群的單個主節(jié)點(diǎn)和一個從節(jié)點(diǎn)組成,可將多個任務(wù)并行分配給單個集群或共享集群中的數(shù)據(jù)節(jié)點(diǎn)并對結(jié)果進(jìn)行整理、過濾、排序,然后傳遞出去作為輸出。如圖2所示,如果分配給某個節(jié)點(diǎn)的任務(wù)在集群中過載或是分配失敗,則該任務(wù)由集群中的另一臺服務(wù)器執(zhí)行。然而,在多個集群上運(yùn)行會導(dǎo)致運(yùn)算時間增加,并降低處理速度。但由于MapReduce沒有交互模式,需通過添加Hive Hadoop使用戶有一個接口來處理MapReduce范式。

圖2 MapReduce軟件框架
Cassandra數(shù)據(jù)庫是一種非關(guān)系型的數(shù)據(jù)庫(Not only Structured Query Language,NoSQL),專門用于存儲大型數(shù)據(jù)集。Cassandra支持云基礎(chǔ)設(shè)施,使其更適用于智能電網(wǎng)。在國外,Cassandra數(shù)據(jù)庫已經(jīng)在網(wǎng)飛、易趣、推特等著名網(wǎng)絡(luò)公司中得到了應(yīng)用。該數(shù)據(jù)庫擁有擴(kuò)展性強(qiáng)、模式靈活、多數(shù)據(jù)中心等優(yōu)點(diǎn),能夠很好地存儲智能電網(wǎng)中的各類數(shù)據(jù)。
Apache Hive數(shù)據(jù)庫軟件用于查詢存儲在分布式環(huán)境中的大型數(shù)據(jù)集并分析計(jì)算大數(shù)據(jù)。Hive使用一種類似SQL的查詢語言HiveQL (HQL)來查詢數(shù)據(jù)庫。Hive由兩個組件組成,分別為Hcatum和WebHcat。Hcatum是一個表,允許用戶在其網(wǎng)格上編寫數(shù)據(jù)。WebHcat使用HTTP接口運(yùn)行Hadoop MapReduce和Hive服務(wù)。HQL查詢由Hive解析器編譯為一組MapReduce程序。與關(guān)系數(shù)據(jù)庫類似,Hive將數(shù)據(jù)組織做成表并存儲到HDFS[4]。
智能電網(wǎng)由智能電表、傳感器、決策支持系統(tǒng)等組件組成,以實(shí)現(xiàn)使傳統(tǒng)電網(wǎng)表現(xiàn)為“智能”的目標(biāo)。本文討論的基于云計(jì)算的智能電網(wǎng)架構(gòu)包含大數(shù)據(jù)分析模塊,以分析智能電網(wǎng)中的各類數(shù)據(jù),例如消費(fèi)者使用數(shù)據(jù)、歷史天氣數(shù)據(jù)等,并預(yù)測傳統(tǒng)能源和可再生能源的電能生產(chǎn)。一些典型的大數(shù)據(jù)在智能電網(wǎng)中的應(yīng)用如圖3所示。

圖3 智能電網(wǎng)中的大數(shù)據(jù)應(yīng)用
云計(jì)算建立在互聯(lián)網(wǎng)的基礎(chǔ)上,是對互聯(lián)網(wǎng)相關(guān)服務(wù)的增加、使用、交付的一種全新模式[5]。云計(jì)算環(huán)境提供各種服務(wù)模型,如基礎(chǔ)設(shè)施服務(wù)(IaaS)、網(wǎng)絡(luò)即服務(wù)(NaaS)、平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)。云計(jì)算也擁有不同類型的云部署,如私有云、公共云、分布式云等。云計(jì)算技術(shù)可以與智能電網(wǎng)中的大數(shù)據(jù)分析一起使用,以平衡電網(wǎng)中的電能供需。將智能電網(wǎng)、大數(shù)據(jù)分析和云計(jì)算這3種技術(shù)的優(yōu)點(diǎn)匯集在一起,生成基于云計(jì)算智能電網(wǎng)大數(shù)據(jù)分析系統(tǒng)架構(gòu),以執(zhí)行以下功能:
(1)分析歷史天氣數(shù)據(jù),預(yù)測電能產(chǎn)量;
(2)分析消費(fèi)者行為模式,以提前預(yù)測需求;
(3)跟蹤各種來源的電能生產(chǎn),并決定在高優(yōu)先級/低優(yōu)先級需求之間的切換;
(4)需求/供應(yīng)鏈之間的平衡負(fù)載;
(5)有效地完成發(fā)電量的存儲/傳輸。
如圖4所示,上述的體系架構(gòu)主要由智能電網(wǎng)側(cè)和基于云計(jì)算的大數(shù)據(jù)分析框架兩個部分組成。智能電網(wǎng)端將所需的數(shù)據(jù)傳遞至大數(shù)據(jù)分析所用的數(shù)據(jù)庫,數(shù)據(jù)庫由歷史天氣數(shù)據(jù)、消費(fèi)者行為模式、電能供需等數(shù)據(jù)庫組成。每次系統(tǒng)根據(jù)歷史天氣數(shù)據(jù)和消費(fèi)者行為模式預(yù)測電力需求和計(jì)算所需的電力供應(yīng),并將智能決策反饋到智能電網(wǎng)端。上述數(shù)據(jù)均存儲在云端Cassandra數(shù)據(jù)庫。為了管理數(shù)據(jù)的存儲和檢索,系統(tǒng)使用Hadoop分布式文件系統(tǒng)。HDFS負(fù)責(zé)將存儲分配到機(jī)架中的節(jié)點(diǎn)。Map函數(shù)每次將一個輸入(key,value)對轉(zhuǎn)換為一組中間結(jié)果(key,value)對;Reduce函數(shù)對key相同的一組value進(jìn)行處理,產(chǎn)生最終結(jié)果并寫入分布式文件系統(tǒng)HDFS[4]。

圖4 基于云計(jì)算的智能電網(wǎng)大數(shù)據(jù)分析系統(tǒng)
對智能電網(wǎng)中的各類數(shù)據(jù)而言,數(shù)據(jù)的提取、傳輸和存儲環(huán)節(jié)仍然有許多挑戰(zhàn)值得關(guān)注,現(xiàn)將其中較為關(guān)鍵的問題總結(jié)如下。
由于傳感器的數(shù)據(jù)有時會被更新和覆蓋,導(dǎo)致之前收集的數(shù)據(jù)被覆蓋。但在提取數(shù)據(jù)中的有效信息之前,歷史數(shù)據(jù)不應(yīng)該被覆蓋。一旦被覆蓋,則會嚴(yán)重影響數(shù)據(jù)收集的準(zhǔn)確性。
數(shù)據(jù)生成的精度為秒,由此會產(chǎn)生TB級別的數(shù)據(jù),增加了數(shù)據(jù)流傳輸?shù)呢?fù)擔(dān),且對如此級別的數(shù)據(jù)進(jìn)行分析的價值很低。
在分析測量點(diǎn)或傳感器上產(chǎn)生的數(shù)據(jù)時,通常不進(jìn)行流式傳輸或直接傳輸?shù)酱鎯卧R虼嗽跀?shù)據(jù)分析的預(yù)處理步驟,應(yīng)選擇合適的方法處理數(shù)據(jù)丟失帶來的問題。
考慮到智能電網(wǎng)中的應(yīng)用程序時常需要根據(jù)實(shí)時數(shù)據(jù)進(jìn)行數(shù)據(jù)處理、分析,這對數(shù)據(jù)清理的時間提出了較高的要求。就已有的技術(shù)而言,具有Hadoop或spark的基于云的基礎(chǔ)設(shè)施是保障數(shù)據(jù)能夠進(jìn)行快速實(shí)時處理的較好解決方案。然而,此類方案仍存在著延遲、網(wǎng)絡(luò)擁塞、算法復(fù)雜和計(jì)算速度有限等固有問題。
快速、安全、可靠的通信信道是涉及實(shí)時分析的應(yīng)用程序面臨的一個挑戰(zhàn)。保護(hù)通信通道的信息安全是一項(xiàng)復(fù)雜而耗時的任務(wù)。而電網(wǎng)數(shù)據(jù)需要通過維護(hù)數(shù)據(jù)的完整性和機(jī)密性來保護(hù)電網(wǎng)數(shù)據(jù)的安全。
在大數(shù)據(jù)時代,信息是影響決策的關(guān)鍵因素之一。因此,本文提出了在智能電網(wǎng)中實(shí)施大數(shù)據(jù)分析和云計(jì)算的架構(gòu),使得智能電網(wǎng)的運(yùn)行更加高效。對于發(fā)展中的智能電網(wǎng)而言,有效提取相關(guān)信息能夠很好地促進(jìn)節(jié)能減排并促進(jìn)電力資源的合理利用,亦具有很高的商業(yè)價值。但該過程也對利用大數(shù)據(jù)技術(shù)提取、存儲智能電網(wǎng)中各類數(shù)據(jù)的安全性、準(zhǔn)確性、實(shí)時性提出了更高的要求。大數(shù)據(jù)技術(shù)未來在智能電網(wǎng)中進(jìn)一步的發(fā)展應(yīng)圍繞數(shù)據(jù)提取的安全性和高效性、增強(qiáng)數(shù)據(jù)處理的實(shí)時性、數(shù)據(jù)庫的橫向擴(kuò)展以及數(shù)據(jù)的可視化等方面來進(jìn)行。此外,在法律層面,提取公共用電數(shù)據(jù)進(jìn)行分析有可能侵犯用戶個人隱私,有關(guān)部門也應(yīng)建立健全相關(guān)法規(guī),讓大數(shù)據(jù)技術(shù)更好地為社會服務(wù)。