摘 要:隨著電力系統(tǒng)信息化的進(jìn)步和智能電網(wǎng)的發(fā)展,電力系統(tǒng)相關(guān)的數(shù)據(jù)量急增,這些數(shù)據(jù)是客觀的記錄,是系統(tǒng)運(yùn)行情況的真實(shí)反映,如果我們想要通過(guò)對(duì)數(shù)據(jù)的挖掘來(lái)把握電力系統(tǒng)運(yùn)行行為,那么首先我們就需要對(duì)數(shù)據(jù)進(jìn)行管理,如何更加科學(xué)的管理電力大數(shù)據(jù)是我們所面臨的一個(gè)問(wèn)題。文章綜述了數(shù)據(jù)庫(kù)一體機(jī)、基于Hadoop平臺(tái)hive數(shù)據(jù)倉(cāng)庫(kù)以及面向列數(shù)據(jù)庫(kù)hbase的內(nèi)部構(gòu)成和應(yīng)用范圍,詳細(xì)地分析各自的優(yōu)勢(shì)和缺點(diǎn),并梳理這些數(shù)據(jù)管理電力大數(shù)據(jù)時(shí)面臨的問(wèn)題。
關(guān)鍵詞:電力大數(shù)據(jù);管理;工具;對(duì)比
引言
電力系統(tǒng)中的能量流——即電能的產(chǎn)生、傳輸?shù)綉?yīng)用消耗過(guò)程,是由用電需求驅(qū)動(dòng)的,既能反映電力系統(tǒng)結(jié)構(gòu)特點(diǎn),又能反映電力系統(tǒng)運(yùn)行狀況,還能反映電力系統(tǒng)與外部環(huán)境(如國(guó)民經(jīng)濟(jì)、社會(huì)活動(dòng))的相互作用。因此,把握電力系統(tǒng)中能量流的時(shí)空分布特性對(duì)提高電力系統(tǒng)運(yùn)行經(jīng)濟(jì)性及安全性具有重要價(jià)值,作為電力系統(tǒng)能量流數(shù)字化的電力大數(shù)據(jù),全面記錄了電網(wǎng)的運(yùn)行狀況,包含了電力系統(tǒng)整體動(dòng)、靜態(tài)行為的豐富信息。深入挖掘這些信息的價(jià)值,有助于提高電力系統(tǒng)運(yùn)行安全性及經(jīng)濟(jì)性。
目前從數(shù)據(jù)形成知識(shí)的過(guò)程是借由數(shù)據(jù)挖掘來(lái)實(shí)現(xiàn)的,即通過(guò)對(duì)數(shù)據(jù)的分析和有效組織和整合提取蘊(yùn)含在內(nèi)部的隱層信息、潛在有用信息和知識(shí)。實(shí)現(xiàn)這一過(guò)程需要對(duì)數(shù)據(jù)進(jìn)行初步核實(shí)、建立相應(yīng)的數(shù)學(xué)模型、評(píng)估分析結(jié)果,這些都是依賴數(shù)據(jù)科學(xué),因此對(duì)于如何科學(xué)的管理數(shù)據(jù)、處理數(shù)據(jù)是一個(gè)重要的問(wèn)題。
1 數(shù)據(jù)庫(kù)一體機(jī)
數(shù)據(jù)庫(kù)一體機(jī)是將軟件層面的數(shù)據(jù)庫(kù)產(chǎn)品與實(shí)體計(jì)算機(jī)硬件有機(jī)結(jié)合的專門服務(wù)于數(shù)據(jù)處理、傳輸、儲(chǔ)存的實(shí)物科技產(chǎn)品。
國(guó)內(nèi)對(duì)于數(shù)據(jù)一體機(jī)的探索和研發(fā)從未間斷過(guò),電力系統(tǒng)數(shù)據(jù)庫(kù)一體機(jī)經(jīng)歷了上個(gè)世紀(jì)80年代引進(jìn)應(yīng)用系統(tǒng)通用機(jī)、90年代建立國(guó)產(chǎn)應(yīng)用通用機(jī)、2000年后的open3000系統(tǒng)的應(yīng)用到現(xiàn)在國(guó)網(wǎng)D5000系統(tǒng)的逐步推廣,形成了一個(gè)數(shù)據(jù)傳輸網(wǎng)絡(luò)化、運(yùn)行監(jiān)視全景化、安全評(píng)估動(dòng)態(tài)化、調(diào)度決策精益化、運(yùn)行控制自動(dòng)化和源網(wǎng)協(xié)調(diào)最優(yōu)化的一體化智能電網(wǎng)調(diào)度系統(tǒng)。
2 基于hadoop運(yùn)行平臺(tái)的數(shù)據(jù)管理工具
2.1 hive數(shù)據(jù)倉(cāng)庫(kù)
Hive是建立在 Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。具有簡(jiǎn)單的類SQL查詢語(yǔ)言,稱為HQL。同時(shí),MapReduce開發(fā)者的可以借此開發(fā)自定義的mapper和reducer來(lái)處理內(nèi)建的mapper和reducer無(wú)法完成的復(fù)雜的分析工作。
Hive構(gòu)建在基于靜態(tài)批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時(shí)候需要大量的開銷。Hive查詢操作過(guò)程嚴(yán)格遵守Hadoop MapReduce的作業(yè)執(zhí)行模型,Hive將用戶的HiveQL語(yǔ)句通過(guò)解釋器轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群上,Hive的最佳使用場(chǎng)合是大數(shù)據(jù)集的批處理作業(yè),例如,網(wǎng)絡(luò)日志分析。
2.2 Hbase數(shù)據(jù)庫(kù)
HBase是一個(gè)開源數(shù)據(jù)庫(kù),兼具有分布式和列存儲(chǔ)的特點(diǎn)。現(xiàn)存的研究主要集中在多種數(shù)據(jù)庫(kù)混合研究上。
國(guó)內(nèi)對(duì)于大數(shù)據(jù)技術(shù)相關(guān)的數(shù)據(jù)庫(kù)的研究也在不斷推進(jìn)中,研究方向和重點(diǎn)主要集中在性能優(yōu)化、混合數(shù)據(jù)庫(kù)的移植性研究上。
3 大數(shù)據(jù)技術(shù)與數(shù)據(jù)庫(kù)一體機(jī)對(duì)比
硬件架構(gòu):大數(shù)據(jù)應(yīng)用平臺(tái)和數(shù)據(jù)一體機(jī)隸屬于同一梯次,實(shí)物架構(gòu)基本一致,都是通過(guò)硬件系統(tǒng)兼容的并行計(jì)算來(lái)完成上層任務(wù)。不同的是,數(shù)據(jù)化一體機(jī)更具有獨(dú)特性、自身優(yōu)化特點(diǎn)。
軟件體系:兩者的最大不同點(diǎn)主要集中在自身軟件體系中,數(shù)據(jù)化一體機(jī)軟件核心的出口和入口都是面向數(shù)據(jù)查詢語(yǔ)言體系,當(dāng)然,絕不僅僅局限在語(yǔ)言解析上,還囊括查詢過(guò)程的優(yōu)化,數(shù)據(jù)本身的優(yōu)化索引,對(duì)各種事務(wù)數(shù)據(jù)的掌控能力。
大數(shù)據(jù)技術(shù)中的各種技術(shù)更加靈活和易于組織,可以在底層進(jìn)行服務(wù)于自身需求的更新和更改,以mapreduce為例如果運(yùn)行人員想要實(shí)現(xiàn)計(jì)算目的,需要手動(dòng)編譯大量的MR程序,把握各種計(jì)算邏輯。大數(shù)據(jù)技術(shù)中的另一項(xiàng)突出優(yōu)點(diǎn)是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析能力,hadoop分布式儲(chǔ)存系統(tǒng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的天然兼容性和對(duì)數(shù)據(jù)原始性的保障,可以對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行類結(jié)構(gòu)化數(shù)據(jù)的查詢和索引。
當(dāng)然數(shù)據(jù)化一體機(jī)由于自身硬件的限制,無(wú)法像大數(shù)據(jù)技術(shù)和平臺(tái)這樣易于擴(kuò)展,對(duì)于超大型復(fù)雜數(shù)據(jù)和內(nèi)在互聯(lián)邏輯不能完美計(jì)算,但是數(shù)據(jù)化一體機(jī)在一定層面上已經(jīng)改善了傳統(tǒng)方式的瓶頸。
4 存在的問(wèn)題和展望
電力大數(shù)據(jù)是以結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)庫(kù)一體機(jī)對(duì)于2維數(shù)據(jù)有著高效的支持度,對(duì)于結(jié)構(gòu)性數(shù)據(jù)具有良好的適應(yīng)性,但由于數(shù)據(jù)庫(kù)一體機(jī)下層數(shù)據(jù)庫(kù)的建立往往依賴于關(guān)系型數(shù)據(jù)庫(kù),內(nèi)在關(guān)聯(lián)在數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)就已經(jīng)設(shè)定,其上層應(yīng)用開發(fā)受數(shù)據(jù)組織形式約束,所以在挖掘隱含信息和知識(shí)方面沒有優(yōu)勢(shì)。另外面對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如社會(huì)化數(shù)據(jù)、各種日志甚至圖片、視頻等)無(wú)法映射為關(guān)聯(lián)化和結(jié)構(gòu)化的2維數(shù)據(jù)時(shí),無(wú)法對(duì)其進(jìn)行有效處理。
大數(shù)據(jù)技術(shù)相關(guān)的數(shù)據(jù)管理工具底層數(shù)據(jù)庫(kù)隸屬于非關(guān)系型數(shù)據(jù)庫(kù),由于弱化內(nèi)在關(guān)聯(lián)關(guān)系,所以在數(shù)據(jù)存儲(chǔ)方面可以通過(guò)分布式存儲(chǔ)來(lái)實(shí)現(xiàn)大規(guī)模數(shù)據(jù)儲(chǔ)存,并且在挖掘隱含信息方面,不受底層數(shù)據(jù)組織的影響,可以通過(guò)自身設(shè)計(jì)模式進(jìn)行數(shù)據(jù)挖掘,但值得注意的是現(xiàn)在大數(shù)據(jù)并非萬(wàn)金油,在面對(duì)處理小型數(shù)據(jù)量的時(shí)候存在高延遲的現(xiàn)象,在離線處理方式mapreduce計(jì)算框架下,map和reduce過(guò)程都需要初始化,并行任務(wù)對(duì)HDFS中數(shù)據(jù)的讀取磁盤開銷巨大,如何科學(xué)的數(shù)據(jù)分塊,如何控制合理的任務(wù)總量和并行任務(wù)執(zhí)行數(shù)量,如何能夠最大限度的發(fā)揮服務(wù)器的性能,優(yōu)化存儲(chǔ)和查詢是需要解決的問(wèn)題。
2014年2月Spark取代MapReduce成為Apache頂級(jí)項(xiàng)目,作為一個(gè)基于內(nèi)存計(jì)算為核心的spark逐漸在各個(gè)領(lǐng)域上面體現(xiàn)出比mapreduce更快的計(jì)算效率,在處理電力大數(shù)據(jù)方面的研究剛剛起步,如何將內(nèi)存式計(jì)算融入到電力系統(tǒng)多次計(jì)算迭代同樣也是一個(gè)待解決的問(wèn)題。
參考文獻(xiàn)
[1]岳峻松,趙俊峰,趙偉,等.數(shù)據(jù)庫(kù)一體機(jī)技術(shù)架構(gòu)解析[J].電力信息化,2013,11(4):60-64.
[2]王為國(guó),曾偉民,代偉,等.基于數(shù)據(jù)倉(cāng)庫(kù)的一體化電力調(diào)度自動(dòng)化系統(tǒng)[J].電力系統(tǒng)自動(dòng)化,2003,27(12):67-70.
[3]馮黃俊,趙景霖,臧菲,等.OPEN3000與DF8003自動(dòng)化系統(tǒng)應(yīng)用區(qū)別及建議[J].電力與能源,2013,34(z1):53-56,60.
[4]李功新,周文俊,林靜懷,等.基于D5000平臺(tái)的調(diào)控操作與防誤一體化系統(tǒng)[J].電力自動(dòng)化設(shè)備,2014,34(7):168-173.