李 亞 李存斌
(華北電力大學經濟與管理學院,北京 102206)
國家電網公司在“2009特高壓輸電技術國際會議”上提出了名為“堅強智能電網”的發展規劃。堅強智能電網的核心技術就是傳感技術,利用傳感器對關鍵設備(溫度在線監測裝置、斷路器在線監測裝置、避雷器在線監測、容性設備在線監測)的運行狀況進行實時監控,然后把獲得的數據通過網絡系統進行收集、整合,最后通過對數據的分析,挖掘,并根據挖掘出的信息進行決策,從而達到對整個電力系統的優化管理。
隨著可再生能源技術的發展,可再生分布式發電得到了很大的發展,分布式電網和微網也會隨著分布式可再生發電系統的發展得到很大的發展。越來越多的分布式微網的接入對電網運行的安全性帶來了新的挑戰。通過配電網和微電網直接向用戶供電,不僅可以提高電能質量,還可從區域電網吸收電能提供給用戶,同時將分布式能源發出的電能回送給區域電網,實現潮流雙向流動[1]。對分布式能源接入狀態進行監測,分析監測數據實現風險預警,提前防范成為保障電網安全運行的重要措施。然而分布式能源系統分布位置難以集中,數據類型繁多,每天產生的數據量也很大,數據的集成和分析也變得很困難。本文針對分布式的能源接入狀態監測數據的特點設計了一種利用Hadoop解決數據集成問題的方案。
分布式能源是指靠近用戶側分散的一切可利用能源,既包括化石燃料能源,又涵蓋了可再生能源,諸如石油、天然氣、風能、太陽能、生物質能等。可單獨為用戶提供電能,也可與大電網并網供電運行,當單獨為用戶供電是可與儲能裝置構成微電網[2]。隨著智能電網的進一步發展,家庭微型發電系統也將會并入電網。
狀態信息是智能電網狀態監測的基礎支撐,智能電網狀態監測的信息已遠遠超出了傳統電網狀態監測的信息范疇,是更加寬泛的信息采集。在智能電網中,一次裝備與二次設備、設備與系統將更加融合,多學科復合技術應用將日益廣泛,隨之而來的就是專業界限的模糊和融合。因此,智能電網狀態監測的信息采集不僅涵蓋了傳統二次系統設備,還囊括了傳統一次系統的裝備,不僅涉及電網裝備,還包括發電、用電裝備,不僅包含裝備自身狀態信息,還包括電網運行狀態信息及其他信息[3]。
Hadoop是開源組織Apache的一個子項目,Hadoop簡化了基于集群的分布式應用程序的開發,其具有很高的可擴展性,可以隨著數據規模的增長來增加硬件設備的投入。Hadoop最主要的兩部分是Map/Reduce和HDFS,Map/Reduce是分布式運算的基本操作,輸入時通過Map把數據分解,分別計算,使用Reduce把計算的結果匯總,HDFS(Hadoop Distributed File System)是一個分布式文件系統,是谷歌GFS(google File System)的開源實現。此外,Hadoop下面還有眾多的子項目,如數據倉庫工具Hive,列式數據庫HBase,數據分析工具Pig等。在信息爆炸的時代,Hadoop可以很好地應對數據量的大規模增長,從而幫助企業分析處理數據,把信息有效地轉化為價值。
MapReduce是一種分布式的編程模型,其核心思想是把數據分割成split0、split1等小塊分散到不同的計算機上進行map操作,經過sort和計算機之間的復制,數據之間的合并得到有序的數據集合,最主要的應用是在搜索引擎上的倒排索引的建立。
Hadoop分別從不同的角度將主機劃分為不同的角色。在集群上,劃分為master和slave,即主從分布模式;在HDFS的工作上,可以劃分為NameNode和DataNode,NameNode作為主服務器,負責對文件命名空間和客戶端訪問文件的權限進行管理,也可以對數據到DataNode上的映射進行管理,DataNode則負責數據存儲的管理,在NameNode的調度下回應客戶端的讀寫請求;從MapReduce工作機制上看,可以把主機劃分為JobTracker和TaskTracker,JobTracker負責初始化和分配MapReduce作業,并和TaskTracker進行通訊,監控TaskTracker的狀態信息。TaskTracker負責執行JobTracker分配的任務,并把自己的狀態信息發送給TaskTracker。
Sqoop也是Apache軟件基金會組織下的一款開源的軟件。Sqoop是傳統的數據庫和HDFS之間的橋梁,通過Sqoop可以方便地把關系型數據庫中的數據復制到HDFS中,而不用編寫復雜的MapReduce任務,簡化了開發的流程,同樣Sqoop也可以把數據分析的結果導入到關系型數據庫里面,以便利用關系型數據庫高效的索引技術,方便數據的使用。
Sqoop封裝了Map操作可以把數據從關系型數據庫導入到HDFS里面或者導入到Hive表或者HBase里面。
當數據分析完成之后可以把存在HDFS里的數據導出到數據庫里面,Sqoop導出數據到數據庫的原理如圖1所示。

圖1 Sqoop導出數據原理圖
分布式發電系統在運行的時候由SCADA系統收集了系統運行的基本信息,這些基礎信息一般保存在本地的數據庫服務器中,在風電和光電發電系統都有著本地的數據庫服務器,分布式的家庭微電網也有著諸如SqlLite之類的嵌入式數據庫服務器,大規模的分布式發電系統數據量較大,可以通過專用的光纖連接到當地的數據中心,分布式的家庭微電網可以通過VPN鏈路連接到當地的數據中心。
在當地的數據中心部署DataNode節點服務器,負責信息的收集,數據通過Sqoop從現場的數據庫服務器傳輸到當地數據中心部署的HDFS里,完成數據收集的Map任務,各地數據中心的數據可以通過高速的光纖網絡互連,從而在分析數據的時候可以較快地運行Reduce任務。數據導入系統設計如圖2所示。

圖2 分布式發電監測數據集成
在分布式Hadoop平臺上運行MapReduce任務可以很好地處理大規模的監測數據[4],可以運行Pig或者使用Mahout運行數據分析,這樣就可以避免編寫復雜的MapReduce程序進行數據處理[5]。在運行數據分析后,數據分析的結果存在HDFS中,為了更快地檢索和使用可以使用Sqoop把分析的數據結果保存到傳統的關系型數據庫中。這樣就可以利用傳統關系型數據庫的索引機制加快數據的檢索,方便決策支持系統提取數據進行決策分析。
文章論述了規?;姆植际侥茉醇磳⒄归_大規模的商用[6],研究了大規模的風電機組數據的監測[7],兆瓦級的風電場每個風機都會產生大規模的數據,隨著數據量增長Hadoop在數據集成上對比傳統的集成方案有著明顯的優勢。雖然Hadoop可以處理大規模的數據,但是監測數據需要保存到傳統的數據庫中才能利用Sqoop傳輸到當地數據中心。這就需要數據集成系統方案提供商能夠提供跨越數據庫和網絡連接的解決方案,直接把傳感器的數據寫入到HDFS中的DataNode節點。由于數據集成方案提供商較多,這就需要提供統一的類似IEC61850這樣的通信標準,只有基于Hadoop的分布式電網數據集成方案才能得到大規模的使用。
隨著Hadoop以及監測技術的發展,以及文章[8]中提到的分布式電網故障信息集成和智能分析的應用,分布式能源接入電網對電網的影響可以降到很低,而且還可以提高電網運行的穩定性。所以基于Hadoop的分布式能源狀態監測集成的研究也就顯得尤為重要。
[1]梅生偉,王瑩瑩.輸電網-配電網-微電網三級電網規劃的若干基礎問題[J]. 電力科學與技術學報,2009,24(4):3-11.
[2]馬晶.分布式能源在智能電網環境下的發展方式探究[D].上海:上海交通大學,2012.
[3]劉驥,黃國方,徐石明.智能電網狀態監測的發展[J].電力建設,2009(7):1-3.
[4]Chuck Lam.Hadoop in Action[J].Manning Publications,2010.
[5]Sean Owen,Robin Anil,TedDunning,et al..Mahout in Action[J].Manning Publications,2010.
[6]陳偉,張軍,李桂菊,等.規模化可再生能源發電及分布式電網有望實現商業應用[J].中國科學院院刊,2013(5):630-632.
[7]單光坤.兆瓦級風電機組狀態監測及故障診斷研究[D].沈陽:沈陽工業大學,2011.
[8]趙萍,徐辰婧,趙紀元.分布式電網故障信息集成與智能分析的研究及應用[J]. 華東電力,2012(10):1824-1827.