梁濤 李燕超 許琰 楊改文



摘要:為充分利用風電場集控中心采集爆炸式增長的海量數據,解決風電場SCADA系統數據存儲和處理能力不足的問題,設計基于SCADA系統的云計算平臺,實現數據的高效分布式存儲以及處理。傳統LS-SVM適用于小樣本數據,對風電場海量數據的處理比較乏力,針對此問題,采用MapReduce云計算平臺實現算法并行化,并用遺傳算法對其進行參數尋優。最后利用某實際風電場SCADA系統的歷史數據,實現短期風功率預測功能。在數據不斷增加的情況下,采用MapReduce云計算平臺實現LS-SVM算法并行化訓練比單機LS-SVM訓練縮短的時間十分顯著,可增強SCADA系統的實時性;當數據增加到1.2 GB時,時間縮短一半,而準確度相差0.1%。
關鍵詞:SCADA;云計算LS-SVM;并行;風功率預測;遺傳算法
中圖分類號:TP277 文獻標志碼:A 文章編號:1674-5124(2019)10-0114-06
收稿日期:2018-08-31;收到修改稿日期:2018-10-09
基金項目:河北省科技計劃項目(16214510D)
作者簡介:梁濤(1975-),男,河北石家莊市人,教授,研究方向為風力發電、大數據、人工智能、自動控制。
0 引言
隨著風電場數據爆炸式的增長,傳統的風電場SCADA系統數據存儲和串行處理能力不足的問題日益凸顯,如何高效處理復雜且異構的風電大數據,挖掘隱藏在風電大數據背后的價值,是傳統的風電場SCADA系統面臨的巨大挑戰。在數字信息化時代的推動下,云計算技術應運而生,為風電大數據的處理帶來了曙光。文獻[1]設計了一個基于云平臺大數據的風電集中控制系統,實現了實時數據的采集和上傳,但沒有做進一步的數據挖掘。Lee等[2]提出一種基于SVM的檢測模型來尋找T型整流器開路故障的位置。SVM可以用來解決兩類(正常或異常)和多類問題。Zhang等[3]提出了一種基于光伏發電數據和部分氣象數據預測天氣類型的新方法,通過數據分析推導出天氣類型。Rahulamathavan等[4]指出SVM在許多實際應用中具有強大的數學基礎和高度的可靠性。然而,傳統的SVM模型有著高時間成本消耗。
近幾年來,Hadoop分布式云計算平臺不斷發展,傳統算法的性能問題可以通過用多個計算節點進行并行計算來解決。楊博等[5]在大數據環境下對支持向量機進行并行化,指出了支持向量機的理論研究方向與背景,并沒有實際的驗證。陳珍等[6]提出了一種基于MapReduce的SVM(MR-SVM)態勢評估方法,實驗結果表明并行化后的SVM更適用于大數據態勢評估,但是并沒有對SVM參數進行尋優。Zhang PeiYun等[7]提出了一種基于支持向量機(SVM)的SVM-Grid系統參數搜索方法在線檢測模型,并提出了預測云故障和更新故障樣本數據庫的策略,以優化模型并提高其性能。本文將風電場集中控制中心與云計算平臺相結合,解決傳統風電場SCADA系統數據存儲成本昂貴、數據處理能力不足等缺點,同時完成風電場SCADA系統大數據的回歸,以及優化短期風功率預測功能,并驗證并行化LS-SVM的優越性。
1 系統整體結構
此系統結構圖如圖1所示。如圖所示,該架構分為3個部分:每個風電場側,中央控制中心側和云計算平臺側。它們相互之間通過電力調度專網來進行通信。
風電場側的設計應做到采集不同廠家不同設備設施的信息數據,同時能夠進行各種通信協議的自由轉換,為集控中心的統一監控、統一調度和分析評測奠定基礎。
風電場側包括以下功能:
1)風機實時運行數據采集與控制(安全Ⅰ區);
2)升壓站實時運行數據采集與控制(安全Ⅰ區);
3)功率控制系統(AGC/AVC)數據采集與控制(安全Ⅰ區):
4)風功率(wind power)預測系統數據采集(安全Ⅱ區區);
5)保護及故障信息子站數據采集(安全Ⅱ區區);
6)電能量計量信息采集(安全Ⅱ區區)。
集控中心主站能夠讀取各個風電場風機監控系統、電站綜合自動化系統、功率預測系統、風機振動監視系統等系統所有數據、畫面、圖形。工作人員可以在集中監控和調度集中控制中心內所有風電場的設備和設施。
在安全Ⅰ、Ⅱ區區主要實現的監控功能:
I)狀態監測功能;
2)可定制數據展現功能;
3)生產運行及設備故障實時報警功能;
4)統計分析與專家診斷功能;
5)關鍵儀表盤功能:顯示相關指標,如發電、風機故障、風機可利用率。
在安全Ⅲ區區主要實現的各關鍵指標圖表功能:
1)生產運行類指標:有效風速小時、平均空氣密度、發電量、并網電量、等效利用小時數、輸電線路損耗率、風機計劃停電系數、運行系數、計劃外風機中斷因子、暴露率等;
2)可利用率性能類指標:風機設備可用性、風電場可用性、機組運行和維護成本、故障報警日志可用性、運行時可用性、風能利用率等;
3)故障統計類指標:平均拆卸間隔時間、設備故障停機率、致命故障、主變壓器故障率、風機維修總時間、無功調節設備故障率、平均故障間隔時間、故障發電損失量、平均無故障間隔時間、平均修復時間等任務時間。
本文設計的云計算平臺可以在廉價的計算機集群上存儲和處理PB級數據,處理后的數據結果傳給集中控制中心,以便于集中控值中心的工作人員做出決策。
2 云計算平臺
基于以上架構,在Ⅲ區搭建云平臺,內部結構如圖2所示。搭建云平臺需要兩個主要部分:ONE套的云基礎設備;2)底層的數據采集。云計算平臺是一個大數據處理平臺,采用Hadoop+MapReduce的分布式數據處理技術[4,8]。與傳統的數據處理方式相比,該平臺基于靈活多變的開源框架,根據需要隨時改變組件,且支持水平擴展,具有互聯網屬性、更加開放安全等明顯優勢。
2.1 分布式文件系統(HDFS)
HDFS為Hadoop云計算平臺提供了一個可靠、安全、高可用的分布式文件系統,是分布式計算的基礎。HDFS以流數據訪問模式存儲非常大的文件,并不需要在昂貴且高可靠的硬件上運行。HDFS采用主從架構,以管理節點-工作節點模式運行,即NameNode(管理節點)和多個DataNode(工作節點)。NameNode管理文件系統的命名空間,它維護文件系統樹以及整個樹中的所有文件和目錄,此信息將作為兩個文件永久保存在本地磁盤L。DataNode是文件系統的工作節點,它們定期將它們存儲的塊列表發送到NameNode。
在圖3中,客戶端必須經過NameNode的確認才能訪問文件系統,在已獲得相關信息情況下,才能夠對整個文件系統進行讀寫,可以說NameNode是整個文件系統的人口。
2.2 分布式計算框架(MapReduce)
MapReduce由Java開發,是一個用于處理大量數據的分布式并行編程模型。它將數據的計算過程劃為mapper()函數和reduce()函數實現。每個階段都將鍵值對作為輸入和輸出。第一階段(Map階段):將輸入的數據平均劃分成大小相等的切片,并將每個切片分解成鍵值對的形式作為正式輸入,執行mapper()函數生成中間結果;然后按照k2的值排序,將具有相同k2值的相應的v2值組合在一起以形成新列
第二階段(Reduce階段):對Map任務的輸出整合排序,將輸出到Hadoop的HDFS上。
2.3 云計算平臺數據處理
云計算平臺的核心是數據處理,Hado即是與云計算平臺最契合的分布式并行的運行架構,支持各種數據算法[9]。風電場云計算平臺是以風電大數據為輸入,按照算法給定的規則進行處理,并輸出對應的結果。
本文采用支持向量機(SVM),可以實現風電場SCADA系統大數據的回歸分析,根據預測模型的預測值,既可以對風機未來一段時間內運行趨勢進行預測,還可以基于實際值和預測值的偏差,來預測故障的發生。
核函數是支持向量機和關鍵組成模塊的核心,可以有效地解決系統非線性問題,解決維數災難。由Hilbert-Schmidt理論得知,只要某個對稱函數滿足Mercer條件都可以被定義為核函數。建立回歸模型時核函數有很多種,模型選擇不同的核函數會對結果的精度以及泛化性產生不同影響。例如:徑向基函數:
徑向基核函數的表達式如下
其構造的SVM的判別函數表達式如下
除此之外,核函數還有Sigmoid函數、小波核函數、線性核函數等等。在這些函數中,徑向基核函數的結構簡單,泛化能力好適用于解析復雜模型的高度非線性關系,基于此,本文采用徑向基核函數。
3 基于遺傳算法的LS-SVM核函數參數的選擇
最小二乘支持向量機(LS-SVM)是一種特殊的核函數學習機,遵循結構風險最小化(SRM)原則。該算法不僅可以簡化求解過程,而且可以提高求解收斂速度[10]。本文核函數選擇徑向基函數,LS-SVM主要有兩個參數,一個是懲罰因子,另一個是徑向基函數參數,這兩個參數直接影響到支持向量機的訓練結果。
遺傳算法是基于達爾文生物進化論的自然選擇和遺傳學機理提出的一種尋求最優解的算法[11]。其主要過程是將解決問題的解(稱為“染色體”)進行編碼,常見個體的編碼方式有兩種,它們分別是二進制編碼和實數編碼,其基本就是把解空間映射到染色體空間。隨后在這些解空間中產生合理的初始種群,根據適應度函數以及遺傳中的選擇、交叉和變異的操作對個體進行選擇。保留適應度值高的個體。這樣新產生的后代之中保留了上一代優點,且又有了上一代沒有的優點,多次迭代,直至得到最優解。
3.1 基于MapReduce并行LS-SVM算法
訓練集被分成子集并分發到每個節點用于訓練以獲得相應的子支持向量。第一階段(Map階段):將每個計算節點的子訓練集合與全局支持向量進行合并,然后通過遺傳算法訓練和測試統一的數據集,以選取最優參數與懲罰因子。第二階段(Reduce階段):每個計算節點使用由第一階段獲得的參數對(C,gama)來訓練數據集以獲得每個節點子支持向量。然后合并每個節點的新子支持向量與全局支持向量,以產生新的全局支持向量。當全局支持向量滿足多次迭代后的條件時,循環結束,表示已獲得最優的回歸函數,具體流程如圖4所示。其中,S表示全局支持的變量,S1表示每個節點中訓練數據集的子集。
4 實驗及結果分析
為驗證本文提出的并行LS-SVM算法的性能,本文在Hadoop 2.0平臺下對風電場數據集處理效果進行了測試。
在某風電場集控中心搭建的Hadoop 2.0云計算平臺由7臺華為的服務器組成,是由1個主節點和6個從節點組成的主從結構。每個節點服務器的標準配置是Intel(R)Xeon(R)CPU E5-2630 v4@2.20GHz 2.19GHz(2處理器),32GB,網絡速率為100Mb/s。本文選擇的Linux版本為CentOS 6.5,Hadoop版本為Hadoop 2.0。
實驗搭建的Hadoop 2.0云計算平臺如圖5所示,主節點用于完全分布式系統元數據的管理與調度任務,從節點用于完全分布式系統的數據存儲和計算。
選取經過清洗之后的風電場SCADA系統歷史數據庫中的風速、有功功率和轉子轉速,通過LS-SVM回歸算法的設計,建立風電場SCADA大數據的回歸預測模型,落實短期風力預測功能。風電場SCADA大數據的回歸結果如圖6和圖7所示。
如圖可知,藍色點分別表示風電機組實際運行的風速一有功功率和風速一轉子轉速的散點圖,紅色曲線表示經LS-SVM回歸算法處理獲得散點圖擬合曲線,實現了云計算平臺中風電場SCADA大數據回歸預測模型的建立。通過擬合的曲線,不僅可以預測未來一段時間內風力發電機組的運行情況,而且若某一時刻有功功率和轉子轉速的實際運行值與擬合曲線的值有較大偏差,說明此時風力發電機組可能發生了故障,需要值班人員進行預檢修等。這為機組維護人員提供了技術支持,保證了風電場正常安全的運行。
基于上述風速一有功功率的回歸預測模型,進行短期風力預測,得到實際運行風電場3d的有功功率預測結果,如圖8所示。
由預測曲線可知,預測值和實際值相差不大,表明數據清洗之后的回歸預測模型可以實現短期風功率的預測。
1)時效性
為了進一步驗證該平臺的優越性,本文使用建立的6個有效節點,在不斷增加數據集的情況下,比較了MapReduce并行改進前后的LS-SVM算法的時效性,如圖9所示。
由圖可知,LS-SVM算法MapReduce化并行改進前后在不同數據集上的運算時間是不同的,在數據量比較小的情況下運算時間差距不大,但是隨著數據量的增加MapReduce并行化改進的算法明顯縮短了運算時間,并且隨著數據集的越來越多,MapReduce并行化改進LS-SVM算法在回歸分析的時效性方面變得越來越有優勢。
2)正確率
正確率(accuracy)表達式如下式所示:
accuracy=(TP+TN)/(P+N)(3)
正確率測試的目的是比較LS-SVM算法MapReduce化并行改進前后回歸結果的精確度,選用風電場SCADA系統歷史數據庫100MB、200MB、500MB和1GB數據作為測試數據集,回歸結果的正確率對比如圖10所示。
通過上圖回歸結果可以看出,隨著測試數據量的增加,LS-SVM算法的回歸的正確率都逐步上升,說明了數據量越大,容錯能力越強。雖然MapReduce化并行改進后LS-SVM算法與LS-SVM算法相比回歸正確率變化不大,但是MapReduce化并行改進后LS-SVM算法的時效性增強,相同時間下可以運算更多的數據,間接提高了回歸結果的正確率。
5 結束語
本文設計了一個基于風電場SCADA系統的云計算平臺,實現數據的高效存儲,利用云計算平臺的架構實現了短期風功率預測功能。利用MapReduce結構實現了算法的并行化,通過設計主要的Map函數和Reduce函數,并結合遺傳算法,在保證正確率的前提下,顯著地縮短了算法的訓練時間。
參考文獻
[1]叢智慧.基于云平臺大數據技術的風電集控系統的設計與應用[J].內蒙古科技與經濟,2016(19):61-63.
[2]LEE J S,LEE K B.An open-switch fault detection methodand tolerance controls based on SVM in a grid-connected T-type rectifier with unity power factor[J].IEEE Trans.Ind.Electron.,2014,61(12):7092-7104.
[3]ZHANG W Y,ZHANG H G,LIU J H,et al.Weatherprediction with multiclass support vector machines in the faultdetection of photovoltaic system[J].IEEE/CAA J.Autom.Sinica,2017,4(3):520-525.
[4]RAHULAMATHAVAN Y,PHAN R C W,VELURU S,et al.Privacy-preserving multi-class support vector machine foroutsourcing the data classification in cloud[J].IEEETrans.Dependable Secure Comput,2014,11(5):467-479.
[5]楊博,黃斌.大數據環境下的支持向量機算法研究[J].信息化建設,2016(3):349.
[6]陳珍,夏靖波,楊娟,等.基于MapReduce的支持向量機態勢評估算法[J].計算機應用,2016,36(1):133-137.
[7]ZHSANG P Y,SHU S,ZHOU M C.An online fault detectionmodel and strategies based on SVM-grid in clouds[J].IEEE/CAA Journal of Automatica Sinica,2018,5(2):445-456.
[8]崔紅艷,曹建芳,史昊.一種基于MapReduce的并行PSO-BP神經網絡算法[J].科技通報,2017,33(4):110-115.
[9]羅賢縉,岳黎明,甄成剛.風電場數據中心Hadoop云平臺作業調度算法研究[J].計算機工程與應用,2015,51(15):266-270.
[10]馬躍峰,梁循,周小平.一種基于全局代表點的快速最小二乘支持向量機稀疏化算法[J].自動化學報,2017,43(1):132-141.
[11]HONG Y Y,CHEN Y Y.Placement of power qualitymonitors using enhanced genetic algorithm and wavelettransform[J].IET Generation,Transmission&Distribution,2011,5(4):461-466.
(編輯:劉楊)