張興



摘要:本文探討了風電運營大數據平臺建設與應用過程中遇到的關鍵技術挑戰和技術突破的方向。文章最后以大數據平臺上建設風電經營管控模型中的應發電量為例,介紹基于大數據平臺下應用系統及數據模型的建立。
[關鍵詞]風電運營大數據 經營管控模型 風電機組全壽命模型 性能分析模型
大數據(big data),或稱海量數據;是由數量巨大、結構復雜、類型眾多數據構成的數據集合,通過數據的集成共享、數據處理與應用,交叉復用形成的智力資源和知識服務能力。大數據的4V特性(Volume、Velocity、Variety、Value)正在逐步改善工業制造領域和運營領域的效率。如何挖掘大數據來智能支撐風電運營商的各項業務并進行業務轉型,是目前研究的熱點問題。總體而言,風電運營大數據沉淀了五個維度的海量數據:一維風電場機組、升壓站、測風塔、關口表等時間序列數據,一維設備臺賬數據,一維人員運行檢修記錄數據,一維運營指標數據,一維生產系統統計結果數據。
其中,風電場機組、升壓站、測風塔等時間序列數據量大(約占大數據平臺數據總量的97%)。假設其每秒產生2KB的回傳數據,一臺風機一年產生的全量數據為60GB。當有上萬臺風機的時候,數年下來歷史數據會達到PB量級。通過對五維數據建模實現3個業務的升級:風電經營管控模型、風電機組全壽命模型以及機組性能分析模型。
1風電運營大數據平臺
如圖1所示,風電運營大數據平臺以開源Hadoop技術為基礎架構,實現海量數據的存儲和分析,實現信息一致、資源共享、消除信息孤島。風電運營大數據平臺的建設目標是:
(1)建立一個規范化、標準化的數據共享資源,包括數據采集、數據存儲、數據共享等的標準化。實現生產類,運營指標類等風電生產運營數據標準規格統一,完善數據分析指標體系。
(2)解決現有信息化系統計算分析瓶頸。
隨著數據庫數據的不斷增加,計算分析所花費的時間隨之延長,定時計算任務對服務器造成壓力也較大,生產系統需要經常使用數據展示,不適合進行頻繁的統計分析查詢,計算任務也在逐年增加,有必要打破系統各自計算的現狀,使用這種計算能力易擴展、分析方法分析手段豐富的大數據分析。
(3)實現多種類型生產運營數據的存儲分析。現有實時數據庫目前只能存儲浮點、開關量的數據,無法存儲、振動波形、音頻、視頻、文本等生產數據,并發揮這些數據的價值。
(4)實現數據接口、數據共享服務。現.有各類信息系統之間數據無法共享,各系統間存在數據孤島問題,計算后的模型無法共享,存儲的數據未在全集團共享,因此提高數據共享能力,能夠降低各系統使用數據難度,實現數據價值最大化。
2技術挑戰
風電運營大數據平臺的建設對于風電經營管控模型、風電機組全壽命模型以及機組性能分析模型的提升帶來以下幾個技術挑戰。分別是海量數據實時數據服務、海量數據存儲、數據畫像、行業數據模型建立、應用數據平臺服務。
2.1海量實時數據服務
首先估算一臺風機的回傳數據大小,假設每臺風機每秒回傳500個數據點(即500個傳感器屬性),按運營商15000臺風機估算,風電運營大數據平臺的數據接收端需要實現750萬點/秒的速率接收全部風機設備的回傳數據,并且對收到的數據進行實時處理。首先,針對750萬點/秒的回傳速率,以每個數據點4Byte計,需要以28.6MB/s的吞吐量在異步消息平臺實現數據的接收。其次,針對實時分析,需要實時分析平臺的支持750萬點/秒的實時處理。
海量實時數據從風電場端前置機接收的數據用flume發送給Kafka進行異步消息發布,然后用Storm從Kafka集群中訂閱相關消息,進行實時分析,分析結果再寫入Kafka,然后用Flume從Kafka訂閱消息后發送給HDFS落地。如圖2所示。
海量實時數據服務的架構優勢在于:
(1)前后都用Kafka對接數據流,場景通用,便于工程應用實施;
(2)Storm支持實現復雜的監控邏輯,實現模型映射、數據清洗、數據修正、監控告警燈功能;
(3)Kafka異步消息機制使生產者和消費者處理速度可以不同步,可在允許數據延遲的基礎上保證數據的完整性;
(4)Kafka和Storm的性能和可擴展性可滿足大規模生產環境。
2.2海量數據存儲
為最大化的利用數據存儲空間,增加數據的訪問效率,數據存儲模塊分為兩大部分,一種是存儲在大數據平臺HDFS,一種是存儲在關系數據庫Oracle。大數據平臺HDFS存儲的數據有:秒級的時間序列數據,十分鐘的時間序列數據。關系數據庫Oracle存儲的數據有:設備臺賬數據、人員運行檢修記錄數據、運營指標數據、生產系統統計結果數據。大數據平臺HDFS采用列存儲Parguet實現列存儲,具體由實時數據服務將清洗和處理過的數據直接轉換為Parquent列存儲,或者落地HDFS后,周期性批量轉為Parquent格式。如圖3所示。
在海量數據存儲設計中,97%以上的數據存儲空間存儲的是秒級的時間序列數據,這些數據涵蓋風電場風電機組、升壓站、測風塔、關口表,是進行風電經營管控模型、風電機組全壽命模型以及機組性能分析模型基礎原始數據。這些數據的訪問速度直接影響到模型建立的和結果輸出的時效性。Parquet是一種用于Hadoop的列式二進制文件格式,此格式對于大規模查詢非常高效,是為充分利用以列的方式存儲的壓縮數據而創建的,列式存儲和行式存儲相比優勢在于:
(1)可以跳過不符合條件的數據,只讀取需要的數據,降低I0數據量。
(2)壓縮編碼可以降低磁盤存儲空間。由于同一列的數據類型是一樣的,可以使用更高效的壓縮編碼(例如RunLengthEncoding和DeltaEncoding)進一步節約存儲空間。
(3)只讀取需要的列,支持向量運算,能夠獲取更好的掃描性能。
在工業大數據領域,大量的是時間序列數據,且具有采用Parquent而不采用文本數據格式能夠降低約75%的存儲空間,同時提升了約10倍的數據讀取性能。
2.3時序數據畫像
時序數據畫像(DataProfiling),指基于統計方法抽取原始數據中的特征信息,用于描述原始數據,進而支持數據質量分析、數據探索等任務。
機器數據畫像的基本原理是針對風機產生時間序列數據進行全量掃描,針對每條序列的時間戳變化、模擬量取值、模擬量取值梯度、開關量取值、開關量切換等指標進行描述統計,得到一級數據畫像指標,用于描述序列級別的數據特征;同此,結合設備的靜態參考數據(例如設備分類、設備地區等),可以得到二級數據畫像指標,用于描述靜態參考數據聚合的機器數據特征。由于數據畫像是基于全量時間序列進行分析,因此需要基于MapReduce或Spark等并行計算框架實現數據畫像和結果匯總。
如何區分數據質量問題和真正發生的異常狀況是時字數據畫像中技術應用挑戰。
數據質量分析包含數據缺失和重復、回傳頻率異常、長時間無變化、累加值為負等。通過離線批量計算的方式對風機時間序列數據進行定期分析,計算采集數據各維度的統計分布特征,使得數據服務中心可以隨時掌握數據的自身特性,同時對數據本身確定性的質量問題,業務人員可以針對以上情況對數據采取相應措施。
數據探索是從業務邏輯出發,對經過數據質量分析的數據,通過離線和在線數據挖掘技術利用SparkMLib機器學習算法對時序數據進行分析,Spark的設計初衷就是為了支持一些迭代的Job,MLlib目前支持四種常見的機器學習問題:分類、回歸、聚類和協同過濾。
通過在線采用ApacheKafka和Storm構建流式實時數據通道,并在此過程中完成對數據的實時分析。通過流數據挖掘算法,通過對數據在時間維度上的縱向統計分析以及多維度數據進行橫向比對,在分析的過程中可以實時發現數據中存在的問題。
2.4應用數據平臺服務
應用數據平臺服務是大數據平臺針對存儲的五個維度的海量數據,對運行在大數據平臺上的上層應用系統或者是第三方應用系統將能夠提供如下數據服務:
(1)所有存儲的時序歷史數據的的查詢及接口服務,包括風電場機組、升壓站、測風塔、關口表等時間序列數據。
(2)所有接入的實時數據查詢及接口服務;
(3)所有應用系統寫入的數據查詢及接口服務,人員運行檢修記錄數據,運營指標數據,生產系統統計結果數據。
(4)大數據平臺的主數據的數據查詢及接口服務,包括設備臺賬數據等。
(5)大數據平臺公共服務數據,包括標準功率曲線、擬合功率曲線、單臺風機的各項應發電量和損失電量、單臺風機的各項應發小時數、實發小時數和損失小時數、風機可利用率、風電場可利用率、綜合廠用電量和綜合廠用電率、限電比例等。
應用數據平臺服務的關鍵技術挑戰在于提供數據服務接口的穩定性和時效性,根據數據服務類型和數量以及時效性開發的數據服務接口集,包含實時數據訪問Restful接口、大數據平臺訪問的SQLonHadoop、數據庫訪問的SQLondatabase和定制化的API接口。具體見圖4。
2.5行業數據模型建立
以大數據平臺上建設風電經營管控模型中的應發電量為例,介紹基于大數據平臺下應用系統及數據模型的建立。
應發電量一項考核風電場以及區域公司發電效益的一項指標,并考慮發電量損失主、客觀因素的風電場損失電量評價指標。
利用單臺機組月度十分鐘數據擬合功率曲線計算每臺機組的理論應發電量、機組故障停運損失電量、機組計劃檢修停運損失電量、限電損失電量、場內受累損失電量、場外電網計劃受累損失電量、場外電網非計劃受累損失電量、場外自然因素受累損失電量。
其中,數據輸入模塊中十分鐘數據利用SQLonHadoop接口取自于大數據平臺,靜態信息、異常申訴記錄、月報數據取自于oracle數據庫。數據計算模塊采用SparkR編寫,利用大數據平臺的計算資源實現。數據計算流程圖如圖5所示。
數據輸出模塊將單機應發電量和各項損失電量、月功率曲線存儲在oracle數據庫。
3結束語
大數據技術起源與互聯網領域正逐漸對傳統工業領域帶來顛覆性影響,數據資產已逐漸受到風電運營商的重視。文章著重探討了建設風電運營大數據平臺遇到的關鍵技術挑戰和技術突破的方向,分別是海量數據實時數據服務、海量數據存儲、數據畫像、應用數據平臺服務、行業數據模型建立。大數據平臺的建立,解決了傳統行業數據采集、數據存儲、數據計算、數據共享等問題,并且伴隨數據資產的累積,利用大數據技術提升風電運營水平,促進風電信息化業務轉型升級具有重大的意義。
參考文獻
[1]李學龍,龔海剛,大數據系統綜述[J].中國科學:信息科學,2015(01).
[2]趙國棟,易歡歡,糜萬軍,鄂維南,著.大數據時代的歷史機遇[M].清華大學出版社,2013.
[3]李國杰,程學旗,大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012(06).
[4]WuXindong,ZhuXingquan,WuGongqing, et al. Data mining withbig data. Knowledge and DataEngineering.2014。
[5]張東霞,苗新,劉麗平,張焰,劉科研.智能電網大數據技術發展研究[J].中國電機工程學報,2015(01).
[6]Muhammad Bilal, Lukumon O. Oyedele,Junaid Qadir, Kamran Munir. Big
Data in the Construction Industry:A Review of Present Status,Opportunities,and Future Trends [J].Advanced Engineering Informatics,2016.
[7]張君艷,董娜,彭偉,郭禹伶。大數據平臺在電力企業中的應用[J].河北電力技術,2016(01).
[8]Yichuan Wang, LeeAnn Kung, TerryAnthony Byrd. Big data analytics:Understanding its capabilities andpotential benefits for healthcareorganizations[J]. TechnologicalForecasting & Social Change.