張東東,鄭 波,吳月超,羅遠林,鄒 雯
(中國電建集團華東勘測設計研究院有限公司,浙江 杭州 311122)
數據質量是智慧電廠“自主決策、無人值守、狀態檢修”的基礎保證。電力物聯網打通電站數據孤島間的數據鏈路,但在數據采集端和傳輸存儲過程中,由于傳感器故障、信號干擾、隔離裝置異常等情況,經常造成原始數據質量下降,無法為后續智慧化深度應用提供基礎支撐。掌握數據的質量,是有效利用數據的基礎。隨著海量數據的不斷累積,對電力物聯網大數據質量進行有效的監督已成為電力行業面臨的新課題。
電力物聯網大數據具有多源多度性[1]。電力物聯網第一類數據來自生產實時信息系統;電力物聯網第二類數據來自生產管理信息系統;電力物聯網第三類數據來自流媒體平臺。同時,這三類多源數據采用了不同的采樣率,呈現出多種時間尺度,包括納秒級、微秒級、毫秒級及秒級等。
電力物聯網大數據具有海量異構性。常規水電廠單臺機組配有近萬個監測點,每天產生海量數據,僅存儲的數據就在GB 級,且數據結構多樣。
傳統評價流程如下:
(1)從電站計算機監控系統/狀態監測系統數據庫導出需要查看的數據excel;
(2)人工查看某時間段某些測點的數據質量情況;
(3)人工統計數據缺失、異常情況。
選擇某水電廠1 500 條計算機監控系統數據,采用人工方式進行數據質量評價,對各個環節的耗時情況進行統計,如表1 所示。將表1 的結果繪制成餅狀圖如圖1 所示。

表1 人工方式數據質量評價各環節耗時統計表

圖1 采用人工方式進行數據質量評價各環節耗時餅分圖
按行業現狀,人工方式進行數據質量評價需要人工識別和統計數據的缺失條目、錯誤條目、異常條目、重復條目、時間戳錯誤條目等,評價 1500 條數據總耗時94 min,其中人工統計數據質量占88%,人工查看數據質量占11%,導出數據庫占1%,總體效率不高。
系統采用數據層、技術支撐層、用戶層三層架構,如圖2 所示。數據層提供分布式大數據存儲、數據查詢功能,通過數據接口與其他兩層實現通信;技術支撐層提供8 種識別數據質量問題的算法模型和軟件系統常規性功能模塊;用戶層提供系統前端頁面,可按時間、按系統選擇數據,并可生成數據質量評價報告。
物聯網、云計算、大數據、移動通信等新一代信息技術的發展,正深刻改變著傳統制造業的發展模式。2015年5月國務院印發了《中國制造2025》,把智能制造作為兩化深度融合的主攻方向。2016年12月,工信部發布了《智能制造發展規劃(2016-2020年)》,明確了到2020年,將要建成300個以上智能制造試點示范項目,數字化車間、智能工廠試點示范項目,遴選確定150個以上智能制造標桿企業”[1-3]。
在系統前端頁面選擇要進行數據質量評價的數據,數據經過接口灌入算法模型進行質量評價,并生成數據質量評價報告(見圖3),報告包含數據信息、數據特征、評價結果及綜合意見等信息。

圖3 數據質量評價報告
本文在總結電力系統傳統數據質量評價方法基礎上,提出提高評價效率的方法,通過編寫識別數據質量的算法模型,開發數據質量智能評價系統,按選定時間范圍自動評價數據質量,將1 500 條數據質量評價的總耗時降低至26 s,即由人工評價94 min 降低至26 s,大大提高了數據質量評價效率。