任紅英


摘要:新一代信息技術與制造業深度融合,正在引發影響深遠的產業變革,形成新的生產方式、產業形態、商業模式和經濟增長點,大數據分析、人工智能等新技術與能源行業的結合應用越來越緊密。本文對基于大數據的電力環保數據平臺建設進行探討。
關鍵詞:大數據;電力;環保;平臺建設
1數據整理
平臺數據來源眾多,數據質量參差不齊。為了提升數據可靠性,保證后續應用的順利開發與數據挖掘的準確性,必須在數據流轉過程中對數據進行轉換、過濾、清洗等數據處理操作。ETL過程處于承上啟下的重要環節,是保證數據質量的重要手段。數據處理具體包括數據檢查、數據標準化處理、匯總、清洗、庫內處理等功能。數據標準化處理強調對不同格式的數據進行統一數據格式轉換、統一映射、統一編碼。數據加工功能,提供數據加工規則管理,支持不同形態數據加工管理。數據清洗功能,包括數據清洗環節管理、數據清洗規則管理、數據清洗監控、數據清洗預覽等功能。SIS系統的數據包括1/4的開關量以及3/4的模擬量數據,每個機組設備點數、點名不一致,即使同一指標點名也是各異的,同時數據質量不高,經常會出現數據過高、歸0、亂跳等各種異常情況,甚至一些數據錯誤模式常常出現變化。針對以上這些問題,需要提供規則可靈活配置的接口,對每個數據點進行精確加工和清洗,使ETL過程實現數據的全量管理。首先要建立元數據加工模型,在此模型中,對每一個機組設備相同點進行統一映射,不同的點進行擴展映射。對每一個點單獨配置轉換規則,轉換為統一的數據單位。對那些不能通過其他指標直接轉換的點,配置計算規則,盡量補全缺失數據。平臺采用AI、神經網絡等普適性算法,通過分析大量歷史數據,建立機器學習體系,實現對數據進行清洗的自適應智能算法。如基于PauTa準則的異常數據清洗算法與基于Hermite多項式插值的數據補齊方法。為了避免數據個體差異引起的誤判,系統AI將采集到的數據進行歸一化處理后,基于PauTa準則對數據進行自動檢測后,判定異常數據點,并對其進行清洗。剔除異常數據后,采用Hermite多項式插值技術補齊采樣點的數據。
2數據存儲
環保數據平臺數據不僅要保證業務數據快速、安全地落地存儲,還要提供高效的在線查詢功能。此外,存儲的數據還要便于未來的數據挖掘,助力環保智慧應用場景。前期可以投入較少硬件,未來能夠靈活進行存儲、計算資源的擴容。通過數據壓縮、多級數據存儲,提高訪問效率,降低存儲成本。SIS數據為非結構數據,無法提前完整預建表的元數據結構。測點眾多、采集頻率高需要支持并行入庫能力,數據存儲結構還要能支持通過時間范圍、設備名、測點名等條件高效查詢原始數據。針對工程管理等業務系統,需要能夠支持全量、增量、實時等數據入庫模式,文檔數據也要快速存儲、靈活檢索使用。針對這一特殊場景,構建了以列式數據庫、數據倉庫、搜索引擎互補的三位一體持久存儲體系。通過增量抽取列式數據庫,整合全局數據,構建以基礎數據層、匯總加工層和集市層多層互補的數據倉庫體系。數據倉庫依照分析需求、分析維度、分析指標設計的數據集合,通過數據倉庫可以進行大規模的數據挖掘用于支持決策,為后續統計報表、OLAP多維分析、數據挖掘、預測分析提供數據源及分布式計算能力。平臺對原始數據查詢以及數據倉庫分析支持的同時,對文本文件、數據倉庫分析結果等提供查詢支持。基于倒序索引,支持十億以上級別數據的秒級結構化檢索、全文檢索,同時作為列式數據庫的二級索引方案,顯著提高列式數據庫的條件搜索性能。支持中文字符集,實現中文分詞功能,支持結構化數據和半/非結構化數據聯合查詢,支持預定義維度數據查詢,支持簡單查詢、組合查詢、模糊查詢等。基于環保數據模型驅動多類型數據引擎融合,不同的數據引擎存貯管理不同類型的業務數據,以實現最佳性能。平臺可以根據數據類型配置存儲時長,可設為永不刪除或者用戶設定保存時長,超出保存周期的數據平臺自動壓縮歸檔,并通過一個統一的全生命周期數據模型,對各類數據進行管理,降低數據理解和獲取成本,平臺使用先進的大數據技術,數據多副本存儲,單一節點損壞不影響數據的可用性和完整性。數據存儲結構圖如圖1所示。
3數據挖掘
智慧環保大數據平臺要真正實現其智慧性,必須能夠對所有的業務數據進行深度挖掘。通過數據分析與挖掘技術,從海量數據中,提取有價值的信息,為企業決策提供重要依據。該平臺提供了統一的分布式數據運算架構體系,使相關人員僅需關注業務算法,輕松實現海量數據的大規模并行分析。平臺基于統一的數據倉庫,提供分布式實時、離線計算引擎,使數據分析人員能夠進行機器學習算法、分布式圖計算、交互式SQL近實時查詢,實現全面的數據分析和數據挖掘能力。平臺探索各類數據特性,統一編碼,制定符合挖掘的數據結構,保證挖掘性能,同時完整實現權限管理、資源管控等功能。一般OLAP的多維分析是基于鉆取、上卷、切片、切塊以及旋轉等操作,讓數據的展示更加直觀。數據挖掘常常通過關聯分析、聚類、分類等機器學習算法,甚至深度學習來挖掘數據隱藏的價值。平臺在基于數據立方、機器學習技術的基礎上,充分結合環保設備在生產運行中面臨的特殊場景,通過建立設備節能降耗分析、催化劑壽命預警、等多個數學模型,不斷對模型進行自學習與修正,解決生產環節中面臨的實際問題。與此同時,平臺通過故障庫對故障處理的操作等方面知識進行沉淀,幫助現場進行運維知識留存,實現設備智能運維,閉環運維的目標。平臺支持多種數據計算框架,例如實時流計算框架、批處理計算框架,內存計算框架,支持企業在大數據平臺上運行多種類型的復雜任務。支持并行計算及并發處理功能,支持多服務器、多CPU、多進程并行及并發處理數據的機制。數據分析與挖掘架構圖如圖2所示。
4數據應用
4.1應用軟件
基于SIS系統機組設備數據,能夠開發出高性能智慧環保系統,系統支持大型脫硫脫硝設備智能監測分析,能夠對所有發電企業各類機組進行實時監控展示、性能分析。系統通過對各方數據采集、綜合管理等平臺的數據資源整合,基于自主搭建的大數據智能分析平臺,實現設備實時監測、參數報警、故障處理方式推薦、設備節能降耗智能分析等功能,并通過移動端APP及PCWEB端進行可視化效果展示。
4.2API接口
智慧環保平臺是一個開放的平臺,可為任何第三方提供準確可靠的數據訪問服務,API接口可為用戶提供具有海量查詢能力支持的RestfulAPI、JavaAPI、Thrift等多類接口,方便任何第三方業務系統從平臺中獲取統一的信息。同時提供了統一的權限校驗,不同的部門只允許查詢本部門的數據,不同角色的人員只允許查詢指定授權的數據。傳輸過程中,提供了數據加密、認證措施,防止數據被盜取、惡意篡改,造成數據丟失以及財產損失。通過開放API接口,其他業務系統能夠共享環保大數據成果。
4.3專家工具
該平臺作為智慧大數據平臺,需要不斷發展智能分析模塊,需要相關業務人員利用平臺已有的數據進行深度的分析和研究,為了便于業務人員能夠更加輕松地完成整個分析過程,平臺提供了自助式OLAP分析功能,業務人員無須寫代碼就能進行分析操作,進一步降低了數據分析的使用門檻,用戶只需要拖拽分析的維度和指標,不需要考慮底層復雜的并行計算框架與機制,就能呈現一個完整的數據報告。例如針對SIS系統數據,選取按月、按分公司,選定需要查詢的時間范圍等條件,指定需要查詢入口SO2濃度、原煙氣流量等指標以及是取平均值、最大值等,即可進行海量數據聚合分析工作。專家工具使業務人員更專注于數據,更加輕松完成智能分析模塊的搭建,對提升整個平臺的智能化提供強大的動力支持。
結束語
環保數據平臺借助大數據分析、人工智能等信息技術,將北京國電龍源環保工程有限公司海量的脫硫脫硝等環保數據全部納入管理,深層挖掘數據實用價值。數據平臺對所有SIS系統的數據通過自適應智能清洗算法處理后,形成唯一可信的原始數據源。
參考文獻
[1]杜若,謝川,吳群艷.電力環保大數據平臺開發及智能運用[J].電力大數據,2017,20(08):64-67.
[3]劉世成,張東霞,朱朝陽,等.能源互聯網中大數據技術思考[J].電力系統自動化,2016,40(08):14-21+56.