孟 亮
(新疆油田公司采氣一廠,新疆 克拉瑪依 834007)
新疆油田采氣一廠建設了廠級實時數據中心,實現了4 個作業區秒級采集物聯網數據的廠級統一管理,形成了一個每年TB 級別積累的數據資源池,是極為寶貴的數據資產。為充分發揮實時數據的分析價值,采氣一廠從生產管理角度出發,在充分分析自身業務場景的前提下參考各行業數據分析挖掘技術[1-3],研究開發了一套涵蓋數據提取、數據計算、數據管理全過程的后臺服務體系,實現了生產管理數據在實時數據平臺的自動整合分析,為氣田大數據深化應用探索了一條可行的道路[4-5]。
本次研究基于對接實時數據采集平臺的技術基礎,通過任務配置、任務調度、數據拉取和數據處理的流程建立和管理[6],按業務場景、計劃周期、算法類別等多種維度,實現了自動、及時、高效、穩定的實時數據提取與整合,為報表展示和自動化數據存儲奠定了基礎[7]。
本次數據挖掘的目的是將現場實時高頻采集的數據進行數據計算、抽稀、過濾等處理,得到氣田生產運行管理中所需的生產過程特征數據和生產分析決策關鍵指標,為生產運行管理提供準確的、唯一的、標準的、全面的數據服務[8]。其中,實時數據來源于天行實時數據平臺(DATimsien),數據挖掘過程是通過實時數據抽取、報表定制、自動任務3 個轉換引擎實現,各引擎分工不同,引擎之間無縫銜接。
實時數據抽取引擎通過任務配置、任務調度、數據拉取、數據處理等相關環節信息的配置,內置與實時數據采集高效、穩定的對接接口,實現定時從實時數據平臺中按照一定的業務規則獲取所需的生產實時監測數據,并進行必要的數據整合,從而得到報表統計及數據深度挖掘所需的生產數據,具體如圖1所示。
1.1.1 任務配置
基于自動化數據采集點表信息和自動化數據管理系統(Database Management System,DMS)數據庫庫表結構,建立表字段與采集單元、采集點映射關系,配置數據導入模板,實現從實時數據庫到DMS 數據庫的自動提取。數據導入的配置文件包括:①通過定義數據類型字段自動生成時間標簽,做到不同采集數據點進行數據處理后的時間對齊,為數據存儲及后續數據應用調取提供規范的時間標準;②通過定義專有的函數字段快速生成生產對象名,完成實時數據庫無對象化概念到生產數據庫有對象化概念的轉換,實現處理后的數據在生產數據庫中的對象化管理;③通過映射采集單元、采集點,可以獲取所需的實時數據,保證實時數據庫到生產數據庫數據的無縫轉換;④通過定義不同函數字段,可以進行數據轉換處理,實現生產數據特征值、數據抽稀、數據過濾等任務的量化設置;⑤系統自動將這些字段及值拼成結構化查詢語言(Structured Query Language,SQL)并執行,無需數據管理人員根據業務規則人工編寫SQL 語句,降低了對數據管理人員技術門檻要求的同時規避了人工編寫SQL 語句帶來的失誤風險。
數據導入模板后,設定執行計劃(周期、開始時間點),即可成功創建實時數據提取任務。
1.1.2 任務調度
在任務配置的基礎上,通過任務調度機制,采氣一廠可以實現任務的管理,包括按計劃執行任務、手動執行任務,手動啟停任務以及歷年任務執行日志、任務執行狀態等。當任務配置發生變化后,需要重新進行任務的執行部署,使最新配置更新到后臺服務中,任務規則才能生效。
1.1.3 數據拉取
根據目標數據表及源采集單元建立業務關聯規則,將任務中的數據請求進行自動拆分,按照系統資源剩余情況進行自動分批獲取數據,對失敗的任務支持重試機制,可以有效提高數據拉取的穩定性、時效性、準確性,確保為生產分析提供質量良好的數據。
1.1.4 數據處理
通過數據拉取獲取到數據后,在數據入庫前可以利用數據處理規則進行數據處理,包括無效數據的清洗、數據指標的計算等,在處理規則中,其既內置了四則運算、常規內置函數等快速定義處理規則的方法,又支持通過自定義函數處理復雜運算邏輯,能夠滿足繁雜的數據不同特征值計算規則及行業專業算法的應用需求。
運用報表定制引擎,可以在滿足當前業務和管理需求多樣性的同時,兼顧潛在的需求變化,提升系統報表管理靈活性。隨著業務和管理上的調整,原有的固定報表格式、報表類型等可能需要進行相應改變,此時直接通過應用報表定制引擎,或者完善引擎很小部分的內容,就可以實現報表的優化調整及新報表的定制開發。
收集到的業務報表包括崗位報表、工藝裝置報表、化驗報表、綜合管理報表等。分析報表模板及業務需求,技術人員專門開發了一套報表的定制開發機制,提供報表管理所需的各類功能屬性配置,在此基礎上,可以靈活定制開發各類個性化報表。
如圖2 所示,報表定制包括數據源綁定、報表樣式設計、操作交互設計、報表共享發布4 個主要環節。
數據源綁定:指定DMS 數據庫中的數據表作為數據源,支持單表數據源及跨表數據源,通過設定條件篩選數據范圍,指定要顯示的具體字段,并對字段進行顯示名稱命名。
報表樣式設計:定制引擎支持的開發配置屬性包括篩選(時間、對象,支持多級對象間的級聯關系配置,支持檢索條件的自動模糊識別)、排序(指定排序列,可設置升序、降序)、樣式(包括日期格式、小數點位數控制等)、顯示/隱藏列、合并/拆分表頭、列凍結、修改列名、顯示位號行、計算函數、曲線等。
操作交互設計:支持數據查詢、數據新增、數據修改、數據刪除、數據審核、數據下載、數據分頁、數據與曲線切換展示等。
報表共享發布:報表設計完成后,與系統功能菜單進行關聯綁定,無須停止系統服務,系統菜單中即可看到相關報表。
自動任務的目標是實現數據整合過程的全閉環無人化干預,提高數據整合的穩定性、連續性、及時性,將技術人員的精力解放出來,從事更加重要的數據分析挖掘及生產管理工作。運用自動任務引擎,系統實現了多種類型的定時任務,包括實時數據導入任務和計算任務。
1.3.1 實時數據導入任務
根據設定的執行周期或時間點,自動任務引擎將根據所在服務器的時鐘進行任務執行時間的自動檢測與任務計劃的自動制定,自動執行數據提取任務。當前系統中各作業區下的崗位報表,根據管理需要每日8 點和20 點自動執行獲取動態數據的任務。
1.3.2 計算任務
計算任務定位于實現由實時任務得到的動態數據到日報數據、生產運行指標的定時提取與整合,該類任務一般按業務管理需要以天、周、月、年的頻次進行數據的運算,為管理者提供特定的分析數據。目前,業務范圍內涉及的計算任務有動態數據到日月報數據的提取、生產數據表內部字段關聯計算、生產數據表跨表間數據關聯匯總展示等。
全廠共4 個作業區,按照各作業區工藝流程的劃分,實現了氣井、集氣站、深冷、淺冷、電力等生產工藝數據的整合任務配置與實施,打通了實時數據到特征數據的轉換通道。
計算得到的特征值、生產運行指標等數據,是生產運行管理者評估現場運行動態的關鍵數據。當前,采氣一廠第一次實現了跨網絡平臺下數據的自動提取整合,生產運行管理者在第一時間即可獲取到最新的運行動態指標,輔助分析決策更加有據可依。
通過數據的自動提取及手動維護機制,生產過程數據得到了集中存儲管理與共享,建立了完整的生產過程數據庫,數據在各業務崗位之間的流轉不再依賴于紙質文件,數據標準化程度和流轉效率得到極大提升,真正實現了廠級生產數據的無紙化辦公。
通過數據集中管理模式的搭建,采氣一廠建立了唯一的生產數據分析來源,實現了生產數據指標的標準化計算,初步完成了由實時數據到特征數據的提取與應用,是后續各應用系統進行數據挖掘分析的重要數據來源。
(1)通過建立3 個數據服務引擎,采氣一廠可以將物聯網大數據轉換為生產管理需要的報表,在使用時只需要定義好源字段與計算方法,配置服務運行規則,即可實現廠級生產管理報表的自動化推送。通過應用本文探討的技術,采氣廠可以提高數據利用率,系統可以將各類自動化采集的數據,按照統一標準、結構、格式進行集中管理,通過對數據進行綜合對比、關聯分析等,可以及時發現生產規律和存在問題。技術人員和管理人員通過瀏覽器隨時查詢生產自動化系統的實時數據、相關生產報表等,從而提高氣田生產管理和決策水平。
(2)用戶可以通過3 個服務引擎及配套系統進行數據及報表的可視化配置,降低數據挖掘的門檻,從而將業務需求與開發技術進行進一步融合,以適應未來越來越豐富的應用需求。通過數據關聯、數據共享、數據分析等技術,并定制開發一系列功能模塊,在工業大數據平臺上快速高效地完成工業操作制度的決策與工業大數據的計算。
(3)通過對氣田數據進行數據挖掘與應用分析,采氣廠可以最大化挖掘數據潛在價值,形成數據模型,統一數據計算規則及數據分析來源,逐步實現氣田智能化分析,降低氣田數據管理投入成本,提高數字化管理水平。