李濤,孫延吉,王會軍,田娜
(石化盈科信息技術有限責任公司,北京 100007)
近年來,油氣長輸管道信息化建設不斷發展,實現了管線工程建設、資產管理、生產運行、經營管理等覆蓋整體業務域的信息化管理模式,實現了管線運行、設備運行、管線泄漏、陰極保護、地質災害等全天候、全時段監測,積累了大量結構化、非結構化的實時性數據資產。以管線完整性管理系統為例, 2015年中國石油通過管道完整性管理系統實現約5.4×104km管道長度完整性管理,積累900多萬條業務數據[1],形成海量數據庫;2018年中國石化通過智能化管線管理系統實現上、中、下游約3.4×104km長輸管線完整性、生產運行、應急響應、隱患治理等的管理[2],實現集團級文檔、視頻、實時數據、圖片等結構化和非結構化約40 TiB管線數據的集中標準化管理。近幾年管道行業數據呈幾何級數高速增長,由此可見,國內管道行業大數據時代已經到來。
國外,“大數據”一詞由美國高性能計算公司SGI的首席科學家約翰·馬西于1998年提出,接下來十多年一直處于不斷探索研究階段,直到2014年概念體系基本成形,形成了包括數據資源、平臺與工具、數據基礎設施等構成的大數據框架體系。國內, 2015年王維斌[3]借鑒管天云等提出的數據處理分析系統架構,結合長輸管道系統特點,提出包括數據源、數據獲取及預處理、數據儲存與計算、數據分析、數據應用等方面的管道大數據系統架構。董紹華等[4]在王維斌提出的管道大數據系統架構基礎上進行了完善,調整了“數據獲取與預處理”和“數據儲存與計算”的先后順序,并進一步細化了數據應用層部分內容。2018年郭磊等[5]提出依托完整性管理中已有數據,結合業務應用場景進行管道大數據平臺設計,平臺架構中增加了平臺監控管理功能。
基于大數據處理技術[6],借鑒相關專家已有研究成果,結合管線大數據應用實踐,進一步完善管道大數據平臺系統架構中各層內容,拓展管道大數據平臺分析內容和范圍。油氣長輸管道大數據平臺系統架構如圖1所示。

圖1 油氣長輸管道大數據平臺系統架構示意
由圖1可知,平臺系統架構分為數據源、數據儲存與管理、數據預處理與計算、數據服務、數據應用以及平臺監控管理六個部分。數據源主要包括: 管線設計、工程建設、調度運行、生產經營等管線系統全生命周期數據采集,通過設置不同數據源的數據獲取接口,與已建信息系統、物聯網系統、第三方數據及應用提供的數據服務等實現集成。數據儲存與管理層利用分布式文件系統(HDFS)和分布式列式存儲數據庫(HBase)實現采集的結構化、半結構化、非結構化以及實時數據的快速持久化存儲與高效數據檢索。數據預處理與計算層利用分布式計算框架(MapReduce)和大數據計算引擎(Apache Spark)實現數據的預處理、特征提取、模型訓練等過程。源數據經過該層格式處理和轉換、整合、去噪、過濾、特征提取等處理后,仍然保存在分布式存儲中供數據計算和分析。數據服務層包括模型服務、算法服務以及通用服務,為管道大數據分析應用提供模型、算法等支撐。數據應用層為用戶提供數據智能檢索、數據共享、業務決策、數據可視化等功能。平臺監控管理包括權限管理、狀態監測等功能,從數據安全、質量、作業狀態、任務調度及平臺健康狀態、組件健康狀態等不同方面進行監管,保障管線大數據平臺的穩定運行。此外,通過油氣長輸管道大數據平臺可實現與其他相關系統間信息流通共享,具體結構關系如圖2所示。

圖2 油氣長輸管道大數據平臺與其他相關系統結構關系示意
對于油氣長輸管道大數據應用來說,數據整合是其中關鍵的一環。油氣長輸管道大數據涵蓋規劃、前期、設計、采購、施工、投產、運行、報廢等全生命周期、全業務數據。由于業務面廣、時間跨度大導致數據呈現雜亂無序、繁瑣冗余、孤立分散等現象,數據整合處理就是將這些雜亂而分散的管道大數據實現按時間維度、空間維度、業務維度“三維一體”的有序、去重、關聯、集中管理,為后續數據特征提取、模型訓練做準備。
數據標準統一是實現數據整合處理的前提和基礎。中國石化信息化標準管理系統對依據主數據編碼標準統一管理涉及的物料、單位、生產等主數據編碼,對各業務信息系統中涉及的基礎數據、業務數據則自行制定標準,如中國石化智能化管線管理系統建立了一套涵蓋管線管理業務、技術、數據三大類88項標準體系,全生命周期標準規范體系框架如圖3所示。該體系包括: 數據采集、數據字典、地圖影像、三維模型、圖形圖例、數據安全、數據質量管理等,用于指導管線全生命周期數據標準化管理。中國石油公共數據編碼平臺建設了集公共數據編碼申請審批、質量管控、集成發布、應用評價的一體化管理平臺,實現了數據標準管理和編碼管理的自動化。此外,中國石油制定了PPS系統、ERP系統、完整性管理系統等相關規范[7-8]。總之,油氣管道企業建設信息系統時,會相應建立一套標準規范作為系統建設的指導。由于各信息系統分開建設,僅考慮各自業務模式、業務流程和業務功能需求,導致設計、采購、施工、運行等各階段所建系統標準不統一,不同系統同一數據內容、格式、大小存在差異,成為后續數據整合的障礙。

圖3 中國石化智能化管線管理系統全生命周期標準規范體系框架示意
1)國外現狀。2009~2011年,聯盟管道有限公司(Alliance Pipeline Ltd.)委托三家在線檢測供應商檢查多個管段,對比分析了三家單位檢測出的環焊縫數據與管道施工記錄,顯示測得的環焊縫與已有數據匹配較好,借此表明環焊縫是管線內檢測數據對齊匹配的理想參考點[9]。2015年,通用電氣和埃森哲公司聯合提出將地理信息系統、生產系統、風險管理系統、資產完整性管理等系統數據集成整合,并與外部天氣、地震、第三方活動等數據結合,為用戶提供實時數據查詢和預測功能[10]。
2)國內現狀。2014年馮慶善[11]提出以內檢測提供的管節信息為基線,管道內外檢測、設計、施工、運行、陰保等管道大數據按照基線進行對齊整合,進而形成統一的數據模型。2018年王波等[12]提出引入相似算法同時結合人工干預實現管道內檢測數據與施工數據中焊縫、閥門、彎頭、三通等基線特征數據的對齊匹配。
因此,在管道建設期與運營期大數據整合處理中,內檢測的環縫、閥門、彎頭、三通等管道基線特征點編號與管道施工期的相關安裝信息所記錄的編號建立一一對應的關系是關鍵[13-14],特征數據對齊匹配后,可將各階段業務數據按基線入庫對齊匹配,即實現管線大數據按空間維度整合,管道內檢測和施工期基線特征點對齊匹配流程如圖4 所示。
1)國外現狀。一些知名管道企業在設備可靠性分析、壓力傳感器泄漏監測、內檢測數據深度評估、操作方案實時優化、云平臺建設等方面開展了大數據應用探索。美國哥倫比亞管道集團在智能化管道系統建設方案中提出應用生存模型處理分析同類設備積累事件信息,實現設備可靠性分析[9]。韓國SK能源在不新增傳感器的前提下,通過7個壓力傳感器數據的分析即可在1 min內發現1%流量的泄漏,漏點定位精度達300 m[15]。Mohamed A等[16]利用Levenberg-Marquardt反向傳播學習算法學習缺陷深度及其對應的漏磁(MFL)檢測形狀信號,實現檢測缺陷深度估計,比較了通用電氣和羅森等服務提供商的報告,結果基本一致。意大利SNAM公司通過移動終端實現現場作業人員記錄、施工完成通告、維護操作、現場設備數據等實時采集,發送至控制中心實時處理分析,將實時優化分析后信息反饋給現場工作人員,將現場采集數據充分利用實現操作實時優化[17]。TransCanada公司于2017年1月開始開展云轉型,進行數據中心整合分析,將所有數據向云端轉移;到2018年初,開始遷移應用程序,制定遷移計劃,將提升后應用程序遷移到云環境中,創建協同工作環境,為實現一體化的運營優化以及預測性分析功能提供支撐[18]。

圖4 管道內檢測和施工期基線特征點對齊匹配流程示意
2)國內現狀。一些管道公司以及學者充分利用了將管道設計施工、管道內外檢測、風險監測、SCADA監控等方面積累的數據,開展管道腐蝕、設備故障、風險預警、運行參數等方面的研究和應用探索,但大部分應用研究屬于管道完整性管理業務范疇。原中國石油管道公司分析和挖掘積累的內檢測管道大數據,為管道風險判定、缺陷維修計劃等提供建議方案,實現缺陷精準修復[11]。原中國石化管道儲運公司利用大數據技術進行設備健康診斷探索試點建設,在集成SCADA等在線監測數據的基礎上,將近期采集的數據與參考模型比對,盡早發現設備漸變故障。李俊彥等[19]利用邏輯回歸模型建立管道工程滑坡風險概率計算模型,指導管道滑坡風險應急處理工作;林現喜等[20]提出基于管道內外檢測大數據,通過內檢測數據比對、內外檢測數據比對可發現新的腐蝕缺陷、計算腐蝕速率、分析管道腐蝕原因;郭磊等[5]采用線性回歸模型、決策樹模型、隨機森林模型分別預測第三方施工發生的可能性,經過對比分析發現隨機森林模型具有較好的預測效果;張新建等[21]利用關聯規則技術挖掘管道中積累缺陷等相關數據,分析管道本體缺陷與其他因素間的關聯關系,為管道腐蝕控制與防護提供決策依據;張明等[22]融合往復式壓縮機多個傳感器的采集結果實現基于多源信息融合的壓縮機故障診斷;馮新等[23]提出利用滑動窗口離群值分析的大數據分析方法分析處理光纖分布式溫度監測數據,與負壓波或泄漏聲技術相比具有較高的定位精度;王夢嬌[24]利用Spark ML機器學習算法中的決策樹、隨機森林、支持向量機、極致梯度分類預測管道光纖安全監測5類典型事件,發現隨機森林分類算法在管道安全監測分類上應用效果較好;于濤等[25]綜合應用遺傳算法(GA)和神經網絡 (BP),將管道SCADA中積累的運行數據利用起來,建立GA-BP油溫預測模型預測進站油溫,計算結果表明模型預測結果比理論計算結果更準確;王茀璽等[26]從SCADA中抽取壓縮機的壓力、流量、轉速信息,利用聚類分析和深度學習網絡模型建立壓縮機實際壓力預測模型,獲得比傳統特性換算方法更準確的計算結果;Guanqiu Qi等[27]利用支持向量機(SVM)識別和分類往復式壓縮機的潛在故障,利用收集的5 a運行數據在云環境下進行了評估,結果表明該模型能有效地診斷壓縮機潛在故障。
借鑒國外知名管道公司應用案例,結合當前大數據方面國家政策和國內發展不足與短板,提出未來國內油氣長輸管道大數據未來發展方向[28]:
1)依托油氣長輸管道全生命周期數據標準,構建油氣長輸管道數據治理體系。目前,國內管道企業已經基本實現覆蓋管道規劃、設計、采購、施工、驗收、運行、廢棄等全生命周期數據標準的建立,內容包括: 數據采集、數據字典、地圖影像、三維模型、圖形圖例、數據安全、數據質量管理等方面。由于尚未構建油氣管道數據治理體系,因而在缺乏有效的機制來管控管線全生命周期數據的情況下,出現建設期與運營期依據數據標準不統一、數據無法在不同業務域系統中重復利用、數據確權不明確、數據安全與數據共享利用率間存在矛盾等問題,已經成為制約管道大數據發展的短板之一。
2)由管道業務、系統開發、數據分析人員協調配合,構建油氣長輸管道大數據專門管理機構。油氣長輸管道大數據應用研究是涉及管道業務、數據分析業務、系統開發業務的綜合性業務,同時亦是貫穿管道全生命周期的持續性業務,包括: 管道設計、采購、施工、運行等大數據應用。因此,有必要構建由業務、系統開發、數據分析人員組成的油氣長輸管道大數據專門管理機構,其中管道業務人員熟悉業務流程和相關業務理論方法,負責利用油氣長輸管道大數據結合業務場景提煉數據分析挖掘的目的;數據分析業務人員熟悉大數據算法模型,負責利用算法模型實現數據分析挖掘目的;系統開發業務人員熟悉大數據應用系統平臺,負責利用系統平臺實現數據分析挖掘的開發,三者間協調配合,以業務為導向、數據分析和系統開發為支撐,為管道大數據應用研究持續順利進行提供專業化人員保障。
3)加強油氣長輸管道大數據應用廣度和深度,破除“積累數據量多、挖掘信息量少”的應用現狀。目前,國內油氣長輸管道行業大數據應用主要集中在管道完整性管理領域,利用統計分析、各種模型預測算法實現管道腐蝕缺陷致因分析、腐蝕控制、風險預警等,對工程建設、生產、調度、能耗、安全環保、采購等管理業務則少有相關研究,亦無指導性深層次應用,如管道本體缺陷大數據應用方面,現階段通過關聯規則可以挖掘管道本體缺陷與周邊環境、本體屬性之間的關聯規則,但無法進一步做出管道本體缺陷發生失效風險的最佳防控方案,需要人工根據關聯規則結果尋求問題解決之道。總的來說,管道大數據的應用的廣度和深度不足,未實現數據蘊含價值的充分挖掘,呈現“數據量大、信息量少”的現狀,對數據的分析挖掘還處在初級階段。國際商業機器公司(IBM)相關報告指出: 大部分企業僅利用了1%的數據。未來,結合國家管網成立帶來的管道業務模式轉變及發展要求,建議管道大數據應用向管道全生命周期業務域擴展,實現管道設計與施工方案優選、管網運行調度優化、管道應急響應方案自動生成、管容需求預測、針對性營銷服務等深層次應用研究,實現管道多源異構大數據充分挖掘利用,實現數據資產價值的最大化。