帥訓波 石文昌 馮 梅 周兆華 賀 佩
1.中國石油勘探開發研究院信息技術中心 2.中國人民大學信息學院
3.中國石油勘探開發研究院氣田開發研究所 4.中國石油勘探開發研究院油氣地球物理研究所
我國石油天然氣信息化歷程劃分為面向局部應用的分散建設、體系標準規范化的統一建設、跨信息系統的集成應用和面向服務的智能共享等4個主要階段[1]。隨著云計算、大數據、物聯網和人工智能等新興信息技術在我國油氣行業的深度應用,石油天然氣工業信息化建設正在邁入數字化轉型和智能化發展的新征程[2-4]。加快推進信息系統之間的數據共享交換與綜合分析應用,是我國油氣行業實現數字化轉型、智能化發展的重要先決條件[5-6]。
一般說來,國內目前具有對天然氣地質信息進行綜合管理功能的信息系統主要劃分為如下3類[1,7-11]:①行業內各大型油氣集團公司分別統一規劃建設的勘探與生產數據管理信息系統、油氣水井生產數據管理信息系統等;②各集團公司分別建設的勘探與生產ERP應用集成類大型信息系統;③各油氣田分公司根據自身業務特色而自建的典型應用類信息系統。應用實踐表明[7],上述信息系統已經基本實現了“云化”部署應用,而且各個系統在不同程度上均積累了“海量”的天然氣地質數據。
筆者通過調研與分析當前信息系統之間數據互聯互通的應用現狀發現,天然氣地質數據的交換共享存在的突出問題主要有包括:①數據通常存儲分散在不同的應用信息系統中,難以形成企業級數據統計與分析;②多系統中的相同數據項管理不一致,各業務部門間對數據的賦值填報類型異構,并且量值“打架”,數據質量不高;③在基礎類數據管理方面,粒度粗細不均,連同數據質量參差不齊等諸因素共同導致了數據綜合分析應用水平偏低。
對國外大型能源公司關于數據共享交換與綜合分析應用現狀的調研結果表明[12-15],主要最佳實踐案例情況如下:①殼牌公司建立了系統完備的數據模型標準和信息系統交互標準,將全球數千個油田的數據傳到亞馬遜服務器,通過相似性比較,提高了決策質量;②埃克森美孚公司以云計算技術為支撐,構建了數據生態與智能認知環境;③斯倫貝謝公司以數據生態為技術,集成人工智能與大數據分析技術,構建了勘探開發智能云計算平臺。
云計算技術通過基于網絡的計算方式,將共享的軟件、硬件資源和信息進行組織整合,按需提供給計算機和其他信息系統使用。業界公認的云計算架構包括基礎設施層或資源層、平臺層、軟件服務層或應用層共3個層次,其對應名稱分別為 IaaS、PaaS和 SaaS。云計算技術具有資源共享好、計算能力強和存儲自主擴展性能好等技術優勢,為解決信息化建設中“信息孤島”問題提供了很好的思路。
針對各信息系統之間難以進行數據共享的問題,在對云計算技術應用案例與信息系統平臺化建設方案詳細調研基礎之上[15-16],從數據管理的角度,應用云計算技術,開展了基于動態存儲的天然氣地質信息共享平臺構建研究。此項工作對于實現石油天然氣行業生產的降本增效和管理模式優化等高質量發展,具有非常重要的科學意義和工程價值。
從數據管理角度,依據對地質特征描述的分辨率由高到低的標準來劃分,天然氣地質信息主要包括巖石物理、測井、地震和地質文檔等四大類主要數據。巖石物理數據主要刻畫氣井各層位的詳細信息;測井數據用于表達氣井單井的地層特征;地震數據從三維空間對地層綜合特征進行表示;地質文檔大多是直接描述沉積和構造特征的非結構化類型的文本和圖表形式。
本文所構建的平臺管理數據對象主要有:①巖石物理、測井、氣藏和生產動態等基礎結構化數據;②天然氣地質信息相關文檔、圖片、音頻和視頻等非結構化數據。為了兼顧數據共享應用效率,平臺對體量大且格式復雜的地震類數據,暫時沒有作為重點集成應用對象。
數據庫設計是天然氣信息共享平臺構建過程中關鍵環節,是一種將現實世界中數據及關系與信息編碼之間建立映射的方式。當前正在實際生產運行的諸多油氣信息系統在建設過程中,均采用了基于實體—聯系模型(ER模型)應用的數據庫設計方法。
應用實踐表明,對于各種類型的天然氣信息管理系統,無論是分散建設和統一建設,還是集成應用等不同階段中,中國石油企業標準《勘探開發數據結構第1部分:基礎數據:Q/SY10547.1—2018》對各天然氣信息系統的數據庫設計和應用管理,均起到了堅實的基礎性作用,這給本文的天然氣地質信息共享平臺的數據庫建設奠定了很好的應用基礎。
為了使得已有各信息系統間進行高效數據集成與共享,結構化數據庫結構依據中國石油企業標準《勘探開發數據結構第1部分:基礎數據:Q/SY10547.1—2018》中的數據庫結構規范而設計。數據庫滿足對地質基礎信息的綜合管理需求,其所包含的基礎地質信息有基本實體、物探、測井、試油試采、地質與氣藏等8類133個關鍵數據項(表1)。

表1 天然氣基礎地質信息類別統計表
天然氣地質信息共享平臺的基礎數據庫中的地質基礎數據,主要是從當前中石油等集團公司統建或各油氣田公司自己建設的天然氣數據庫信息應用系統中讀取,并集成應用。對于某些關鍵數據項,既存在集團公司統建數據庫系統中,又存在相關的油氣田公司自建的數據庫系統中的情況,以數據最近的更新時間為依據進行選擇讀取與集成應用的對象。數據交換中間件技術是實現對所有集成數據源的集成調度管理和負載均衡的工具,因此,應用數據交換中間件技術實現對數據源的匯集,經過數據質量和數據關系約束等校驗后,將從各信息系統中讀取的數據安全地存儲在本文構建的地質信息共享平臺數據庫中。基于數據交換中間件的天然氣地質信息共享平臺的數據集成應用接口設計如圖1所示。
平臺選用具有存儲數據持久、存儲空間可擴展性能強和集群部署無單點故障的OpenStack Swift工具來實現對視頻、音頻和圖像等類型的非結構化數據分布式存儲管理。為了避免命名空間與存儲位置之間的索引和轉換,平臺在搭建過程中采用了對外的命名空間直接指定存儲位置的策略方式。存儲的過程中,首先采用人工輔助標注的方式生成與其一一對應的非結構化文檔,并且該非結構化文檔是對其對應的視頻、音頻或圖像的重要關鍵特征信息進行盡可能地詳細描述。
以滿足用戶對信息檢索的快速響應需求為目標,對大量的非結構化數據的高效檢索方法是本文研究的重點之一。對文檔類型非結構化數據的快速檢索的基本思想是,根據用戶對天然氣地質信息檢索習慣,用戶提交的檢索往往均為名詞或名詞組,例如:含油氣盆地、寒武系和低滲透等,因此,對文檔中名詞分類提取是檢索實現的關鍵,根據每個詞的統計,選取頻次高的一系列詞組作為文檔的特征詞向量。將文檔的特征詞向量與用戶提交的檢索詞組進行匹配,以匹配中的特征詞所指向的文檔,作檢索結果返回。
關于文檔名詞提取的實現方法,國內常用代表性工具有清華大學研制的HULAC包(https://github.com/thunlp/THULAC-Python)和北京理工大學的PyNLPIR分詞系統(https://github.com/tsroten/pynlpir)。從軟件易調用的角度,考慮到PyNLPIR是一整套對原始文本集處理和加工的軟件,提供了中間件處理效果可視化展示。因此,研究過程選用了PyNLPIR中文分詞系統。此次提出基于文檔特征詞抽取的非結構化數據檢索方法流程如圖2所示。
1)特征文檔生成。對音頻、視頻和圖像等非結構化數據進行關鍵信息描述,形成特征文檔。
2)名詞分詞。對文檔進行分詞處理,提取文檔中的名詞向量,并統計每個名詞在其文檔中出現的頻度。
3)特征向量提取。根據石油天然氣領域科研常識或經驗,枚舉常用的地質名詞列表。參照該名詞列表,依據名詞在其文檔中出現頻度自高向低排序,提取頻度高的幾個或多個名詞構成文檔特征詞向量。
4)檢索對象優化。兼顧到檢索的有效性,根據用戶提供的檢索詞,依據某些原則,選取在期望時間內可以完成對特征詞向量匹配的文檔集合,作為被檢索對象。
5)檢索結果排序。對于選定的被檢索對象集合,將用戶檢索詞依次與每個被檢索對象進行匹配。對于匹配成功的多個文檔,首先以用戶提交的檢索詞匹配成功順序對返回結果排序;對于同一詞匹配成功多份文檔的情況,根據歷史用戶對文檔檢索點擊數量對返回結果進行排序。
6)非結構化數據輸出。根據返回結果,判定特征向量所指向的非結構化數據類型。如果是文檔數據,則直接返回;如果音頻、視頻或圖片等數據,將再進一步根據特征文檔的所指向,返回相應的音頻、視頻和圖像等非結構化數據。
如果將天然氣地質信息共享平臺的數據庫視為一個匯集各信息系統綜合數據的“數據湖”,那么平臺的數據集成應用接口就是各信息系統通向“數據湖”的溪流。因此,對平臺“數據湖”中的地質基礎數據質量管理,是平臺對數據的全生命周期管理的關鍵環節。從數據源入口集成、數據入庫審批、數據使用到數據校對等環節進行嚴格的細粒度監控,以提高數據質量。面對異構或多源的數據集成現象,在集成應用之前,主要從管理與技術相結合的方式,采取了數據標準建設和可信數據源管理等兩個策略實現平臺的整體數據質量管理。
在數據標準建設方面,通過借鑒國家標準、行業標準、企業標準以及信息系統標準規范等文件,對平臺的數據標準規范進行制定,對平臺所涉及的各項數據進行定義與解釋,以及數據質量及安全性要求進行統一定義,包含數據在業務層面的定義和數據在技術層面的定義等。在與各信息系統接口集成時,遵循數據標準中所規范的數據定義和語義解釋等進行相應的數據入庫,從而確保了數據庫目錄架構的準確性與一致性。在可信數據源管理方面,通過從信息系統集成情況,判別可信數據源是否有且只有唯一,若唯一,則直接確認;若有多個數據源頭,以業務邏輯模型為輸入信息,梳理出各個屬性在信息系統的分布情況,然后借助專家經驗從數據屬性分布、業務管理流向以及IT系統的相關業務操作的時間戳等三個方面來綜合分析與判斷,輔助確定可信數據源。
當前,人工智能在油氣行業得到了深度應用,像基于人工神經網絡、遺傳算法和機器學習等為代表的各類數據挖掘算法在油氣工程領域也出現了不同程度的應用創新[17-20]。由于地質條件自身的復雜性與構造差異性,相同數據挖掘算法應用于不同地質構造的數據集合時,其各個參數是不同的。例如地震反演遺傳算法,分別應用于四川盆地地震數據、松遼盆地地震數據和柴達木盆地地震數據時,其雜交率和變異率等參數設置是不同的。因此,對于開發或者勘探地質人員來說,面對不同的綜合地質數據對象,選擇什么樣的挖掘應用算法,以及所選擇的算法參數如何選取一直是一個“被重視”并“被困擾”的問題。
平臺主要是從如下兩個方面對數據挖掘算法及其參數應用進行集成應用:
1)應用編程語言將每個數據挖掘算法進行編程實現,并編譯形成動態連接庫文件,然后把動態連接庫文件封裝在一個執行文件中,使其擁有入口和出口,可獨立運行完成算法流程運算。
2)根據對各個算法在實際應用的參數調整研究或者專家經驗分析結果,對于各個算法用于不同構造時而進行參數調整,分別詳細記錄,形成算法參數“設置指南”,主要包括區塊名稱、計算的歷史數據量、參數個數、參數類型和最佳參數設置等詳細信息,為算法應用于不同區塊或不同計算量數據而設置最優參數提供指導。數據挖掘算法程序塊與其對應的參數“設置指南”進行統一的存儲與管理。
通過構建方法庫字典的方式對信息平臺中應用算法進行應用管理。方法庫字典主要包括算法類別、算法功能、適用范圍、參數設置指南、算法程序調用入口和典型案例應用與展示等。從用戶使用的角度,通過構建方法庫字典對算法實現最優化調度管理,主要功能有如下三方面:
1)搭建方法庫用戶操作界面,豐富平臺的基礎服務功能。用戶可以通過方法庫字典對算法檢索,對算法功能信息和案例應用等進行了解,為如何應用好相關算法提供幫助。
2)提供算法參數設置推薦,擴展平臺的輔助決策功能。用戶通過方法庫字典檢索到某種數據挖掘算法時,根據計算的數據對象屬性,比如區塊和地質年代等,可以依據參數設置指南的內容對算法的應用參數進行最優化設置,以確保數據挖掘算法的應用效果。
3)提供豐富的算法典型案例,建立方法庫與數據庫之間的共享應用橋梁。一方面,用戶從數據庫里選取一定量的數據集合后,通過與方法庫中算法的典型案例的數據集比較,可以對所選取數據集的數量和質量進行初步評判,為數據體的質量提升提供輔助參照;另一方面,用戶通過方法庫字典的算法入口地址快速調用算法,將數據集合和數據挖掘算法結合起來進行計算,計算結果既可以以直觀清晰方式在線展現,也可下載到本地存儲,供決策者使用。此外,經過實踐驗證或者專家綜合分析判定為算法計算結果為理想的算例,作為方法庫中關于本算法的典型應用案例,為算法被后續調用提供參考。
根據應用功能設計,平臺劃分為基礎設施管理子系統、數據管理子系統、文檔管理子系統、分析預警子系統、優化決策子系統、數據展示子系統、系統管理子系統和安全管理子系統等8個部分,功能架構如圖3所示。
基礎設施管理子系統采用私有云架構,為地質信息共享平臺系統提供基礎資源支撐。
數據管理子系統主要實現從目前國內現行的A1和A2等大型石油天然氣數據庫中進行接口式集成應用,為天然氣地質信息共享平臺提供數據源支撐。
文檔管理子系統主要是構建天然氣知識庫,包括視頻數據、音頻數據、開發方案、產能建設、日常管理數據等,為數據分析預警、優化決策提供數據源支撐。
分析預警子系統實現綜合數據查詢、分類統計、壓力和產量分析、效益分析和氣田風險預警等,為管理決策人員、技術管理人員和基層技術人員提供綜合分析。
優化決策子系統實現生產優化、智能決策、效益預測、前期評價、智能評價、動態分析等功能,為天然氣業務管理決策人員提供綜合分析參考。
數據展示子系統主要實現綜合數據的單井展示、區塊展示、氣田展示、預警展示、產量態勢預測等功能,實現數據動態的可視化應用。
系統管理和安全管理兩個子系統分別對平臺安全提供管理保障和技術保障。
根據數據在平臺中的功能應用,平臺實現的數據架構自下而上劃分為六層,依次為:數據源、數據采集層、數據管理層、數據分析層,數據應用層及數據展示層,數據架構如圖4所示。
1)數據源層主要為平臺各種功能與服務運行提供數據資源,主要包括行業內的A1、A2、A4、A5等典型應用數據庫。
2) 數據采集層主要按照本文1.1節的接口設計方式,實現平臺數據采集,采集方式包括代理采集、數據推送和系統自動導入。代理采集方式應在各個天然氣基礎庫服務器上部署采集代理,從資源層實時采集數據;而推送方式需要各個資源層的數據庫向平臺實時推送數據。
3)數據管理層是平臺的核心層,主要分為生產運行數據庫和知識文檔庫兩個數據庫對綜合數據全面管理。對生產運行數據庫存儲從資源層采集的結構化數據,按照本文1.3節的數據質量管理方式,對數據進行質量校驗后入庫;知識文檔數據庫實現對非結構化數據存儲、管理和分析。
4)數據分析層主要實現對生產運行庫和知識文檔庫的綜合應用分析,該層所采用的技術方法包括統計計算、查詢處理、SQL分析、批處理及機器學習等。
5)數據應用層提供數據分析與預警服務,包括數據查詢、分類統計、數據報表、動態分析、氣田預警、前期評價、效益評價、智能決策等應用。
6)數據展示層為用戶提供良好的人機交互界面,支持終端操作應用包括本地PC終端、智能手機終端和大屏終端等。
為了提高平臺的代碼開發效率,平臺開發框架選用開源輕量級Java平臺的SpringBoot技術,采用開箱即用和約定優于配置的策略,很好地解決了外部依賴jar包的版本沖突和引用不穩定等問題。平臺的Web 應用程序的前端采用基于Bootstrap 的工具包開發,實現了表單、表格和網格系統等應用;采用AngularJS技術實現前端頁面的應用開發。
平臺安全管理作為在應用功能架構中重要基礎模塊之一,細分為用戶認證、權限管理、存儲安全管理和傳輸安全管理等四個主要功能。采用基于角色的訪問控制權限管理,平臺根據其所面向的用戶不同而配置不同的訪問權限。存儲管理主要是依據加密算法對存儲在數據庫中的敏感數據進行加密,管理員無法直接從數據庫查看數據,可保證敏感數據不被篡改或者惡意利用。
以蘇里格氣田東區的綜合數據管理為例對平臺進行應用測試,動態集成加載氣田東區的綜合地質數據、關鍵指標數據和歷年產能非結構化報表等不同類別數據,實現對氣田東區相關的基礎數據表、重要的文檔和圖件的動態存儲、共享檢索和特征分析。對氣田東區的綜合數據查詢所示(圖5),儲層巖性與物性關聯分析(圖6)。
根據儲層、滲透率、孔隙度和有效厚度等參數設置,選用蘇里格氣田氣井動態分類方法[21],將井劃分為優質井、中等井和劣質井,分別標注為Ⅰ類井,Ⅱ類和Ⅲ類井。通過對三類不同井的歷史產量數據,調用方法庫中的Arps常規遞減模型算法,實現了對不同類別井的產量趨勢分析(圖7)。
從A趨勢曲線可以看出,投產初期,Ⅰ類井產量大,Ⅲ類井產量最低,Ⅱ類井居中。隨著投產時間的延長,Ⅰ類井產量遞減為產量最低,Ⅲ類井產量反而最高,Ⅱ類井產量居中,因為Ⅰ類井初期產量大,導致地層能量消耗快,因此中后期產量遞減快;Ⅲ類井在整個生產過程中,產量遞減速度緩慢;到生產后期階段,Ⅰ類井,Ⅱ類和Ⅲ類井的產量均趨于平穩。可以看出,對不同類別井的產量數據綜合分析,其變化趨勢符合實際生產動態規律。
1)從天然氣地質數據應用管理角度,應用“云化”動態存儲和共享集成應用,提出了當前各信息應用系統之間進行數據高效共享應用的技術方案。
2)平臺建設不僅實現了天然氣地質結構化數據的共享管理和非結構化數據的動態存儲與搜索;同時也實現了天然氣地質數據挖掘算法集成應用及其參數調優管理。
3)從軟件工程角度,對天然氣地質信息共享平臺的應用功能進行詳細設計,并對其采用Spring Boot技術進行軟件實現。應用測試效果表明構建的天然氣地質信息共享平臺具有較好的推廣應用前景。