◆梁慧妍
(大慶油田第二采油廠信息中心 黑龍江 163000)
數字油田是石油科學與現代石油信息技術結合而形成的一個概念,及時針對油田集體配套領域進行的一種數字化描述,也是一個綜合性的現代化管理信息系統。在各大油田系統生產規模以及業務需求急劇增加的情況下,數字油田建設面臨著更大的挑戰,在這種情況下就必須要建立起能夠滿足現代油田各項業務快速發展的數字化系統。在現在數字油田建設過程中,大數據技術和云計算技術的應用發揮出了巨大作用。而在數字油田建設的全過程中數據始終都是非常重要的一個因素,任何一個數據出現問題都可能會對數字油田系統后期應用和拓展產生嚴重影響。
從信息系統層面來看,數據質量問題主要有單數據源以及多數據源問題等兩種。單數據源問題主要有以下幾種:一是數據缺失。數據缺失很可能是因人工錄入數據的誤操作而導致數據缺失,因此數據輸入時必須要進行嚴格檢驗,從源頭杜絕數據缺失問題出現。二是數據重復。數據重復問題需要在數據錄入過程中對關鍵屬性唯一性進行嚴格檢驗。三是數據關聯錯誤。內屬性關聯和實體關聯是數據關聯的兩種形式,上述兩種形式都可能會存在屬性值不一致的問題。多元數據問題主要包括以下一些:1)數據模式沖突。數據模式沖突主要包括命名沖突和結構沖突的兩種。命名沖突主要指的是針對不同實體或者是不同的名稱表利用同一個名稱進行表示,或者是針對同一實體或屬性利用不同名稱來進行表示。結構沖突主要指的是在不同數據源中針對同一對象來通過多種方式進行表達。2)數據語言沖突。數據語言沖突主要指的是針對具體客觀對象進行闡述過程中不同系統所采取的描述方法不同;3)數據冗余。數據冗余主要指的是在不同系統中同一數據重復出現。4)數據沖突。數據沖突主要指的是在不同系統中同樣數據數值不同,由此導致沖突。
數據質量會受到很多方面因素的影響,其中不僅包括了系統管理方面的影響,也會存在技術方面的影響。其中主要有以下幾種因素:1)歷史原因。傳統模式下不同信息系統之間相互處于獨立狀態,各信息系統設計實施并未形成統一的標準,因此其在技術構架、業務范圍、數據模式上也會存在較大差異,在這種情況下就很可能會導致出現數據分散,甚至是不完整等一些沖突。2)技術水平限制,如果技術水平沒有達到系統建設標準要求,很可能會出現數據不準確、不一致以及惡意性等一些問題。目前在針對原始數據進行處理的過程中存在多種標準,不同標準之間雖存在類似之處,但是也都存在各自特征。
根據當前數字油田建設的現狀可以看出,多數油田企業建設數據庫系統都存在分散性的特點,例如,企業業務部門和其他部門之間經常會出現標準不統一、重復采集以及重復建設的問題,業務經營數據以及各項生產數據也經常會出現多個版本,而且油田信息系統存在嚴重信息孤島問題,這在很大程度上對數字油田可持續發展產生極大影響。而要想有效解決當前油田信息系統所面臨的信息孤島問題,就必須要建立起更加完善、規范、科學、標準的數據集成方案,這樣才能有效提升信息數據庫的應用效率。
隨著計算機技術在油田領域的推廣應用,油田企業的各項生產數據呈現出指數級增長模式,而且在企業經營發展過程中行程的各項數據逐漸向著動態變化、復雜化、龐大化的方向發展,在很大程度上使得各項生產數據統計分析以及實際應用難度進一步增加。而要想有效解決這些問題,首先就必須要構建起標準統一、可拓展的數據集成平臺。但是目前各大油田實際應用的傳統數據采集方法很難滿足油田數據集成的實際需求,當數據一旦產生波動,整個系統就面臨著需要重新修改的情況,這導致實際工作量急劇增加。因此在數字油田建設過程中,必須要對不斷增長的各項業務需求進行充分滿足,才能夠真正從根本上實現數據集成和應用需求的有效分離,在此基礎上才能夠讓數字化系統實現穩定、可靠運行,才能夠進一步控制數字化系統的運營成本。
數字油田發展早期階段主要是有油田各二級單位來全面負責數據的采集工作,而各二級單位之間并未建立起統一的采集系統專業數據庫標準,這導致各項數據在采集過程中不能充分保證數據質量。
數字油田不同發展階段所對應的數據質量標準也會存在較大差異。例如,20 世紀80 年代以前主要是利用數據的準確性來衡量數據質量。而自80 年代開始,數據質量內涵也在實現持續延伸,利用準確性來衡量數據質量已經不能滿足實際需求,其不再成為唯一的衡量標準,信息技術發展至今已經出現以下三個方面的數據質量衡量標準:1)站在用戶需求的角度來進行數據質量衡量,這一衡量標準重點考慮的是用戶對于數據的滿意度;2)將數據質量作為一個綜合性概念,在評價數據質量過程中需要從多角度開展;3)大多數情況下對數據質量描述的過程中會使用完整性、準確性、規范性、及時性以及統一性等幾個要素。因此數字油田在建設過程中也要從以下幾個方面對數據質量進行控制。
技術水平限制、設計數據不準確、監督措施不合理以及歷史原因是數據質量的幾個主要影響因素。從油田企業當前發展狀況來看,存在很多數據質量的控制目標,但完整性、一致性、及時性和規范性是最為關鍵的幾項控制目標。完整性主要指的是專業范圍、專業數據等內容要確保涵蓋全方位內容;規范性主要指的是要保障各項數據填寫格式和內容與當前數字油田建設需求相符;一致性主要指的是不同專業之間、不同數據之間、不同數據表之間要具備相互統一性;及時性主要指的是要保證及時實現數據提交、審核以及應用。
數字油田建設的數據質量控制流程如下:首先對各采集點收集數據進行初始審核,并針對各項數據使之持續監測,并實現數據優化。在具體確定數據質量控制解決方案的過程中,油田主管業務部門需要加強與IT 部門的結合,要實現兩個部門之間數據的集中統一,采取取長補短的方式來實現數據質量控制方案的科學性和合理性。
1)數據初始審核主要工作包括數據內容、結構以及異常情況的審核,隨后要進行全面數據分析;
2)要結合油田企業具體發展狀況構建起相應的質量控制度量,實現控制目標的明確;
3)針對數據質量實施和設計過程制定出相應的業務規則;
4)經過上述幾個步驟控制形成的數據最終集中會遇到低系統中,同時構建及相應的質量控制工具;
5)針對數據檢測過程中發現的異常狀況進行全面檢查,并進一步完善應用規則,同時要結合數據質量具體控制目標編制出相應的評估報告。
數據完整性控制的關鍵是項目覆蓋數據專業范圍、文檔范圍、表格數據范圍等,要及時關注其中是否存在數據缺失情況,同時要對各項數據是否與計劃相符進行明確。一般情況下,任何項目數據完整性都會涉及項目專業數以及具體專業表數量等一些因素,因此在進行控制的過程中需要充分結合項目數據計劃來制定出各項控制指標。因此,在數字油田建設實踐中,首要的工作是針對各項收集數據制定出相應的計劃,在此基礎上才能充分保障數字油田數據的完整性。
數字油田建設中數據規范性主要指的是在各生產現場以及各業務環節所提交的實際數據值必須要在一定程度上與假定規范數據要求相符。一般情況下,數據一致性程度利用語言設定的業務規則檢驗和判斷。在實際進行數據規范性控制的過程中,應該將控制重點放在項目數據質量標準化要求的一致性方面,同時也要充分保障數據格式和規范要求。
數字油田建設過程中的項目數據一致性主要指的是從各個數據源所采集的數據與數字油田建設項目約束所達到的滿意程度。對這一環節的控制方法:首先需要針對結構化數據進行明確,同時編制出相應的文檔報告,在數據采集系統中要納入勘探開發成果數據,隨后選擇合理的數據質量控制工具來針對數據表、專業內、專業間實施平均加權處理,通過處理找出其中存在差異的數據,并利用工具進行反復交合,這樣才能充分保證數字油田建設數據的一致性。
總而言之,在數字油田建設過程中,數據質量是各項決策科學性和正確性的基本保障,也是油田企業在新時期發展過程中極具價值的一項無形資產。因此我國在全面推動數字油田建設的過程中要主動構建起更加科學有效的數字質量管控體系,同時針對控制方法進行逐步完善,這樣才能確保數字油田在建設過程中獲取真實有效數據。