付藝媛
(黑龍江省大慶油田井下作業分公司,黑龍江 大慶 163000)
隨著大數據時代的到來,各種數據都呈井噴式增長,數據類型也變得越來越多樣化,與生活生產的聯系也更加密切,已經成為21世紀最為重要的資源類型之一。如何實現數據資源的有效利用,充分挖掘潛在價值,是當前的研究熱點,這就需要以數據資源建設及管理為突破口,推進數據中心建設進程,并提高數據庫管理的水平。
不同行業及領域對數據資源應用需求是不一樣的,本文以油田增產措施數據資源建設為例,對開展建設工作之前的實際需求展開全面分析。
從數據內容需求方面來講,主要指通過將單井措施施工中的工序、填充物、效果等數據存入庫中,從而對今后的施工起到指導和借鑒意義。由于研究過程中涉及地質、效果、方法等多種影響因素,所以數據內容應涵蓋這幾方面,以支撐研究工作的順利開展。除此之外,數據內容還應該包括與方案論證、效果論證、工序論證等各項工作的相關資料。
要想保證數據的有效應用,便需要確保其質量,這就需要對質量需求進行分析,包括數量規模、精準度和可信度等因素,應滿足油田增產措施施工的實際需要。在建設數據資源時,具體從數據的完整性、實效性、準確性、靈活性、一致性和易用性等幾方面進行考慮,確保數據質量能夠滿足這幾方面的要求。
對于油田增產措施數據資源建設來講,確保其安全性是尤為重要且必要的,應從數據采集、傳輸、存儲、處理和應用等整個過程進行安全需求分析。實際操作可從軟件硬件和數據應用兩方面采取安全防護措施,避免數據泄露、丟失或惡意篡改。對于軟件硬件環境安全來講,可從機房設置、計算機系統、鏈路和網絡等方面加強數據安全管理;對于數據應用安全來講,所用數據安全防護技術手段包括身份認證、安全審計、數據分級和權限設置等。
數據管理是數據資源建設中的關鍵環節,應滿足存儲管理、質量管理、備份與容災管理幾方面需求。此次研究中的數據資源主要采取分布式手段,再將各類數據集中進行統一管理,所用到的技術主要有分布式數據庫技術、網絡技術、元數據技術和數據倉庫管理技術等。
數據資源建設的最終目的是輔助開展相關工作,這就應滿足具體的服務需求,包括功能、方式和有效性,根據服務水平和服務質量高低,可以對數據資源建設是否成功做出準確判斷。數據資源提供服務時,需要根據服務對象的不同而定,對于總部業務部門、作戰部隊以及教學科研單位,在進行服務時所提供的數據分別為總體數據、具體數據及全面數據,便于各個部門順利開展工作。
模型設計是數據資源建設中的關鍵環節,需要根據其總體框架分層次進行分析,分為概念模型、邏輯模型和物理模型3部分完成。油田數據資源建設結構如圖1所示。

圖1 油田數據資源建設結構
概念模型是對數據資源建設所涉及的概念進行分析,所構建形成的結構層級,能夠直觀、清晰地呈現出不同數據之間存在的關聯性及相互影響,在設計模型時不考慮計算機系統和DBMS技術問題,也不涉及管理系統。數據實體、屬性、域、鍵、聯系等,都是組成概念模型的主要元素,在實際構建過程中,需要確定實體及具體數據,并弄清楚實體之間的內在關聯性,E-R圖是構建概念模型最為常用的方法,必須進行科學、合理的設計。
邏輯模型表示可視化模型,是指數據庫管理系統所支持的數據模型、關系模型、層次模型、網狀模型等,都是較為常見的邏輯模型結構,其中以關系模型的應用最為普遍。采用關系模型構建數據邏輯模型時,為了便于存儲和轉換,在對其進行分類和組織時,都是以記錄組和數據表形式完成的,空間數據和屬性數據之間的關系一目了然。關系模型有著眾多的應用優勢,適用性較強,結構靈活多變,可以滿足所有布爾邏輯運算和數學運算規則,能夠快速完成不同類型數據之間對比與組合,數據檢索、增加和刪除等各項管理也更為便捷,同時還具有較強的保密性,可以確保數據安全。邏輯模型的的構建是在概念模型基礎上完成的,以關系模式完成實體轉換,而一對一、一對多、多對多聯系除了轉換為關系模式外,還需要能夠與對應的關系模式合并,并根據不同情況對實體之間的聯系加以統一,另外還應將具有相同碼的關系模式合并,這些都是邏輯模型所需要遵循的設計原則。
物理模型是以契合計算機物理結構,所構建形成的模型,能夠全面、細致地將數據在存儲介質上的組織結構呈現出來,與邏輯模型有著一一對應關系。在設計物理模型時,所涉及的影響因素包括硬件設備、數據庫管理系統、操作系統等。要想建立數據庫,便需要通過物理模型設計,以具體的結構形態將數據模型呈現出來,進而才能發揮其存儲功能,實現數據的有效利用。模型命名、字段類型確定、存儲程序編寫等,都是物理模型設計中的主要任務,最為常用的建模工具包括PowerDesigner、DW Designer等。
保證數據資源質量,是實現其有效應用的前提,在建設數據資源庫時,必須綜合單源數據和多源數據采取科學的管理方式,以確保數據的可用性及可信度。
對于單源數據,在進行質量管理時,是依托數據質量管理系統,通過對數據集、質量元素值集合、可用管理資源進行分析,進而制訂出有效的管理方案,以提升數據質量,并以地圖形式將其表示出來。單源數據質量管理的內容主要有:分析用于數據質量提高的普通方法、確定可利用的外部資源以及其利用方式、獲取可行的數據質量提高方案等,這些都是單源數據質量管理過程中應重點考慮的環節。
相較于單源數據,多源數據集成前后存在一定差異,集成前噪聲數據、錯誤數據的檢測準確率明顯高于集成后的檢測值,并且單位錯誤、層次沖突等問題發生的可能性也會降低,會直接影響數據質量管理,所以,一般情況下,多源數據質量管理都是在數據集成過程中開展的。在具體管理時,多源數據集成應在完成分析后進行,按照先屬性層后實例層的順序,主要包括概念集成、質量分析、數據集成與質量管理4個環節,主要目的是爭取在數據集成過程中不斷提高質量。
對于數據質量管理的實現,主要從4個方面考慮,采取必要的管理對策和技術手段,包括數據集成、審核、清洗和增強等技術。首先,應建立數據標準規范,以此為標準定義數據,形成一致性理解,并明確采集要求,確保采集的精準性。其次,根據實際情況,選擇最為合適的數據分析工具、管理工具、清洗工具和ETL工具等。再次,優化數據傳輸流程,提高其自動化程度,并在整個過程中嚴格監控數據。最后,落實好人員培訓工作,制定完善的管理制度,規范其操作手法,強化其責任意識,避免人為因素對數據質量造成影響。
數據價值的充分發揮體現在其有效共享上,這就需要建立對應的共享機制,加強數據資源管理。
數據在共享利用之前,應先通過采集獲取豐富的資源,所以應借助完善的數據采集機制,在初始環節保證數據質量。各采油廠、井下作業隊伍、壓裂施工單位、采油研究院和射孔單位等,都是數據的主要來源,通過對其特點進行分析,探索科學、高效的采集方法,確保數據采集的完整性、精準性和實效性,并充分利用現有的數據采集形式,避免出現多頭采集和重復采集現象。
對于數據共享來講,油田需要制定嚴格的規章制度,根據數據保密程度進行等級劃分,建立相應的共享機制,采取不同的共享服務形式和方式。在數據資源建設的總體規劃下,探索與數據資源建設單位之間的相互協作的模式,建立穩定的合作關系,形成良性互動。
數據資源建設管理,對于油田施工來講具有重要的意義,不僅能夠為開展相關工作提供可靠保障,而且還能對今后的施工進行指導分析,所以給予高度重視。在實際建設的過程中,油田只有對具體任務、流程以及手段進行詳細分析,才能明確數據資源建設的目標和方向,并采取有效措施保證數據質量,以便有效發揮其應用價值。
主要參考文獻
[1]鄭凱洲.石油行業數據庫資源建設的策略與技術方法[J].中國礦業,2016(2).
[2]王鵬,田宗浩.陸軍后勤裝備作戰運用數據資源建設需求分析[J].中國管理信息化,2015(7).
[3]莫潔.從數據中心數據資源目錄建設看檔案編目的新特點[J].廣東水利水電,2014(6).