王娟 蔡亮 竇敬 姜淇
摘要:當今對于石油行業這些將信息視為命脈的企業來說,如何對非結構化數據進行合理的存儲和管理成為值得關注的問題之一。目前,國外油氣田非結構化業務成果展示基本分散在不同的專業軟件中,沒有提供集中統一的Web端展示。而國內油氣田非結構化業務成果展示也分散在不同的專業軟件中。換句話說,國內油氣田非結構化成果數據庫平臺亟待開發。因此,文章旨在研究和設計油氣田非結構化成果數據庫,同時圍繞數字油田具體的應用需求,對系統中涉及的一些關鍵點進行了深入研究。
關鍵詞:油田數字化;非結構化數據;數據庫設計;軟件平臺設計
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2024)08-0085-03
開放科學(資源服務)標識碼(OSID)
0 引言
長慶油田勘探開發過程中產生大量非結構化數據,包括四性關系卡片、測井藍圖、錄井綜合圖、試油(氣)地質設計、巖心照片、老井措施總結報告等三百余類,格式多樣。這些數據的查看和展示需要支持跨平臺、跨設備、兼容各種瀏覽器。同時支持圖件的放大、縮小、旋轉、拖拽等操作,以及圖件的標注、數據疊加、搜索、權限控制等功能[1]。因此,需要開展數據智能標注技術研究,形成一套高性能、安全的多終端成果展示與數據交互關聯技術,作為通用技術中臺,與長慶夢想云平臺進行集成,為各類非結構化數據應用提供支撐[2-3]。
然而,工程專業技術服務行業的發展空間與工程建設投資之間存在著緊密的聯系,國民經濟持續發展和固定資產投資快速增長是牽引工程勘察設計行業快速發展的源動力[4]。多年以來,我國全社會固定資產投資保持了持續增長的勢頭。未來我國固定資產投資規模仍將保持較高的增速。與之緊密相關的工程專業技術服務行業仍然具有較好的市場前景[5]。因此,為了更好地支持科研和生產,需要研究基于H5的油氣田非結構化成果展示技術,研究基于H5的大型圖片切片預覽技術,研究基于H5的在線圖文標注技術,還需要研究基于長慶油田云環境的分布式文檔存儲技術。
1 非結構化成果數據庫
1.1 數據的概述
實際上,在現實中,數據的存儲并非目的,而是為了合理利用。數據的應用從一個側面來說就是為了能夠被讀懂,無論是人類可讀還是機器可讀。結構化數據和非結構化數據決定了不同的處理方式。結構化的數據可以用于查詢、加減乘除等數學運算、相等、比較大小、與或非等邏輯運算,還包括計算、求和等統計運算。而非結構化數據則往往需要還原出來,供人們觀看、聽取,如文章、圖片、聲音、視頻等。人們可以理解這些信息,然后指導機器進行拼裝、刪除、添加、剪輯等處理。
如果機器要分析這些數據,則需采用OCR等技術來識別圖片中的文字,NLP等技術來識別文字的詞性或含義。因此,非結構化數據的處理方式與處理數據庫的技術完全不同。例如,一篇純文本文章存入數據庫后,結構化處理工具只能將其視為一個整體進行處理,這表明純文本并不一定是結構化數據。舉個例子,在學術領域中,讓機器準確判斷一個人名的姓和名的任務并不容易。不能簡單地假設姓氏在名字的左邊一個字,名字的右邊兩個字。這涉及需要對復姓的存在進行深入了解。例如,“歐陽”和“西門”是復姓,而“歐陽修”和“西門慶”是古時較為出名的姓名。人們之所以知道“歐陽修”是姓“歐陽”,是因為他是復姓。因此,我們需要先收集所有的復姓。對于原始的三字姓名,我們可以先判斷前兩個字是否為復姓,即它們是否在復姓表中。如果是,則可以確定前兩個字是姓,最后一個字是名(即2+1) ;如果不在復姓表中,則可以確定第一個字是姓,后面兩個字是名(即1+2) 。然而,不能每次都認為左邊兩個字“歐陽”一定是姓“歐陽”,因為“歐陽某”也有可能是單姓“歐”,名“陽某”。同理,“夏候某”可能姓“夏侯”,也可能姓“夏”。通過這個例子,可以體會到非結構化數據帶來的拆分和處理的難題。
1.2 非結構化數據的概述
非結構化數據其格式非常多樣,標準也是多樣性的。而且在技術上,非結構化信息比結構化信息更難標準化和理解。因此,存儲、檢索、發布以及利用需要更加智能化的IT技術,比如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。簡單地說,非結構化數據主要指那些無法用固定結構來邏輯表達實現的數據,比如用戶散落在論壇、微博、微信或其他渠道發表的關于產品的各種評價或吐槽。然而,國內的企業級客戶在進行大數據分析時,仍以分析結構化數據為主。
再具體到典型案例中,例如醫療影像系統、教育視頻點播、視頻監控、國土GIS、設計院、文件服務器(PDM/FTP) 、媒體資源管理等具體應用,這些行業對于存儲需求包括數據存儲、數據備份以及數據共享等。而且,從形態上,非結構化數據主要包含三大塊:第一是文本文字;第二是圖像、圖片等;第三是視頻流、電視流。和結構化數據相比,非結構化數據最本質的區別包括三個層面:非結構化數據的容量比結構化數據要大,產生的速度比結構化數據要快,數據來源具有多樣性。
根據IDC的調查,目前企業結構化數據僅占到全部數據量的20%,其余80%都是以文件形式存在的非結構化和半結構化數據,這些非結構化數據每年增長率達60%。如何管理好這80%的數據,是企業構建協同辦公的關鍵一環。非結構化數據的存儲和流轉主要采用郵件、FTP以及QQ等IM工具。然而,這些工具傳遞文件時速度不穩定,安全性得不到保障,并且無法很好地滿足企業中一對多的高頻數據傳遞場景。
由于非結構化數據中沒有限定的結構形式,表示靈活,蘊含了豐富的信息。因此,在大數據分析挖掘中,掌握非結構化數據處理技術是至關重要的。處理非結構化數據包括:Web頁面信息內容提取;結構化處理(包括文本的詞匯切分、詞性分析、歧義處理等);語義處理(包括實體提取、詞匯相關度、句子相關度、篇章相關度、句法分析等);文本建模(包括向量空間模型、主題模型等);隱私保護(包括社交網絡的連接型數據處理、位置軌跡型數據處理等)。處理非結構化數據時,還需注意這幾點:非結構化數據文件數量過多、過大;非結構化數據歸集檢索調取效率低;傳統架構無法按需彈性配置存儲空間。
2 數據庫設計前期工作
2.1 設計的數據需求
經過對開發研究業務過程中對數據的需求,在總體上可分為兩大類。其一是對基礎數據的需求,包括油氣田公司已經形成的專業基礎數據,如物探、鉆井、錄井、測井、試油、分析化驗、油氣田生產,井下作業等數據。另一類為研究過程中產生的成果數據。在這里,重點論述開發綜合研究對研究成果數據的需求。
在開發綜合研究過程中,各類研究成果數據附有必要的屬性(素引)信息,使盆地諸要素有機地組織在一起,實現盆地地質體的多維可視化表征和展示。首先是地質目標的空間信息,包括盆地、構造單元、工區、區塊、層位、井等的空間位置信息,展示分析時用相關數據在三維空間上的投放和展示。其次是專業研究信息,包括地層、構造、沉積、儲層、油氣田藏等專業分類,展示分析時由這些信息支持按照研究專題進行數據提取和投放展示。再其次是研究業務信息,包括油氣田開發研究中的開發方案編制、精細油藏描述研究等,支持研究成果數據按照研究業務進行投放和展示分析。此外,研究成果數據可以按照研究項目、業務組織結構等進行投放展示,從多方位展示開發研究成果,滿足研究和決策管理的應用需求。開發綜合研究需要各研究階段的成果圖件、成果附表、成果數據體、成果報告和多媒體。
2.2 設計的技術架構
油氣田開發研究成果數據建設體現在與業務相結合的特點,以油田中心數據庫和A1、A2數據庫為數據源,通過系統提供的數據管理與服務平臺推送專題研究需要的數據。業務人員在研究工作空間中開展專題研究工作,形成的研究成果歸檔到研究成果數據庫。以地層劃分、沉積研究和試油試采生產分析業務工作為例,開展開發研究成果數據建設架構設計。
2.3 設計的質量控制
在進行地質與油藏工程軟件測試與管理業務時,本研究采取以下合理的質量控制方法。
1) 設定明確的測試目標和標準:在開始測試之前,確保所有測試人員了解測試目標和標準,以便能夠正確評估軟件的質量。
2) 制定詳細的測試計劃:制定詳細的測試計劃,包括測試范圍、測試環境、測試方法和測試資源等信息,以確保測試的全面性和有效性。
3) 進行全面的功能測試:對軟件的各項功能進行全面測試,包括輸入輸出測試、功能性測試、兼容性測試等,以確保軟件功能的完整性和正確性。
4) 進行性能測試:對軟件的性能進行測試,包括負載測試、壓力測試和穩定性測試等,以確保軟件在實際使用情況下的性能穩定性和可靠性。
5) 進行安全性測試:對軟件的安全性進行測試,包括漏洞測試、權限測試和數據安全性測試等,以確保軟件在使用過程中的安全性和可信度。
2.4 設計的風險評估
針對實施過程中可能發生的風險,本研究采取以下切實可行的風險評估、管理辦法及應對措施:
風險評估:在項目開始之前,對可能發生的風險進行評估,包括技術風險、成本風險和進度風險等,以確定風險的影響程度和發生概率。
風險管理:制定詳細的風險管理計劃,包括風險識別、風險分析、風險控制和風險監控等,以確保項目能夠及時應對和控制風險。
應對措施:根據風險的影響程度和發生概率,制定相應的應對措施,包括風險避免、風險轉移、風險緩解和風險接受等,以減輕風險帶來的影響。
風險跟蹤與監控:定期跟蹤和監控項目中存在的風險,及時更新風險管理計劃,并采取相應的措施來控制和應對風險的發生。
總之通過合理的質量控制方法和科學的風險評估、管理辦法及應對措施,可以提高地質與油藏工程軟件測試與管理業務的質量和效率,降低項目風險帶來的影響。
3 系統設計思路
3.1 設計思路
一體化的設計思路。要完成企業信息的一體化建立,首先需雙方共同協商討論,建立統一的企業信息化標準模型,對企業所有的業務規范、接口規范、管理規范、命名規范,以及各系統之間的對接關系建立統一的標準模型。為各個系統建立統一的數據存儲中心,搭建統一的數據交換平臺。采用分級處理,統一匯總的企業信息存儲中心。
定制化與產品化結合的設計思路。針對長慶油田的實際情況分析,在所有的系統中,將采用定制化軟件與成熟產品化軟件相互結合的設計思路。按需定制功能,模塊擴展靈活,基于H5的油氣田開發成果綜合展示技術研究項目這一課題與本研究以往接觸的項目有很多相似之處。借鑒以往的開發經驗并與本次項目建設相互融合,打造一套定制化的系統,以客戶需求為導向,避免軟件功能的閑置,最大限度地滿足用戶的需求以及行業的特殊性。
可擴展性的設計思路。可擴展設計的價值觀不應是現在解決將來的問題,而是尋求未來發展之后現在的解決方案是否仍然有效,是否仍然可以被繼承擴展而適應新的需求。即本研究考慮的不是將未來的解納入到現在的體系中,而是考慮現在的解決方案在未來體系中的位置。
3.2 設計流程及方法
本研究嚴格按照軟件工程方式方法,按計劃分步驟實施本系統。根據調研需求和軟件開發流程以及客戶系統實施時間要求等各方面因素綜合考慮后,項目開發實施分為以下幾個步驟。
1) 詳細需求調研:主要就系統的業務范疇和使用人員作詳細的溝通討論,最終在完全理解所有需求的情況下,開始進入下一環節。
2) 系統詳細設計文檔編寫:詳細設計文檔是緊跟需求調研的重要步驟,也是形成軟件開發文件的起始步驟,依據詳細業務調研,把需求用文字詳細描述并得到客戶認同為目的。主要包括功能詳細設計和數據庫設計。
3) 軟件代碼編碼:根據詳細設計完成代碼編寫,將文字內容代碼化的一個過程。
4) 軟件測試:軟件開發完成后進入測試階段,盡量多方位測試軟件中存在的bug,并給以修復和完善。
5) 系統實施及培訓:甲方使用環境的安裝和部署,并且培訓系統使用人員。
6) 系統試運行、正式運行:安裝實施完畢的系統通常都有試運行期和正式運行的階段性劃分。試運行期主要是使用人員適應軟件辦公的一個過渡過程。
7) 系統驗收:試用期結束,符合系統目標并達到驗收標準,進入系統驗收階段。
4 結論
隨著成果數據大量產生并持續標準化的發展,對數據的快速查看有了更高的要求。因此,本研究實現了相關工作人員在油氣田生產等業務過程中,能夠簡便快捷地隨時調用和查看相關的成果數據,并為研究、生產和決策人員提供數據依據,以便促進科研、優化生產、提質增效,充分發揮數據價值。
本研究在本平臺的設計基礎上不斷增加了新的功能,以滿足用戶的新需求。其中主要考慮部分是數據庫表與表之間的聯系以及字段的合理配置,以確保系統未來幾年數據增長也能滿足使用。這項研究對下一步開展勘探研究成果和油氣田評價研究成果數據體系研究具有重要的參考價值,對實現研究成果一體化管理與再利用具有潛在意義。
參考文獻:
[1] 楊建鵬.基于NoSQL的油田數據管理研究[J].信息系統工程,2019(1):56.
[2] 馬立平,任寶生,趙明.油田產能建設項目后評價輔助系統設計與實現[J].計算機應用與軟件,2011,28(6):161-163,204.
[3] 沈明.油田開發生產數據庫在油藏管理中的應用實踐[J].西部探礦工程,2010,22(12):29-30,33.
[4] 于紅梅.油田Web數據庫系統的體系設計[J].油氣田地面工程,2013,32(2):27-28.
[5] 張巖.數字油田公共數據庫的結構設計構思[J].中國管理信息化,2017,20(5):159-160.
【通聯編輯:聞翔軍】