999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談石油勘探行業(yè)數(shù)據(jù)湖建設(shè)中的數(shù)據(jù)治理問題

2021-11-22 03:14:00
中國管理信息化 2021年9期
關(guān)鍵詞:數(shù)據(jù)庫質(zhì)量系統(tǒng)

張 蕓

(大港油田信息中心,天津 300280)

1 背 景

1.1 數(shù)據(jù)湖

隨著大數(shù)據(jù)技術(shù)的發(fā)展,單一的數(shù)據(jù)形式不再滿足人們對數(shù)據(jù)利用的需要,多種多樣的數(shù)據(jù)以不同的形式存儲起來,有數(shù)據(jù)表形式的結(jié)構(gòu)化數(shù)據(jù),有圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù),還有具有時間規(guī)律和標簽的時序數(shù)據(jù)。多種多樣的數(shù)據(jù)形式,讓結(jié)構(gòu)化數(shù)據(jù)存儲方式不再滿足人們的需求,數(shù)據(jù)湖的概念開始興起。

數(shù)據(jù)湖(Data Lake)這個術(shù)語由Pentaho 公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)提出,他對數(shù)據(jù)湖的定義是,可以把所有的數(shù)據(jù)都放入數(shù)據(jù)湖中,應(yīng)用數(shù)據(jù)時定義它的數(shù)據(jù)結(jié)構(gòu)。也就是說,對于存儲的數(shù)據(jù),數(shù)據(jù)湖并不定義它的數(shù)據(jù)類型,這樣數(shù)據(jù)湖就可以存儲各種類型的數(shù)據(jù),并且通過統(tǒng)一的存儲,讓不同的數(shù)據(jù)都有相同的存儲方式,而在數(shù)據(jù)應(yīng)用的時候定義其數(shù)據(jù)結(jié)構(gòu),讓應(yīng)用方便連接到數(shù)據(jù)湖上獲取數(shù)據(jù)。

目前,在通用行業(yè)中的數(shù)據(jù)湖建設(shè)多和大數(shù)據(jù)平臺Hadoop 結(jié)合,利用其開源、組件豐富、分布式存儲、并行處理等特點,來實現(xiàn)數(shù)據(jù)湖定義中的存儲多種類型的數(shù)據(jù)方式。

目前市面上常見的數(shù)據(jù)湖產(chǎn)品有微軟的Azure Data Lake、IBM 的數(shù)據(jù)湖產(chǎn)品、靈雀云數(shù)據(jù)湖等相關(guān)產(chǎn)品。

1.2 石油勘探行業(yè)的數(shù)據(jù)湖建設(shè)

面對新的數(shù)據(jù)湖技術(shù),結(jié)合石油勘探行業(yè)的數(shù)據(jù)特點和自身需求,石油勘探領(lǐng)域的數(shù)據(jù)湖建設(shè)正如火如荼展開。

2018 中國石油夢想云一期建設(shè)已完成,在二期的規(guī)劃中將遵循“兩統(tǒng)一、一通用”原則,上游信息總體架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)湖、基礎(chǔ)底臺與服務(wù)中臺、應(yīng)用前臺和門戶入口組成。油氣田負責數(shù)據(jù)源、特色應(yīng)用、擴展應(yīng)用及相關(guān)服務(wù)中臺功能的建設(shè),其他內(nèi)容由總部統(tǒng)一建設(shè)。

2019 年中石油旗下各分公司開展區(qū)域湖建設(shè),一方面集成各油田所有類型數(shù)據(jù),為各油田提供數(shù)據(jù)湖服務(wù);另一方面和總湖互通,成為總湖的數(shù)據(jù)源頭。真正做到了集小水源匯聚成江海,數(shù)據(jù)湖建設(shè)遍地開花,成為中石油數(shù)據(jù)湖建設(shè)和應(yīng)用的數(shù)據(jù)基礎(chǔ)。

2 數(shù)據(jù)湖建設(shè)中的數(shù)據(jù)治理問題

2.1 油田已建系統(tǒng)的數(shù)據(jù)集成問題

在數(shù)據(jù)湖建設(shè)之前,各油田均有各自的數(shù)據(jù)存儲和管理系統(tǒng),包括中石油總部統(tǒng)建和自建系統(tǒng),這些系統(tǒng)是各油田信息化的成果,是珍貴的數(shù)據(jù)資源和重要數(shù)據(jù)來源。而數(shù)據(jù)湖的結(jié)構(gòu)化數(shù)據(jù)的集成,則面臨如何將這些系統(tǒng)的主數(shù)據(jù)統(tǒng)一、屬性數(shù)據(jù)統(tǒng)一、多源數(shù)據(jù)擇取其一的問題。

主數(shù)據(jù)統(tǒng)一的問題主要集中在不同系統(tǒng)的主數(shù)據(jù)存在不一致的現(xiàn)象,以井號舉例,在A 系統(tǒng)和B 系統(tǒng)中都存在同樣的一口井,但這口井在各個系統(tǒng)中都有不同的井唯一編碼。在數(shù)據(jù)湖建設(shè)中,既需要通過系統(tǒng)A 中的該井編碼查詢系統(tǒng)A 中的業(yè)務(wù)數(shù)據(jù),也需要系統(tǒng)B 中的該井編碼查詢該井在系統(tǒng)B中的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)湖在集成這兩個系統(tǒng)的數(shù)據(jù)時,需要統(tǒng)一它們的主數(shù)據(jù)編碼。

屬性數(shù)據(jù)是每個系統(tǒng)中的代碼表,比如套管名稱、巖石顏色、巖石名稱等,這些屬性都有固定的屬性值的枚舉范圍,但不同系統(tǒng)間的屬性范圍可能會有所不同,數(shù)據(jù)湖需要對這類數(shù)據(jù)進行統(tǒng)一。

多源數(shù)據(jù)的問題,主要指的是同一個業(yè)務(wù)數(shù)據(jù)在不同的系統(tǒng)中重復(fù)采集。數(shù)據(jù)湖進行數(shù)據(jù)集成的時候,不僅僅是將數(shù)據(jù)按照系統(tǒng)中固有的模型進行簡單的數(shù)據(jù)遷移,更是要考慮不同的系統(tǒng)中如何把它們科學(xué)地、合理地組織成一個整體,對多源的數(shù)據(jù)需要確定唯一來源,避免重復(fù)數(shù)據(jù)入庫。

除此之外,如何對現(xiàn)有數(shù)據(jù)尤其是現(xiàn)存系統(tǒng)中的歷史數(shù)據(jù)進行入湖的質(zhì)量控制,讓優(yōu)質(zhì)數(shù)據(jù)入湖、存疑數(shù)據(jù)進行確認和整改,是數(shù)據(jù)湖數(shù)據(jù)資源建設(shè)過程中需要注意的重要問題之一。

2.2 非結(jié)構(gòu)化數(shù)據(jù)和時序數(shù)據(jù)問題

石油勘探行業(yè)非結(jié)構(gòu)化數(shù)據(jù)(如文檔、視頻、地震資料等)主數(shù)據(jù)如何管理,非結(jié)構(gòu)化數(shù)據(jù)尤其是大塊數(shù)據(jù)在數(shù)據(jù)湖中如何保證讀取速度的問題。

時序數(shù)據(jù)多以時間為標簽,而時序數(shù)據(jù)的數(shù)據(jù)庫大多是非關(guān)系型數(shù)據(jù)庫,時序數(shù)據(jù)如何和數(shù)據(jù)湖中的數(shù)據(jù)建立主數(shù)據(jù)的聯(lián)系,如何能利用時序數(shù)據(jù)自身的特點開展大數(shù)據(jù)應(yīng)用,都是需要解決的問題。

2.3 數(shù)據(jù)湖建成后已有數(shù)據(jù)應(yīng)用系統(tǒng)切換問題

數(shù)據(jù)湖的數(shù)據(jù)應(yīng)用問題主要集中在如何低成本地切換已建應(yīng)用系統(tǒng)從數(shù)據(jù)庫連接到數(shù)據(jù)湖連接,保證已建系統(tǒng)更換數(shù)據(jù)源后的可用性。

各大油田存在著眾多的老的應(yīng)用系統(tǒng),采用直連或傳統(tǒng)WebService 的方式多頭連接不同數(shù)據(jù)庫或數(shù)據(jù)服務(wù),在統(tǒng)一切換成數(shù)據(jù)湖提供服務(wù)的方式之前,需要充分考慮到這些老數(shù)據(jù)應(yīng)用系統(tǒng)的數(shù)據(jù)源切換問題,盡可能降低數(shù)據(jù)源切換成本,切實保證數(shù)據(jù)應(yīng)用系統(tǒng)的正常服務(wù)。

3 關(guān)于數(shù)據(jù)湖建設(shè)中數(shù)據(jù)治理問題的建議

3.1 建立主數(shù)據(jù)管理模塊

在數(shù)據(jù)湖中必須集成主數(shù)據(jù)管理模塊或系統(tǒng),來管理整個數(shù)據(jù)湖的主數(shù)據(jù)。對于原有數(shù)據(jù)湖中的數(shù)據(jù),建立映射表,將數(shù)據(jù)源庫中的主數(shù)據(jù)和數(shù)據(jù)湖中的主數(shù)據(jù)建立映射關(guān)系,在數(shù)據(jù)湖中,同一主數(shù)據(jù)采用唯一的主數(shù)據(jù)ID,但通過映射表,可查到該主數(shù)據(jù)對應(yīng)到各系統(tǒng)中的主數(shù)據(jù)ID,來保證各系統(tǒng)主數(shù)據(jù)在數(shù)據(jù)湖中的統(tǒng)一。對于有矛盾或不能映射的主數(shù)據(jù),需要由業(yè)務(wù)人員進行確認后入庫,保證主數(shù)據(jù)的數(shù)據(jù)質(zhì)量。

除此之外,要杜絕除主數(shù)據(jù)管理模塊以外的系統(tǒng)對主數(shù)據(jù)進行采集,新的主數(shù)據(jù)入庫需要通過主數(shù)據(jù)管理模塊的審核,由主數(shù)據(jù)模塊提供給需要主數(shù)據(jù)的業(yè)務(wù)數(shù)采集系統(tǒng),杜絕主數(shù)據(jù)多源頭采集的問題。

3.2 建立數(shù)據(jù)同步原ID 記錄機制

將數(shù)據(jù)同步到數(shù)據(jù)的過程中,要有相應(yīng)字段記錄該條數(shù)據(jù)的來源,在查出問題后可以及時、方便地進行數(shù)據(jù)的來源回溯,對有問題的數(shù)據(jù)進行源頭整改,保證數(shù)據(jù)湖中數(shù)據(jù)的準確性。

在數(shù)據(jù)整改的過程中,要保存整改記錄,在一段時間整改數(shù)據(jù)應(yīng)用平穩(wěn)后,才可將整改記錄歸檔或刪除。

3.3 建立科學(xué)的集成模型和數(shù)據(jù)地圖

消除信息孤島是數(shù)據(jù)湖建設(shè)的目的之一。在各油田自建的系統(tǒng)中,因為信息孤島而重復(fù)錄入數(shù)據(jù)的現(xiàn)象很多,數(shù)據(jù)湖的結(jié)構(gòu)化數(shù)據(jù)存儲模型,要充分考慮各系統(tǒng)的采集和存儲數(shù)據(jù)模型,以主數(shù)據(jù)為中心,梳理各系統(tǒng)的數(shù)據(jù)模型,建立集成的結(jié)構(gòu)化存儲模型,并通過對各系統(tǒng)數(shù)據(jù)內(nèi)容的整理,確定能涵蓋各系統(tǒng)同類數(shù)據(jù)內(nèi)容的屬性規(guī)范值進行統(tǒng)一的存儲管理。以此來解決多源數(shù)據(jù)問題和屬性值統(tǒng)一的問題。

同時,通過數(shù)據(jù)流向和數(shù)據(jù)血緣關(guān)系,建立數(shù)據(jù)地圖,將數(shù)據(jù)流經(jīng)的各個節(jié)點清晰明了地展示出來,尤其是各數(shù)據(jù)源系統(tǒng)到數(shù)據(jù)湖的映射關(guān)系,需要妥善保存,在映射關(guān)系修改之前,應(yīng)先修改映射關(guān)系文件,并及時修正數(shù)據(jù)地圖。

數(shù)據(jù)地圖的建立,可以有效地幫助用戶進行數(shù)據(jù)血緣分析和影響性分析。數(shù)據(jù)血緣分析便于用戶追查數(shù)據(jù)錯誤源頭;影響性分析有助于在數(shù)據(jù)發(fā)生變化時,立刻確定該數(shù)據(jù)所影響的系統(tǒng)有哪些。

3.4 建立跨專業(yè)質(zhì)量規(guī)則庫

根據(jù)勘探開發(fā)業(yè)務(wù)邏輯,建立跨庫、跨專業(yè)的質(zhì)量規(guī)則庫,數(shù)據(jù)質(zhì)量不再局限于某一專業(yè)內(nèi),而是需要同一組數(shù)據(jù)同一階段產(chǎn)生的不同專業(yè)數(shù)據(jù)進行互相印證,來實現(xiàn)跨專業(yè)的質(zhì)量規(guī)則檢查。

質(zhì)量規(guī)則庫僅存業(yè)務(wù)規(guī)則質(zhì)量,如 “井段頂深<井段底深”,而不是某個表的某個字段的規(guī)則,而是把質(zhì)量規(guī)則和表的字段進行配置,用質(zhì)量規(guī)則約束字段的數(shù)據(jù)合理性,它應(yīng)該是靈活的、可配置的。

同時,質(zhì)量規(guī)則庫是數(shù)據(jù)湖的一個模塊,它應(yīng)該是可定制的、可服務(wù)化的,不僅服務(wù)于數(shù)據(jù)湖的質(zhì)量檢查,更可以服務(wù)于其他系統(tǒng)的質(zhì)量檢查。

3.5 建立質(zhì)量反饋機制和考核機制

對數(shù)據(jù)湖中的數(shù)據(jù)應(yīng)建立反饋和定期考核的機制。數(shù)據(jù)問題僅靠質(zhì)量規(guī)則庫還不夠,還需要用戶在應(yīng)用數(shù)據(jù)湖中數(shù)據(jù)時發(fā)現(xiàn)問題并及時反饋,從而通過應(yīng)用來反查數(shù)據(jù)湖中的問題。

除此之外,應(yīng)當建立數(shù)據(jù)湖數(shù)據(jù)質(zhì)量的定期考核機制,結(jié)合數(shù)據(jù)質(zhì)量規(guī)則庫掃描和用戶反饋,來建立數(shù)據(jù)湖中數(shù)據(jù)質(zhì)量的良性循環(huán)。

3.6 利用主數(shù)據(jù)管理模塊管理非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)主數(shù)據(jù)可以利用數(shù)據(jù)湖中的主數(shù)據(jù)模塊進行管理,通過訪問地址建立映射表,存儲在數(shù)據(jù)湖的結(jié)構(gòu)化數(shù)據(jù)存儲部分,同時,為非結(jié)構(gòu)化數(shù)據(jù)的屬性信息建立非結(jié)構(gòu)化數(shù)據(jù)的信息庫,該信息庫作為結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)湖的結(jié)構(gòu)化數(shù)據(jù)存儲部分,利用結(jié)構(gòu)化數(shù)據(jù)擅長的信息統(tǒng)計的功能特點,便于非結(jié)構(gòu)化數(shù)據(jù)的查找和定位。

3.7 非結(jié)構(gòu)化數(shù)據(jù)異地存儲、本地備份

非結(jié)構(gòu)化數(shù)據(jù)可采用異地存儲、本地備份的方式,對于經(jīng)常訪問的非結(jié)構(gòu)化數(shù)據(jù)在本地進行緩存,來提高常用非結(jié)構(gòu)化數(shù)據(jù)的讀取速度和效率,對于不常用的非結(jié)構(gòu)化數(shù)據(jù)可采用僅存其基本信息表,數(shù)據(jù)體可以歸檔模式存放在其他存儲設(shè)備上。異地存儲和備份的策略,可以提高非結(jié)構(gòu)化數(shù)據(jù)的容災(zāi)能力。

3.8 利用主數(shù)據(jù)管理模塊管理時序數(shù)據(jù)主數(shù)據(jù)

時序數(shù)據(jù)本身大多存儲在NoSQL 數(shù)據(jù)庫中,這種類型數(shù)據(jù)庫本身并不擅長關(guān)系管理,需要通過主數(shù)據(jù)管理模塊的關(guān)系型數(shù)據(jù)庫對時序數(shù)據(jù)庫的主數(shù)據(jù)關(guān)系進行關(guān)聯(lián)和管理。和非結(jié)構(gòu)化數(shù)據(jù)類似,時序數(shù)據(jù)的主數(shù)據(jù)信息表可以作為結(jié)構(gòu)化數(shù)據(jù)存在數(shù)據(jù)湖的結(jié)構(gòu)化數(shù)據(jù)庫中。

3.9 采用HBase 等列式數(shù)據(jù)庫管理時序數(shù)據(jù)

時序數(shù)據(jù)以時間為標簽,而數(shù)據(jù)湖多以Hadoop 為架構(gòu)??梢詫r序數(shù)據(jù)的時間字段設(shè)置為Key 值,將時序數(shù)據(jù)放到HBase 上進行管理,Hadoop 對HBase 數(shù)據(jù)庫的查詢和定位效率較高,可以根據(jù)時間快速查找和定位時序數(shù)據(jù)的位置。同時,基于Hadoop 的開源數(shù)據(jù)挖掘組件,可以連接HBase 對其上面的數(shù)據(jù)進行應(yīng)用和數(shù)據(jù)挖掘。

3.10 建立數(shù)據(jù)應(yīng)用視圖和向下兼容的服務(wù)模式

在數(shù)據(jù)湖的應(yīng)用層需要建立和數(shù)據(jù)源庫的表同構(gòu)的數(shù)據(jù)應(yīng)用視圖,同時根據(jù)原庫的數(shù)據(jù)應(yīng)用方式和應(yīng)用模式,建立鏡像的數(shù)據(jù)湖服務(wù)模式,包括同樣的服務(wù)名稱、同樣的訪問視圖名稱,減少新老系統(tǒng)切換的復(fù)雜度。

4 結(jié)語

數(shù)據(jù)湖的建設(shè)是現(xiàn)今多元化數(shù)據(jù)時代的必然趨勢,只有將不同結(jié)構(gòu)、不同來源、不同系統(tǒng)、不同形式的數(shù)據(jù)有機、統(tǒng)一地結(jié)合起來,數(shù)據(jù)湖結(jié)合數(shù)據(jù)治理思想,才能為大數(shù)據(jù)應(yīng)用打造良好的數(shù)據(jù)環(huán)境。數(shù)據(jù)湖的建設(shè),是信息技術(shù)和計算機科學(xué)不斷發(fā)展和更迭進程中必不可少的一環(huán),它一方面需要兼顧已有系統(tǒng)的正常運行,另一方面又要立足于未來,將數(shù)據(jù)應(yīng)用到新的技術(shù)中去,用新的技術(shù)和系統(tǒng)來保障企業(yè)的數(shù)據(jù)建設(shè)從信息化時代平穩(wěn)地邁向大數(shù)據(jù)時代,在這個過程中,要時刻重視數(shù)據(jù)治理的問題,這樣才能保證數(shù)據(jù)湖的數(shù)據(jù)基石健康、穩(wěn)固。

猜你喜歡
數(shù)據(jù)庫質(zhì)量系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
“質(zhì)量”知識鞏固
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
質(zhì)量守恒定律考什么
做夢導(dǎo)致睡眠質(zhì)量差嗎
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 亚洲欧美不卡中文字幕| 国产成人一二三| 露脸真实国语乱在线观看| 亚洲成人一区二区三区| 在线日韩一区二区| 国产精品黄色片| 国产午夜不卡| 久久人人妻人人爽人人卡片av| 九色视频在线免费观看| 国内精品久久久久久久久久影视 | 日本免费福利视频| 成人国产精品2021| 最新国产你懂的在线网址| 国产欧美日韩另类| 亚洲AV无码一区二区三区牲色| 日本国产一区在线观看| 午夜精品一区二区蜜桃| 国产凹凸一区在线观看视频| 波多野结衣中文字幕久久| 国产精品视屏| 日韩毛片免费视频| 免费中文字幕在在线不卡| 亚洲青涩在线| 国产一区二区三区免费观看| 免费一级α片在线观看| 久久久精品久久久久三级| 女人一级毛片| 日韩欧美成人高清在线观看| 国产丝袜精品| 97在线国产视频| 国产在线精品美女观看| 国产精品一区二区久久精品无码| 国产H片无码不卡在线视频| 欧美激情福利| 九色综合视频网| 国产成人综合网在线观看| 国产九九精品视频| 亚洲精品国产精品乱码不卞| 亚洲欧美日韩视频一区| 99久久国产综合精品女同| 亚洲福利一区二区三区| a亚洲视频| 女同国产精品一区二区| 澳门av无码| 久久青草免费91观看| 国产成人成人一区二区| 2021最新国产精品网站| 九一九色国产| 亚洲无线视频| 中文字幕佐山爱一区二区免费| 亚洲国产亚洲综合在线尤物| 99热这里只有免费国产精品| 亚洲av无码专区久久蜜芽| 青青热久麻豆精品视频在线观看| 无码精品福利一区二区三区| 亚洲人成网线在线播放va| 日韩AV手机在线观看蜜芽| 亚洲精品你懂的| 无码一区二区波多野结衣播放搜索| 精品久久高清| 日韩天堂网| 伊人无码视屏| 99久久国产综合精品2023| 奇米影视狠狠精品7777| 在线观看国产黄色| 日本欧美成人免费| 亚洲AⅤ无码国产精品| 国产日韩欧美视频| 成人免费一级片| 午夜a级毛片| 亚洲h视频在线| 好吊色国产欧美日韩免费观看| 国产伦片中文免费观看| 99无码熟妇丰满人妻啪啪| 亚洲成人精品久久| 人妻夜夜爽天天爽| 国产在线精品网址你懂的| 国产精品成人免费视频99| 萌白酱国产一区二区| 一级毛片免费观看不卡视频| 青青网在线国产| 欧美中文字幕在线二区|