999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop分布式框架下石油行業非結構化數據管理實現策略探究

2020-04-30 06:44:12孫曉萍
中國管理信息化 2020年7期

孫曉萍

[摘 ? ?要] 當前,社會已經步入了大數據時代,互聯網技術的應用非常廣泛。隨著數據技術的快速進步,數據的產生速度也在以指數級增長。傳統的油田開發作業中,對數據的記錄方式以關系型數據庫技術為主要的數據記錄和更新方式。但隨著信息技術的發展,新數據中出現了非結構化數據,這些數據的格式不確定,記錄起來非常困難。文章以非結構化數據為研究對象,針對油田開發過程中面臨的數據記錄問題,提出可以有效儲存和記錄非結構化數據的Hadoop分布式框架模式,從而解決油田開發過程中遇到的數據記錄和更新的難題。

[關鍵詞] Hadoop分布式框架;非結構化數據;數據管理

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 07. 029

[中圖分類號] F270.7 ? ?[文獻標識碼] ?A ? ? ?[文章編號] ?1673 - 0194(2020)07- 0063- 02

0 ? ? ?前 ? ?言

石油行業是一個與數據關聯密切的行業,勘探數據、地震數據、鉆進數據、方案文檔等都需要以數據形式進行記錄。為了保障數據的精確性,這些方案數據又往往以圖件這類非結構化的數據進行存儲,這造成了數據的后續查閱和更新非常麻煩,對于油田開發過程的深入推進相當不利。HBase數據庫技術是一種可以有效處理多格式小文件的數據技術,它使用Lucene檢索引擎編寫和設計,采用分層體系架構,具備全文檢索的能力,可以處理大量的非結構化數據文件,能有效應用到那些格式難以確定的非結構化數據記錄當中。

1 ? ? ?加強石油行業數據管理的必要性

當前國際油氣市場供應關系較為緊張,全球經濟形勢不斷發生變化,在此背景下油田企業應進一步提升對于數據管理的重視程度。工業化的推進對企業數據管理工作來說有更高要求,油田企業應配合市場的能源需求著重加強數據管理工作,實現資源的優化,充分利用時代形勢來促使自身實現創新改革。

油田企業在數據管理上也發生了較大變化,企業應結合油田開發來對數據管理工作進行整改,制訂與開發進程相適應的數據管理操作程序,在數據信息管理系統運行上進一步優化,加強數據檔案管理等,結合企業具體業務范圍來對數據管理制定相關內容進行調整。

隨著科技的不斷發展,油氣資源在勘察、開采、儲存、運輸及利用方面都發展出了更好的渠道,企業數據管理理論與實踐操作之間融合度更好,數據管理作用得到了更深層次的體現,數據管理已經由以往的監督導向慢慢向服務導向進行轉變。在數據范圍上,已經由過去僅僅進行現場作業數據逐漸向開采管理范圍進行轉變,這樣能夠進一步提升數據管理工作的監督作用和服務質量,大大提升了企業對于風險的化解作用。油田企業應借助時代機遇,促使自身數據管理向為企業進行服務方向進行轉變。在數據領域方面,進一步拓展數據管理范圍及數據職能。

2 ? ? ?Hadoop分布式框架的數據庫技術選擇

數據技術的進步和石油行業乃至整個能源產業的發展呈相互遞進的關系。我國的工業化產業發展加快,對能源的需求增多,石油等能源行業必須進一步提升鉆探作業的精確性,因此需要使用準確性更好,誤差更少的非結構數據。可見,非結構數據的發展和石油行業的發展是呈現為直白的需求鏈關系,而為了適應這種非結構數據增多的數據儲存環境,發展以Hadoop為基礎的文檔存儲技術就很有必要。

2.1 ? Hadoop分布式計算框架對數據庫技術的要求

傳統的數據庫技術以Oracle為代表,Oracle主要是對油田開發中的結構化數據進行記錄和管理,對于圖件等非結構數據,需要以二進制大對象(BLOB)作為儲存容器。不難看出,Oracle作為長期應用于石油行業的主流數據庫技術,無論是在記錄結構化數據,還是非結構化數據時,都有一定的兼容性。不過,由于非結構化數據的格式是不確定狀態,所以在儲存和檢索非結構化數據時,Oracle需要用到二進制大對象(BLOB)這種額外的處理能力才能獲得與對非結構化數據的存儲[1]。

非結構化數據的管理難點在于其格式的多元化,這要求數據庫必須有很高的兼容性,因此以非結構化數據為存儲對象的數據庫必須要有足夠的高性能硬件作為支撐,為了解決這個問題,開源的計算方法就孕育而生。在這些計算方案中,又以Hadoop分布式計算框架最為突出。

Hadoop作為一種分布式計算框架,它采用的是流式數據訪問模式。在Hadoop中,數據的保存、管理及更新是依靠數據副本和分布式處理實現,而為了達成這一效果,設計者在編寫Hadoop時使用了主/從架構模式,使該數據庫技術具備了可伸縮、高效率的數據存儲處理特征。

不過,Hadoop計算框架也并非沒有缺點,Hadoop從編寫之初就是為大文件的存儲設計的,這讓Hadoop擁有比傳統計算框架更強的兼容性,但是在處理小文件時,小文件主要以對象形式存儲到數據庫的元數據節點內存里,這使得過多的小文件會嚴重消耗元數據節點的內存,而過小的內存容量又會對集群擴展形成制約,最終影響到數據儲存效率。而Hadoop對于小文件的管理采取了流式訪問,在獲取文件時必須請求數據節點,而當小文件數量過多時,Hadoop的請求就會變得頻繁,這樣一來對元數據節點和數據節點的IO性能就會帶來嚴重的影響[2]。

基于Hadoop的上述特征,如果未來的油田開發開始大規模的使用Hadoop計算框架,那么就不能在以Oracle數據庫技術為載體,而是需要一種帶有分布式特征,可以面向列的開源數據庫來處理小文件的打包和全局命名空間工作。

2.2 ? HBase數據庫技術的優勢與特征

HBase作為一種分布式的數據庫技術,相比Oracle有很強的計算和管理效能,以Oracle文檔的存儲結構為對比對象來設計HBase的表行鍵結構,確定HBase文檔的文檔代碼為行鍵,文檔的錄入時間為時間戳,已經項目和文檔的名稱、最后的更改時間、文件內容以及用戶名稱等等列簇。然后使用Java語言作為接口對兩種數據庫技術進行連接,以此便可測得兩種數據庫技術的文檔上傳下載效率。以已有的實驗結果來看, Oracle對數據文件的響應和處理能力要落后HBase許多。HBase上傳了20個文檔文件,所有文件的大小一共為130 M,整個上傳過程大約用時19秒,而同樣的大小,同樣的文件數量,Oracle用了330秒。而即使是單獨的文件下載,HBase只需14~15秒便能完成,Oracle卻要花上將近一分鐘。考慮到未來的油田開放中,小文件體量的圖件數據會越來越多,數據管理對文件吞吐效率的要求會越來越嚴格,所以Hadoop計算框架未來的數據庫技術應當以HBase為主[3]。

3 ? ? ?Hadoop計算框架的搭建

3.1 ? 引擎選擇

Hadoop計算框架要明確兩個基礎要求,一是存儲基礎,二是系統編寫的引擎選擇。存儲基礎已經明確,以文件吞吐效率更高的HBase數據庫技術為主,而在引擎選擇上,考慮到Hadoop計算框架開源的特點,所使用的引擎也必須是一套開源的全文搜索框架。從當前數據管理系統編寫中所使用的引擎類型來看,具備文檔分詞處理、信息入庫索引、用戶查詢匹配的Lucene引擎無疑是最適合搭建Hadoop計算框架的引擎。Lucene引擎是完全開源的數據引擎,能夠在非結構化數據入庫前對文檔進行分詞處理和全文掃描,以此解析出需要寫入索引庫的信息,比如文檔的文字、文檔的內容、文檔的創建時間、文檔的大小、文檔的頁數等等。這樣一來,管理人員在查詢相關數據時,Lucene便可根據用戶給出的關鍵詞段進行索引內容的查找,將匹配內容從索引庫返回給數據管理人員,節約了管理人員在數據查找、調整、更新等工序上的耗時。

3.2 ? 框架設計

為了保障Hadoop計算框架可以和石油企業正在施行的管理系統集成,設計人員一般會把Hadoop計算框架設計為三層架構,分別是模塊資源中心、接口層、儲存層。模塊資源中心是Hadoop計算框架的核心,一般要包括權限控制、日志管理、消息提醒、文件上傳下載、文件預覽刪除、文件版本控制、文件格式轉換、文件分詞索引、文件夾管理、文件格式解析、智能檢索、統計分析、相關性分析、關注度排名等幾個模塊,而接口層則要包括數據增刪改查訪問接口和文件上傳下載訪問接口兩個模塊,儲存層由Oracle、Hbase和Lucene三個部分組成。

底層數據的訪問借由訪問接口和功能模塊兩個部分實現,在數據的儲存和管理上借由存儲層的三種數據技術實現,結構化數據依然用Oracle數據庫進行存儲,圖件等非結構化數據則由Hbase進行存儲,而數據的索引工作則由Lucene完成。

為了保障庫中的數據足夠完整,防止出現數據丟失的現象,負責非結構化數據存儲的HBase在運行操作上遵從事務處理模式,同時為了確保在服務器宕機時,HBase的服務和數據能夠無縫使用備份服務器運行,設計者還需要提供雙機熱備解決方案,以防萬一。

Hadoop計算框架的接口層定義了標準數據處理接口,其作用是為了方便使用者對各模塊的調用,由于在油田開發中對數據的處理,目錄的管理還有站內消息的查詢需要使用到不同系統,因此需要接口層的標準數據處理有組合查詢、訪問控制等可復用功能。

因此在搭建Hadoop計算框架的過程中,必須按照統一的開發標準,設計可擴展、可復用的模塊資源中心,為使用者在進行數據管理的過程中提供文件上傳、下載、預覽、備份、刪除等14個功能模塊,而且還要讓各模塊間松耦合,以此使管理人員在進行數據備份或者數據遷移時可以使用不用系統服務,并進行多系統調用。

4 ? ? ?結 ? ?語

隨著油田信息化工作的不斷推進,企業在數據管理方面的要求也原來越嚴格,Hadoop分布式存儲系統和傳統數據存儲系統相比有一定的優勢性,但也存在缺點,故在文章中提出基于HBase和Lucene來完善Hadoop計算框架的思路,以此實現文件儲存管理、全庫智能檢索等核心功能。

主要參考文獻

[1]張圣杰.分布式大數據管理系統的設計與實現研究[J]信息通信,2019(2):33-34.

[2]李元亨,鄒學玉.Hadoop綜述[J].電腦知識與技術,2018(9):39-40.

[3]曹恒瑞,曹展碩.一種基于Hadoop平臺的分布式數據檢索系統[J].軟件導刊,2017(4):55-55.

主站蜘蛛池模板: 九九热这里只有国产精品| 日本a级免费| 欧美在线黄| 欧美啪啪视频免码| 在线观看免费黄色网址| 无码区日韩专区免费系列 | 素人激情视频福利| 热热久久狠狠偷偷色男同| 人妻精品久久无码区| AV天堂资源福利在线观看| 国产鲁鲁视频在线观看| 毛片在线播放a| 国产理论一区| 无码精品国产dvd在线观看9久| 国产日韩欧美视频| 国产免费羞羞视频| 91丝袜美腿高跟国产极品老师| 亚洲人成网站观看在线观看| 日本亚洲成高清一区二区三区| 亚洲有无码中文网| 成人a免费α片在线视频网站| 国产乱子伦手机在线| 日韩在线永久免费播放| 97在线免费| 国产导航在线| 国产成人永久免费视频| 亚洲高清无在码在线无弹窗| 国产精品久久国产精麻豆99网站| 黄色网在线| 国产成人三级| 国内老司机精品视频在线播出| 最新国产高清在线| 亚洲一级无毛片无码在线免费视频| 国产亚洲欧美另类一区二区| 第一页亚洲| 伊人久久久久久久久久| 国产精品色婷婷在线观看| 免费在线国产一区二区三区精品| 特级欧美视频aaaaaa| 精品无码一区二区三区在线视频| 婷婷六月综合| 亚洲首页在线观看| 国产毛片高清一级国语| 亚洲成人播放| 国产高清在线丝袜精品一区| 欧美一区二区三区香蕉视| 天天综合网色| 国产成+人+综合+亚洲欧美| 国产日韩丝袜一二三区| 中字无码精油按摩中出视频| 免费国产好深啊好涨好硬视频| 日韩精品毛片| 欧美日韩中文国产| 韩日无码在线不卡| 亚洲视频二| 亚洲欧美日韩综合二区三区| 国产www网站| 992Tv视频国产精品| 国产91无码福利在线| 亚洲国产中文精品va在线播放| 中文字幕亚洲第一| 久久综合婷婷| 香蕉视频在线精品| 在线看片免费人成视久网下载| 午夜一级做a爰片久久毛片| 欧美成人二区| 亚洲高清中文字幕在线看不卡| 国产va免费精品| 亚洲色图在线观看| 日本少妇又色又爽又高潮| 无码日韩人妻精品久久蜜桃| 五月婷婷激情四射| 欧美成人午夜在线全部免费| 亚洲国产高清精品线久久| 99re精彩视频| 国产精品嫩草影院视频| 美女扒开下面流白浆在线试听| 五月婷婷丁香综合| 国产精品嫩草影院视频| 五月天福利视频| 91九色最新地址| 无码电影在线观看|