999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的石油大數據平臺構建

2021-06-16 09:35:52張贏
電子技術與軟件工程 2021年7期
關鍵詞:容錯性數據庫

張贏

(長江大學 湖北省荊州市 434000)

在石油開發作業過程中產生的數據不僅量大而且復雜,在數據采集、存儲、利用上都存在巨大的問題。例如采集到的數據通常需要人工導入,不同的部門、設備、井場等記錄數據的格式、單位也不盡相同,再加上數據常年的累積,油氣數據在采集、存儲、使用方面都相當困難。但隨著Hadoop 大數據技術的發展,為解決油氣數據的管理問題提供了新的思路。Hadoop 大數據技術,在海量復雜數據的采集、存儲、分析計算等環節提供了全套方案,能夠有效的解決油氣數據的管理問題。

1 油氣數據平臺的技術選擇

1.1 分布式文件系統Hadoop HDFS

隨著石油數據的增大,在一個操作系統中不可能存下所有的油氣數據,也不可能管理那么多的數據,那么就需要將數據分散到多個操作系統中的磁盤里,因此需要一個系統來管理多臺機器上的數據,這就是分布式文件管理系統。Hadoop 的HDFS 就是當前最流行的分布式文件管理系統之一。

Hadoop[2]是Apache 的頂級開源項目,由java 編寫,而HDFS是其核心組件之一,當前的大數據技術便是基于HDFS。HDFS 具有高容錯性、低成本和高擴展性以及適合處理大數據等特點。

(1)高容錯性:數據由多個副本保存,可以提高副本數量和容錯性;

(2)低成本:Hadoop 可以構建在廉價的機器上,這意味著Hadoop 集群并不需要花多少錢;

(3)高擴展性:可以通過增加節點來擴大集群。

(4)適合處理大數據:數據規模大,HDFS 不僅能夠處理GB、TB 甚至PB 級規模的數據,還能能夠處理百萬級以上規模的文件。

HDFS 優秀的存儲能力,為油氣開發作業中產生的海量數據提供了存儲保障。

1.2 分布式計算框架Spark

面對如此復雜且巨大的數據,如何快速對數據進行處理、計算是個巨大的問題,使用分布式計算框架Spark,可以使用多臺計算機同時運作,快速完成對數據的清洗、篩選、計算等工作。Spark是一種通用的、可擴展的大數據分析引擎,現在是Apache 的頂級開源項目。Spark由Scala語言編寫,而Scala則是運行在JVM上語言,這意味著Spark 可以很容易與Hadoop、Hbase 等大數據框架銜接。Spark 是在Hadoop MapReduce 分布式計算平臺上的基礎上發展來的,Spark 繼承了MapReduce 的優點并改進了其缺點,具有運行速度快、容錯性高、通用性強等優點。

(1)運行速度快:Spark 計算過程中的中間數據直接放在內存中,而Hadoop MapReduce 計算過程中的中間數據需要先保存到磁盤,因此Spark 減少了磁盤IO,提高了數據計算效率;

(2)容錯性高:在Spark 計算過程中,如果出現了因斷電導致的數據丟失,Spark 可以基于它的彈性分布式數據集RDD(Resilient Distributed Dataset)對數據進行重建,而不需要對數據重新計算。

(3)通用性強:Hadoop MapReduce 只提供Map 和Reduce兩種計算操作,而Spark 提供Union、Map、FlatMap、Sample、GroupByKey、Filter、Join、Cogroup、MapValues、ReduceByKey、Sort 以及PartionBy 等多種操作類型,并且Spark 還提供流式計算,這是MapReduce 所不具備的。

1.3 分布式數據庫Hbase

HDFS 只是一個分布式文件系統,并不提供類似關系型數據庫的全文檢索的能力。Hbase(Hadoop Database)是Apache 軟件基金會的Hadoop 項目的一部分,由java 語言編寫的開源的非關系型分布式數據庫,是谷歌BigTable 的開源實現。Hbase 具有高擴展性、高可靠、海量存儲、支持高并發等特性。

(1)高擴展性:Hbase 運行于Hadoop 的HDFS 文件系統之上,與Hadoop HDFS 天然集成,無需復雜的銜接,只需簡單增加廉價的機器即可達到擴大集群的目的。

(2)高可靠:Hbase 支持故障自動轉移,即使節點故障也不必擔心數據丟失。

(3)海量存儲:HBase 可以處理非常龐大的表,可以利用廉價的集群,通過水平擴展的方式,處理由超過10 億行數據和數百萬列元素組成的數據表。

(4)高并發:Hbase 支持高并發的隨機寫和實時查詢,這是HDFS 做不到的。由Spark 處理過的數據或者是原本就可以使用的數據,可以使用Hbase 進行存儲,方便使用。使用Hbase 可以為海量石油數據提供隨機寫和實時查詢的功能。

2 平臺技術架構

本系統以當前熱門的Hadoop 大數據技術作技術支撐,分為數據采集、數據處理、數據存儲、數據應用幾個過程[3],將石油勘探開采過程中的各種現場數據、歷史數據采集到HDFS 中,再有Spark 計算引擎處理數據,最終數據經過ETL 后被持久化到Hbase、Hive 等數據倉庫以供用戶消費,平臺具體架構如圖1 所示。

數據源主要分2 種,一種是各種歷史數據,這部分數據是在大數據技術出現之前長期積累的,數據樣式、格式、單位等都不統一,例如服務日志、文本文件、Execl、圖片、傳統數據庫數據等。另一種是現場采集的實時數據,包括現場設備的運行狀態、參數,采集到的油井數據等。

表 1:技術組件版本

圖1:基于Hadoop 的石油大數據平臺架構

對于數據采集,一般的歷史數據可以直接導入HDFS,或者使用Sqoop 等工具將傳統的數據庫中的數據導入到HDFS 或者Hive、Hbase[4],而各種現場數據 ,例如現場設備數據、現場采集的油井數據等需要專門的日志收集框架。Flume 正適合這種數據種類、數據源、數據流向多樣的場景。日志由Flume 收集,再由Kafka 傳輸到相應的數據處理層進行數據預處理。

數據處理層可以使用Spark 引擎配合其它ETL 工具。使用Spark 不僅可以快速處理海量離線數據,而且Spark SQL 可以快速的進行分布式數據查詢,不需要寫很多復雜的處理流程;使用Spark Streaming 可以實現高吞吐的、具備容錯機制的海量數據流式處理。

數據存儲層主要使用HDFS 存儲大量原始數據,原始數據一般數據量大,價值密度低,并不能直接使用,需要經過數據清洗、篩選等數據步驟轉化為我們所需要的數據。經過處理的后的結構化數據可以存儲在Hbase、Hive 等數據倉庫中以供直接使用。傳統的數據庫都是基于磁盤存儲的,如果并發量過高,不僅影響數據庫訪問效率,還會增加IO 和CPU 壓力。Redis 是基于內存的NoSQL 數據庫,因此使用Redis 作為緩存,將熱點數據存放在Redis 中可以減輕數據庫壓力、增加數據訪問速度。

數據應用層可以給不同的主體展示結果。例如,可以數據可視化、定制數據報表等,也可以將對歷史數據與現場數據做對比,以便做技術決策和危險預警等。

3 系統實現

3.1 平臺搭建

3.1.1 軟件版本選擇

系統規劃將直接決定整個平臺是否能成功搭建和平穩運行??紤]到系統穩定性、兼容性和程序的開發成本,本項目框架的版本選型為CDH 版5.12.0 發行版,相關的技術組件版本選型如表1 所示。

表 2:集群服務規劃表

3.1.2 機器準備

由于Linux 是開源的,更容易兼容其它開源軟件并且所需資源更小更安全,所以本次大數據平臺系統選擇安裝在Linux 上。使用當下流行的虛擬化軟件VMware Workstation 14.0 最小化安裝3 臺Linux 系統作為服務器節點。服務器名字分別為Node1、Node2、Node3,分別配置靜態IP、主機名以及SSH 免密登錄,并且關閉防火墻。

其中SSH 免密登錄的配置如下:

(1)生成公鑰和私鑰

[root@node1 .ssh]$ ssh-keygen

然后連續輸入3 個回車確認即可,該命令會在戶目錄下的.ssh目錄下創建2 個文件:公鑰(id_rsa.pub)和私鑰(id_rsa)。

(2)將公鑰拷貝到要免秘鑰登錄的目標機器上

[root@node1 .ssh]$ ssh-copy-id -i ~/.ssh/ id_rsa.pub root@node2

[root@node1 .ssh]$ ssh-copy-id -i ~/.ssh/ id_rsa.pub root@node3

該命令是將本地戶目錄下的.ssh 目錄下的公鑰拷貝到目的主機~/.ssh 目錄上。

(3)其它節點重復上面(1)、(2)兩步操作。

3.1.3 軟件安裝

Node1、Node2、Node3 的主機對應內存分別是:6G、4G、4G。Node1 分配的內存較大,因此主服務都安裝在Node1 上,服務分配安裝如表2 所示。

3.1.4 測試集群

(1)測試Hadoop HDFS。

訪問http://node1:50070 便可以成功進入HDFS 的可視化管理界面??梢栽诖隧撁嬷袑DFS 中的文件進行基本的操作。

(2)測試Spark。

訪問http://node1:8080 便可進入Spark Master 的監控頁面,在這里可以查看Spark 主節點和從節點的狀態。

(3)測試Hbase。

訪問http://node1:16010 便可以進入Hbase 的管理頁面,在這里可以查看Hbase 狀態。

3.2 導入數據

3.2.1 數據導入HDFS

對于無法直接使用的數據,可以直接上傳到HDFS,HDFS 提供Shell命令操作來操作文件。例如將本地文件剪切到HDFS目錄上:

hadoop fs -moveFromLocal 本地文件 HDFS 目錄

3.2.2 數據導入數據倉庫

數據來源中很大一部分是傳統關系型數據庫的數據,例如MySQL、Oracle 等數據庫中的數據。使用Sqoop,可以輕松將傳統的關系型數據庫中的數據導入到Hive。例如將MySQL 中的數據導入Hive,需要下面2 步:

(1)Hive 中創建一個具有相同名字和相同表結構的表:sqoop create-hive-table;

(2)使用sqoop 導入數據:sqoop import—hive-import。

4 結束語

使用大數據技術對石油數據進行管理,對石油企業尤為重要,使用傳統的關系型數據庫存儲數據無法滿足現在的石油行業的需求,因此文中提出基于Hadoop 大數據技術平臺來完善現有石油數據處理的不足,對其功能、架構、搭建過程做了詳細的介紹,,并成功模擬搭建過程,驗證平臺搭建成功,為后續工作奠定了基礎。下一步便是提高集群數據計算效率、數據存取效率等,以此優化集群。

猜你喜歡
容錯性數據庫
基于N-gram相似度增強蛋白質肽段組裝的方法
大擺臂分流器在行李處理系統中的應用設計
科技資訊(2019年7期)2019-06-17 01:24:12
數據庫
財經(2017年15期)2017-07-03 22:40:49
基于一致性哈希的高可用多級緩存系統設計
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
基于認知心理學的交互式產品的容錯性設計研究
工業設計(2016年8期)2016-04-16 02:43:26
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
基于免疫算法的高容錯性廣域保護研究
電測與儀表(2015年2期)2015-04-09 11:28:56
主站蜘蛛池模板: 97久久超碰极品视觉盛宴| 精品自窥自偷在线看| 成人年鲁鲁在线观看视频| 国产精品内射视频| 在线精品亚洲一区二区古装| 亚洲第一成年人网站| 国模极品一区二区三区| 国产欧美视频在线观看| 四虎永久在线| 国产成人一区二区| 亚洲区欧美区| 国产在线观看第二页| 2021国产乱人伦在线播放| 国产毛片久久国产| 亚洲精品日产精品乱码不卡| 亚洲欧美一区二区三区麻豆| 亚洲精品无码人妻无码| 草草影院国产第一页| 久久精品无码一区二区国产区| 精品一区二区三区中文字幕| 国产91高跟丝袜| 亚洲动漫h| 中文字幕在线不卡视频| 91精品视频网站| 国产精品第| 婷婷成人综合| 青青国产在线| 色香蕉网站| 婷婷综合在线观看丁香| 丰满的熟女一区二区三区l| 看你懂的巨臀中文字幕一区二区| 亚洲无码四虎黄色网站| 国产成在线观看免费视频| 亚洲一级毛片在线观| 在线观看免费国产| 国产chinese男男gay视频网| 欧美特黄一级大黄录像| 国产在线观看91精品亚瑟| 手机在线看片不卡中文字幕| 免费在线国产一区二区三区精品| 91最新精品视频发布页| 亚洲综合香蕉| 亚洲欧美一区二区三区麻豆| 鲁鲁鲁爽爽爽在线视频观看| 日韩欧美国产三级| 国产日韩欧美在线视频免费观看 | 在线观看国产一区二区三区99| 五月婷婷精品| 国产一级视频在线观看网站| 在线播放真实国产乱子伦| 日韩毛片基地| AV无码国产在线看岛国岛| 2020国产在线视精品在| 午夜啪啪网| 亚洲欧洲日韩久久狠狠爱| 欧美成人国产| 欧美亚洲国产精品第一页| 国产人成在线视频| 久久青草免费91观看| 中文字幕欧美日韩高清| 欧美视频免费一区二区三区| 97成人在线观看| 精品视频一区二区观看| 国产成人久久777777| 波多野结衣AV无码久久一区| 色婷婷成人| 久久五月视频| 她的性爱视频| 黄色在线不卡| 免费看美女自慰的网站| V一区无码内射国产| 国产视频 第一页| 精品欧美视频| 好吊妞欧美视频免费| 91po国产在线精品免费观看| 久草视频中文| 中文字幕人成乱码熟女免费| 国产一级二级在线观看| 精品亚洲欧美中文字幕在线看| 久久国产精品夜色| 久久久久九九精品影院| 国产正在播放|