999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HBase的海量數據存儲和快速檢索

2019-05-24 14:11:40謝地王同喜
電腦知識與技術 2019年4期

謝地 王同喜

摘要:隨著科技的發展,越來越多的信息需要被存儲到數據庫中。傳統的數據庫逐漸不能存儲海量的數據,如何儲存海量數據是一個值得關注的問題。大數據的出現,就是為了解決海量數據的存儲問題。隨著海量數據的不斷增加,傳統數據庫存儲空間也越來越大,數據操作性能變差,甚至最后可能導致服務器崩潰,且傳統數據庫擴展費用昂貴。基于列式存儲的HBase存儲技術能夠有效地處理海量數據,通過列式存儲檢索能忽略掉部分列數據從而實現更快的檢索,研究海量數據的存儲與快速檢索能夠幫助我們高效的處理今后日益復雜的數據,通過列式的分布式存儲技術將類似的數據存儲在一起壓縮率更高,檢索效率更好。

關鍵詞:HBase;海量;列式存儲;分布式;快速檢索

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)04-0014-02

1 引言

當產生的億級別的數據被存儲到數據庫中,對數據操作的性能肯定會下降。當對這一系列數據進行檢索以及求和排序等操作的時候,訪問的速度會由于內存占用過大而檢索速度降低,甚至會發生數據庫丟失數據,或者數據溢出等現象,有可能最后導致數據庫服務器崩潰,采用分布式HBase列式存儲技術能夠有效解決這些問題。在處理數據時,可以將數據通過主節點分配到不同的節點上進行并行處理。

2 國內外研究現狀

伴隨科技的不斷進步,各個行業都產生了大量的數據,這些數據越來越多維化且復雜化,這些海量數據都是有用的,如何存儲這些海量的數據[4],以及如何實現海量數據的快速檢索以及讀寫操作,有著重要的意義。由此產生了對大數據的研究,大數據下產生各種適合存儲海量數據的數據庫,以及計算框架和模型,有利于快速存儲并檢索分析海量的數據。

在國內為應對海量數據的存儲及快速檢索,一些國內的單位開始搭建自己的數據倉庫,比如中國銀行廣州分行就已經建構了屬于自己的數據倉庫,包括從數據的采集,處理以及海量數據的存儲已經檢索方面,但是數據量相對來說比較小。比如網上購物平臺淘寶,每一個客戶相關的數據量級別至少是百萬以上,每天的數據量都是千億級別,萬億級別的數據,而這些數據都是不能夠輕易地丟棄的,必須被實時存儲起來,并且能夠處理PB甚至比PB更高的實時數據。面對這些數據,要構建一個成本較低、高性能、高負載、分布式處理的海量數據庫,并且這些數據信息也包括圖片,視頻,本文,音頻等信息。淘寶公司采用了大數據技術,用Hive數據倉庫和HBase數據庫對海量數據進行存儲,查詢以及分析。HBase采用了分布式存儲檢索技術,能夠多結點分布式處理這些數據。

Facebook每月的瀏覽量達到數億級別的瀏覽量,Facebook的照片量以及視頻音頻信息非常巨大,每個月超過數億級別的照片上傳到網站上面,同樣面對這些海量的數據信息。Facebook采用HBase來做數據的實時查詢以及檢索。

3 HBase存儲與快速檢索

3.1 HBase預分區存儲

把需要存儲的海量數據通過sqoop工具或者直接存儲到HBase表中,HBase數據庫在創建表的時候會自動分配出Region區域。在讀入數據的時候,數據會不停地存儲到這個Region區域中,直到這個分區足夠大的時候才會自動切分這些Region分區,并且每個Region區域都存在著一個startKey和endKey,這兩個值確定了數據的存儲范圍,即當Row Key的值落在某個區域就會被放入到某個Region區域。當沒有對數據進行分區的時候,當數據達到一定值的時候會自動進行分區,由于在HBase本身的結構特征,表中Row Key是通過升序方式進行排序的,所以后面存入的數據都是被劃分到后面的一個區域中,前面的Region區域空間中并沒有存儲到后面導入的數據,導致沒有完全填充滿數據。由于存儲的數據量非常大,會在該過程中會發生多次切分Region區域的情況,每次切分有一部分數據都將不會被利用到,大大增加了存儲效率以及存儲空間,甚至可能導致HBase服務宕機。在應對海量的數據時,需要根據這些數據對表進行分區處理,然后通過對Row Key進行hash散列化,使這些海量數據能夠均勻地分布在Region分區內,從而大大提高Region區域的利用率。Region結構圖如下:

算法思路:首先通過算法產生隨機的Row Key,這些行鍵會通過升序方式放入到一個集合中,然后進行對對表進行預分區處理,最后將這些Row Key均勻放入到分區塊中。通過 rowKeyGenerator類產生Row Key:

設置Region分區的數據,需對Row Key進行迭代遍歷,設置合適的Region分割值,最后將Row Key排序放入到相應的塊中,完成預分區處理。

在預分區的過程中已經設置好每次數據切割的split值,然后再將這些隨機產生的Row Key對應到相應的Region區域。減少了默認的預分區過程中部分數據塊中數據未填充滿,以及多次自動切分過程中的存儲效率問題,然后將這些海量的數據通過根據隨時產生的Row Key存儲到表結構當中。

3.2 HBase二級快速索引

將存儲的數據通過分區優化策略,以及建表中列族優化的策略將數據存儲到表中。為了實現海量數據的快速檢索,利用HBase表中的二級索引方式建立索引。傳統的一級索引方式只是將索引建立在Row Key中,只能基于Row Rey對數據進行掃描,只能解決一些簡單的SQL語句。但是如果我們需要對HBase進行一些不同列族之間的數據進行聯合查詢的時候,我們必須要采取二級索引的方式,二級索引的方式必須要建立在Region級別之上,主要是為了防止將索引表和數據表建立在不同的Region區域下。

二級索引建立和查詢的思路過程:首先通過客戶端向各個Region區域發送消息,分別在各個Region區域建立索引,并存儲數據。檢索的過程是客戶端會向各個區域發送信息,各個Region區域會對相應的數據進行檢索,查詢,并將最后的結果返回給客戶端,客戶端獲取到數據,最后提交數據。

(1)Region區域先建立起索引,索引信息如下:

(2)在Region收到客戶端發來的信息,建立Scanner對象對Region區域中的Row Key進行搜尋:

(3)在搜尋的過程中會根據相應的Row Key值進行定位,得到索引的值。然后根據seekNext()方法得到下一個Row Key,然后得到索引過程中的值,后將相應的值得到保存并將結果提高給客戶端實現數據的快速檢索。

通過二次索引能夠快速定位到需要檢索的數據,有利于數據的快速檢索,并且能提高檢索效率,相比于一級索引具有更高的優勢,更適合海量數據的檢索。

4 總結

傳統的數據庫已經不再適合存儲海量的數據,但可以通過將傳統數據庫中的數據通過sqooq工具導入到HBase中,通過HBase列式存儲能夠解決傳統數據庫在存儲海量數據時的難點,加快數據的檢索效率。HBase列式存儲,主要是通過鍵值對方式進行存儲,能夠支持實時的查詢,并且在數據導入到HBase表中可以先對表進行預分區處理,使數據都能夠均勻地分布在每一個分區內,再采取二級索引的方式對數據進行快速檢索,而傳統的行式存儲方式通過將一行行數據地放在同一個區域,在數據檢索時無法忽略無關的列,增加檢索耗時。當然在為了加快數據檢索效率方面,可以將elasticResearch工具和HBase進行聯合使用,elasticResearch主要是支持json數據實現數據的檢索,可以通過對HBase中的數據建立索引實現數據的快速定位。

參考文獻:

[1] 李存琛. 海量數據分布式存儲技術的研究與應用[D]. 北京郵電大學,2012.

[2] 唐亦鵬. 海量數據研究系統的設計與實現[D]. 哈爾濱工業大學,2014.

[3] 卓海藝. 基于HBase的海量數據實時查詢系統設計與實現[D]. 北京郵電大學,2013.

[4] 齊方方. 海量數據存儲和準實時查詢系統設計與實現[D]. 西南石油大學,2015.

[5] Nick Dimiduk. HBase實戰[M]. 謝磊. 北京:人民郵電出版社,2013:1-315.

[6] 李軍. 大數據:從海量到精準[M] 北京:清華大學出版社,2014:1-302.

[7]趙剛. 大數據[M] 北京:電子工業出版社,2013 1-278.

[8] 付文靜. 基于HBase的大數據存儲查詢技術研究[D]. 電子科技大學,2015.

[9] 馬翠云. 基于HBase的大規模數據存儲解決方案的設計和實現[D]. 山東大學,2015.

[10] 馮曉普. HBase存儲的研究與應用[D]. 北京郵電大學,2014.

[11] Jeffrey Dean.Sanjy Ghemawat. MapReduce:Simplified data Process-ing On Large Clusters [J].Communications of the ACM,2005,51(1):107-113.

【通聯編輯:梁書】

主站蜘蛛池模板: 国产成a人片在线播放| 欧美h在线观看| 亚洲综合激情另类专区| 亚洲中文字幕av无码区| 动漫精品中文字幕无码| 高h视频在线| 国产va欧美va在线观看| 国产精品自拍露脸视频| 国产无遮挡裸体免费视频| 国产精品精品视频| 日韩黄色精品| 在线免费a视频| 国产探花在线视频| 高清国产va日韩亚洲免费午夜电影| 一本大道无码日韩精品影视| 97国产成人无码精品久久久| 热99re99首页精品亚洲五月天| 国产sm重味一区二区三区| 日本欧美视频在线观看| 亚洲三级视频在线观看| 国产乱子伦视频三区| 欧美另类精品一区二区三区| 97免费在线观看视频| 亚洲成人手机在线| 国产精品妖精视频| 精品一区二区三区四区五区| 美女免费黄网站| 中文字幕自拍偷拍| 亚洲国产精品无码AV| 无码啪啪精品天堂浪潮av| 欧美成人精品高清在线下载| 女人毛片a级大学毛片免费| 欧美国产另类| 手机看片1024久久精品你懂的| 亚洲精品另类| 幺女国产一级毛片| 乱人伦中文视频在线观看免费| 免费激情网站| 国产91视频免费观看| 色噜噜狠狠狠综合曰曰曰| 波多野结衣在线一区二区| 欧美天天干| 午夜福利在线观看成人| 91福利片| 精品人妻AV区| 国产精品不卡永久免费| 欧美 国产 人人视频| 狠狠做深爱婷婷久久一区| 欧美日韩国产成人在线观看| 国产精品自在自线免费观看| 激情爆乳一区二区| 免费看美女毛片| 欧美成人第一页| 免费jizz在线播放| 国产69囗曝护士吞精在线视频| 青青青亚洲精品国产| 久久精品一品道久久精品| 一区二区三区四区精品视频| 伦伦影院精品一区| 九色综合伊人久久富二代| 日韩国产一区二区三区无码| 岛国精品一区免费视频在线观看| 伊人欧美在线| 国产美女一级毛片| 亚洲成av人无码综合在线观看| 色欲综合久久中文字幕网| 九九这里只有精品视频| 再看日本中文字幕在线观看| 99久久免费精品特色大片| 国产在线高清一级毛片| 欧美人与牲动交a欧美精品| 99福利视频导航| 国产一二视频| 国产视频一区二区在线观看 | AV熟女乱| 无码精品国产VA在线观看DVD| 欧美激情福利| 亚洲大学生视频在线播放| aa级毛片毛片免费观看久| 国产精品自在拍首页视频8| 伊人久久影视| 国产性猛交XXXX免费看|