999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據文件存儲策略探索

2019-07-15 01:02:15屈美娟付良廷
科技創新與應用 2019年12期
關鍵詞:存儲大數據

屈美娟 付良廷

摘要:大數據給各行業帶來新的發展機遇,面對各種復雜數據處理需求,高效的數據存儲是影響大數據應用的重要因素,不僅決定了數據寫入效率,還會影響數據讀取。文章提出一種基于HDFS的寫預處理存儲系統,針對大數據應用中復雜數據寫請求,使用聚類策略和文件拆分算法,對文件進行預處理,同時提高數據讀取效率。通過仿真實驗表明,能有效提高文件存儲的寫吞吐。

關鍵詞:存儲;大數據;寫緩存

中圖分類號:TP311.13 文獻標志碼:A 文章編號:2095-2945(2019)12-0140-03

1概述

以互聯網發展為依托的人工智能和物聯網技術,在改變生活方式的同時,也帶來了數據規模的持續攀升,加速了數據集的增長態勢。據統計,Baidu搜索引擎需要每天處理數據集達100PB,Facebook每天新增600TB數據。如何對這種超大規模數據進行有效存儲和高效查詢,已經成為人工智能和物聯網應用的各行業普遍面臨的突出問題。如何構建一套應用于大數據存儲系統,能夠在存儲性能、功能、穩定性、易用性等方面均有良好表現,是大數據存儲與管理面臨的重要問題。

本文在借鑒現有研究的基礎上,提出一種基于HDFS的寫緩存存儲系統,該系統在HDFS存儲上層構建寫緩存層,在該層中對客戶端發出的寫請求文件進行預處理工作,以形成固定大小文件,來簡化存儲過程,提高存儲效率。在預處理階段,依據數據訪問關聯度和關鍵字分組策略構建預處理算法,按照存儲標準文件大小,對文件進行預處理,以形成固定文件大小,一方面提高存儲效率,另一方面,便于還原原始文件,減少后期文件查詢的時間和系統開銷。

2設計思想

在大數據存儲系統中,面對不同大小文件復雜存儲請求,系統應能夠靈活針對各自特點選擇合適的存儲策略,一方面提高存儲性能,另一方面優化文件存儲管理和訪問。在大數據應用中,文件類型和文件大小豐富多樣,但歸根結底都是以文件形式存儲的。本文將針對文件存儲系統設計基于HDFS寫緩存預處理的大數據存儲系統,在數據寫入HDFS前,先經過預處理層,以合理組織元數據,提高數據寫入效率和訪問性能。寫緩存層具體設計組成如圖1所示。

寫緩存層包括一個主節點(Master)、文件合并模塊(C-Chunkserver)、文件拆分模塊(S-Chunkserver)。主節點硬件設置為高性能讀寫服務器,負責監聽客戶寫文件請求、分配緩存節點、管理元數據,根據負載情況分配預處理節點,同時記錄元數據。分配緩存節點包括兩部分:主節點和備份節點,主節點對數據進行預處理,副節點完成數據異步備份??蛻舭l出數據寫入請求后,Master根據文件大小依據預處理策略,選擇文件拆分或合并模塊分配預處理節點,預處理完成后存入緩存模塊中,再采用多線程寫入HDFS中。

3實現算法

3.1小文件聚類策略

對于小文件寫入HDFS,要進行聚類合并。本文使用聚類策略為MFCR(Most Frequent Conbin Read)最常讀取組合策略,基本思想為,由Master維護一個n*n二維表MFCR表,其中n為最常讀取數據的客戶機個數,用這個二維表來記錄客戶機數據組合查詢情況。文件合并模塊中每個主機設置一個標志信息,標識目前該主機目前已緩存數據客戶機編號。二維表中各CR系數(Conbin Read)初始化為0,當查詢結果來自客戶機s和客戶機t時,執行CRst=CRst+1操作。當緩存層Master監聽到來自客戶主機a發出的寫文件請求時,判斷文件為小文件需要合并后,同時遍歷MCR系數表并詢問各chunkserver狀態,找到最大CRab,其中b為chunksever中目前待合并數據客戶主機編號,將該chunksever編號返回給主機a,建立a主機與該chunksever連接,開始傳輸合并數據。在系統初始階段,MFCR表值為空,此時有客戶機發出數據存儲請求后,根據負載情況分配主機。

3.2大文件拆分算法

對于結構化的大數據,需要將數據拆分為若干個子表,以方便后期管理維護和查詢等。當主節點接收到結構化數據的寫請求后,由主節點中數據拆分模塊完成數據分解,根據負載情況分配存儲副本節點,再由副本節點執行遞歸算法,對文件大小進行二次判斷,對超出閾值的文件進行二次分解,直至所有文件大小在寫入緩存閾值范圍內,最后由各副本節點異步寫入緩存。本設計中對于結構化大數據拆分,采用基于列存儲的關鍵字分組策略。設置數據集為D,用于分組的關鍵字組合為K={K1,K2……Kn},分組時,先依據K1對數據集劃分,然后依據K2取值不同在K1分組的基礎上繼續分組,以此類推,直至分組結束。分組過程如下:

(1)設置分組基數g和分組系數入i,兩者乘積得到每個關鍵字分組數量gi。根據查詢頻率,為總表中每個關鍵字制定分組系數,用來確定每個關鍵字分組個數,應用于查詢頻率越高,分組系數越高,基于改關鍵字的分區粒度越細。

(2)獲取分組邊界值。確定基于第ki關鍵字分組數目之后,需確定各組之間取值范圍,根據ki關鍵字的不同取值,將數據集劃分為gi組數據。

如何確定分組邊界值,是決定合理拆分數據的關鍵因素。為了提高分組效率并減少分組工作系統開銷,采用隨機采樣的方法,來確定分組區間邊界值。取樣過程類似滑動窗口,過程如下:

(1)根據數據集和寫入HDFS標準文件大小,確定抽樣記錄數量Stotal。

(2)確定抽樣點個數Sgroup,即滑動窗口滑動次數。

(3)確定每個抽樣點附近抽樣記錄數量Sno,即滑動窗口寬度,則三個數量之間關系為Sno=Stotal/Sgroup。

(4)在0和數據集記錄總數之間獲取Sgroup個隨機值。

(5)以每個隨機值為起點,讀取Sno條記錄,讀取每個記錄的各個關鍵字取值,取樣完成后形成的采樣二維表,將具有Stotal條記錄,每條記錄包含分組關鍵字{K1,K2……Kn}的n個值。

(6)對采樣二維表每列數據執行:排序并確定gi-1個分組邊界值。舉例,假如取樣總數Stotal=12,對于K3關鍵字取值g3=4,則分組邊界值選取過程如圖2所示。

使用分組邊界值,依據數據集中記錄ki取值,對數據進行分組。i取值從1至n,完成整個數據集初步分組。

(7)對于完成初步分組的數據子集組合{D1,D2……DT},其中T=∏in=1gi,使用遞歸算法使所有拆分后文件都滿足寫入緩存文件大小要求,遞歸算法執行過程為:若存在Dt文件大于標準文件,則按照標準文件大小截取數據子集前面部分為Dt,剩余部分標記為Dt+1,然后再對Dt+1進行判斷,直至所有文件大小符合寫要求。

4實驗分析

本次仿真實驗目的是比較直接寫入HDFS和使用寫緩存層的HDFS兩種方法下,以標準文件大小為準,設定多組不同大小文件大小,比較兩種存儲系統寫吞吐對比。仿真實驗環境搭建方式為20臺仿真主機作為客戶端發送數據,1臺仿真服務器作為Master,合并和拆分預處理模塊分別使用10仿真主機,20仿真主機作為HDFS存儲。

4.1小文件寫入測試

實驗數據分別由客戶端發送大小為10KB-500KB文件寫請求,每次發送文件總數目設置為100000個,來進行仿真實驗測試。在此情況下,對比本設計和直接寫入HDFS寫吞吐對比,實驗結果數據如圖3所示。

通過實驗結果可以看到,本系統在處理小文件方面性能較好,但隨著文件增大,當文件超過一定閾值(1MB)后,寫入速度會出現瓶頸,這是因為在處理非結構化數據的時候,本設計中的寫緩存層在花費系統開銷再存入HDFS并沒有減少寫入時間,沒有發揮出寫緩存的作用。

從圖中可以看出,直接使用HDFS存儲時,隨著文件增大,寫入文件耗時也增大,當文件增大到一定程度時,所耗費時間急速增長,對于較大文件寫入時間較長。在對文件進行拆分處理后再存儲,消耗時間也隨著文件增大而延長,但增長速度較緩慢。同時,當文件較小時,由于分組會帶來系統開銷,因此降低了效率。從圖中可看到,30GB文件存儲時間大于40GB文件,這是由于本次試驗分組參數設置導致。

5結束語

本文提出一種基于HDFS的存儲方法,針對大數據應用中不同數據特點,提出針對性存儲策略,對于小文件應用基于訪問關聯度的聚類策略,對大數據提出基于列存儲的關鍵字分組策略,同時采用多線程寫入數據,提高了數據整體寫入速度。

猜你喜歡
存儲大數據
檔案管理中電子文件的存儲探究
條形碼技術在涂裝生產中的應用
云計算與虛擬化
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
結構化電子病歷的設計及應用
淺敘國產存儲技術之發展
大型機電設備出口包裝防護
主站蜘蛛池模板: 国产迷奸在线看| 一本视频精品中文字幕| 国产在线自在拍91精品黑人| 红杏AV在线无码| 亚洲IV视频免费在线光看| 亚洲精品桃花岛av在线| 97国产在线播放| 日本不卡在线| 亚洲天堂啪啪| 久久99国产精品成人欧美| 凹凸国产分类在线观看| 国产微拍一区| 亚洲精品老司机| 99re免费视频| 欧美国产日韩在线观看| 亚洲三级视频在线观看| 日韩国产一区二区三区无码| 精品乱码久久久久久久| 女人av社区男人的天堂| 国国产a国产片免费麻豆| 久久这里只有精品66| 欧美日韩亚洲国产主播第一区| 999国产精品永久免费视频精品久久| 国产系列在线| 日本免费福利视频| 人妻无码一区二区视频| www.亚洲天堂| 亚洲美女一区| 欧美一区二区三区国产精品| 日韩中文字幕亚洲无线码| 久久综合婷婷| 亚洲国产成人精品无码区性色| 国产一区二区影院| 国产欧美一区二区三区视频在线观看| 国产精品三级av及在线观看| 久久精品国产免费观看频道| 国产精品极品美女自在线| 久久综合亚洲色一区二区三区| 久久精品91麻豆| 亚洲精品欧美重口| 成人午夜视频免费看欧美| 亚洲欧美国产视频| 久久综合国产乱子免费| 国产簧片免费在线播放| 国产成人一区免费观看| 老司机aⅴ在线精品导航| 亚洲毛片网站| 国产幂在线无码精品| 亚洲香蕉在线| 国产v精品成人免费视频71pao | 午夜天堂视频| 99一级毛片| 伦精品一区二区三区视频| 欧美成人午夜视频| 欧美一级在线看| 国产资源站| 91午夜福利在线观看| 国产精品性| 18禁黄无遮挡网站| 秋霞一区二区三区| 在线网站18禁| 永久免费精品视频| 国产成人亚洲综合a∨婷婷| 欧美亚洲另类在线观看| 亚洲精品在线观看91| 亚洲三级电影在线播放 | 91无码视频在线观看| 国产96在线 | 日韩人妻无码制服丝袜视频| 欧美一区二区精品久久久| 国产亚洲男人的天堂在线观看| 国产美女在线观看| 天堂av综合网| 一级看片免费视频| 国产黑丝一区| 青青青视频免费一区二区| 亚洲精品成人7777在线观看| 国产男人的天堂| 国产高清在线观看91精品| 日韩精品免费在线视频| 在线观看国产小视频| 亚洲激情区|