999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下hadoop分布式文件系統分散式動態副本存儲優化策略研究

2019-03-20 14:19:01郭良君王圣芳
中國醫院統計 2019年1期
關鍵詞:優化策略

楊 蓮 郭良君 馬 磊 王圣芳

作者單位:1 250017 濟南,山東省腫瘤防治研究院

隨著大數據時代的來臨,數據在以前所未有的方式爆炸增長,從工業上的生產制造到生活中的電子商務;從企業的信息管理系統到政府部門的電子政務;從社交網絡上的媒體信息到在線視頻圖像資料,每天都伴隨著大量的數據產生,特別是hadoop海量異構數據的存儲和處理給我們帶來了前所未有的機遇和挑戰。hadoop分布式文件系統(hadoop distributed file system,HDFS)因為具有很好穩定性和高效性,被很多大型企業用來處理海量數據。但是它依然有著一些自身的局限性,如:存儲效率不高、集群負載均衡能力比較差、NameNode單點故障、JobTrace負載過重、小文件問題、熱點問題等。這些問題都嚴重制約著HDFS的進一步發展[1]。

近年來針對HDFS的不足,hadoop自身提供了3種解決方案:歸檔文件技術、序列文件技術和合并文件技術,但都存在著各自的不足,沒有被廣泛地采用。而當前的HDFS數據災備技術,也是主要基于復制或鏡像備份,這就意味著為了防范一時的災難,平時就要閑置一倍以上的設備資源及其數據資源,造成了很大的資源開銷和成本浪費。

1 HDFS優化

HDFS采用master/slave架構設計,由兩類節點構成,管理者namenode和工作者datanode這兩類節點相互分工又共同協作,分別以不同的模式運行,完成各自的任務。

HDFS是通過多副本鏡像復制策略來實現備份操作的,默認情況下副本系數為3,即HDFS的副本策略是將1/3的備份數據存儲在本地機架的某個節點中,另1/3的備份數據存儲在同一個機架的另一個datanode節點中,最后1/3的備份數據是存儲在不同機架上的某個datanode節點中。該策略確保了HDFS的數據移動與安全機制[10]。

1.1 HDFS的優勢

首先,HDFS是一種容錯的分布式文件系統。HDFS所有數據經由源數據生成后會立即進行副本的備份操作,并將副本分別存儲到集群的各個節點中執行數據的管理調度和數據的分析請求,允許節點數據出現災難性崩潰的情況。

其次,HDFS可以部署在大量廉價設備集群上以節約存儲成本。HDFS采用的多副本鏡像復制策略保證了數據存儲的安全性和可靠性。通過增加數據的副本數量彌補硬件設備的不足,同時也減少了本地架構與異地架構之間數據傳輸的時間開銷。

最后,在實際的數據讀寫操作過程中,HDFS的多副本復制策略實現了多節點傳輸,降低了對網絡傳輸總帶寬的依賴,在不損害數據可靠性和讀取操作效率的前提下,提高了對文件高效寫入操作的支持。

1.2 HDFS的劣勢

首先,HDFS整體存儲成本較高。以常用的3副本策略為例,實際所需存儲空間為存儲數據容量的3倍,直接增加了存儲硬件成本和文件索引的建立時間。此外,根據HDFS的架構,管理者namenode暫存所有存儲block文件塊的datanode節點的信息,并負責數據塊的備份操作,周期性地從集群中的各個節點接收反饋心跳信號以及block分塊的反饋狀態報告blockreport,namenode會根據這些反饋信息來監測HDFS系統中block分塊數據映射的狀況信息。工作者datanode是HDFS分布式文件系統的實際操作節點。這些節點由管理者namenode統一調度,根據實際需要進行文件的存儲操作或者數據塊的檢索操作。同時,datanode節點還負責執行管理者Namenode發出的對數據塊的增刪、查改等操作的指令,并周期性地向管理者namenode提交block數據塊的反饋心跳信號以及block分塊的反饋狀態報告。Block數量過多將對namenode的內存造成非常大的壓力,降低了系統的可擴展性。

其次,節點負載均衡能力不足。多副本策略對系統中的數據均維持相同數目的副本數量而不去加以區別對待,系統無法根據外界需求的變化動態地去改變副本的數目,這直接導致了系統有限的負載均衡能力。

最后,可擴展性低。在HDFS的多副本鏡像復制策略中,所有系統中的數據都要保持相同的副本數目,且系統無法根據外界實際需求的改變動態調度已有的副本,這就導致了系統的靈活性及可擴展性降低[13]。

1.3 HDFS優化

1.3.1基于GE碼的HDFS存儲優化策略

糾刪碼是一種線性數據編碼方式,它由于可以通過引入較少的數據冗余對數據傳輸和存儲提供較高的可靠性保證而被引進到存儲系統中。(n,m)糾刪碼將m個輸入的源數據塊編碼產生n(n﹥m)個數據塊,其中任意m個數據塊都能通過解碼重構出原始數據。應用這種編碼方法,系統可以容忍的數據損壞上限是(n-m)個數據塊。GE碼是一類參數為[n,k,(n-k)/2+1]的垂直陣列碼。碼長為n,信息為k。選取GE碼作為方案編碼的主要原因是:GE碼編譯速度快(算法復雜度為線性);數據容災能力強。容災能力在區間[0.30.0.35]內,即只需70%的分片數據即可完成對原始數據的恢復。

1.3.2基于FEC碼的HDFS云存儲優化策略

基于FEC碼的HDFS優化策略,該策略是針對云端存儲文件系統占用空間大,負載均衡能力差等問題進行改進的。其設計思想是把需要上傳的文件現進行編碼分塊的操作,然后整合編碼后的輸出數據,最后再把數據傳輸至云端的HDFS的分布式系統集群中。整個過程不進行數據副本的備份操作或者只進行少量的數據副本備份,降低了整個文件系統操作過程的空間開銷和傳輸代價。此外,基于FEC碼的HDFS優化策略中加入了數據傳輸的完成性檢測工作,因此,該策略更適用于遠程文件的傳輸[3]。

1.3.3基于XOR碼的HDFS 優化存儲策略

基于XOR碼的優化策略,其編碼和譯碼的方式相對簡單,采用單一的異或運算生成奇偶檢驗碼parity,原始數據是按照stripe進行分條目存儲的,且每一個stripe條目只會生成一個parity,當某個stripe條目中丟失或者損壞了一個block數據塊時,XOR碼優化策略能夠通過異或校驗的譯碼運算過程進行數據的恢復操作。

相比其他優化方案,基于XOR碼的HDFS優化存儲策略執行效率更高,但由于譯碼操作只能恢復單一Block數據塊的數據,即XOR碼的優化策略中只允許出現一個數據塊失效的情況,所以,基于XOR碼的HDFS優化策略對文件系統的糾錯能力比較弱。

1.3.4基于范德蒙碼和動態副本存儲的HDFS優化存儲策略

范德蒙碼即范德蒙整列糾刪碼,包括2個方向:一是低密度級聯糾刪碼,代表有luby transform codes碼(LT碼);二是最大距離可分糾刪碼,代表有reed-solomon codes碼(RS碼)。兩種糾刪碼各有利弊,低密度級聯糾刪碼雖取得了很多進展,但不適合大規模應用到生產和生活中去;最大距離可分糾刪碼具有優良的存儲空間代價和良好的容災能力,使用對原始數據塊添加校驗碼的方法降低數據存儲過程中的副本備份操作,在降低存儲開銷的同時仍能保證數據的可靠性,能夠平衡整體效率和編譯碼性能的問題。

在不影響HDFS 分散式存儲結構的前提下,結合動態副本存儲和伽羅華有限域理論對范德蒙碼的計算方法和計算模式進行整體優化,降低了編譯碼的時間代價和計算的內存壓力,節約了HDFS約35%的存儲開銷,提高了HDFS系統節點負載均衡能力和譯碼恢復效率。

這種算法更適合于醫療專業文書的處理,解決臨床科研需求和數據供給2個方面的問題。既能節省了存儲容量,可以容納與日俱增且越發復雜化的醫療數據,又能降低硬件服務器成本,為醫院節省資金開銷;更能快速查詢獲取數據池中的有效數據,讓這些躺著的數據變成活的,充分發揮他們的臨床使用價值和科研價值。這一套完整的、系統的優化方案,為未來HDFS的發展提供了一條有效途徑。

2 Hadoop實戰

在技術層面,大數據的處理涉及方方面面,在開源社區和商業公司的推動下,各種工具和類庫很多。其中,hadoop是當前最流行的大數據處理工具之一,從2016年誕生以來,已經有無數數據分析公司成功部署在實際的生產環境中。

2.1 Hadoop集群服務器的安裝與配置

Hadoop最早就是在Linux平臺上開發的,筆者所用的操作系統為CentOS 7.2。用虛擬機(VMware Workstations12)來虛擬一個集群。

運行hadoop任務,首先就需要提供Java的運行環境。CentOS7已經內置安裝了Java的開源版本openJDK,安裝oracle JDK之前,要確認所使用的Linux操作系統的信息是32位還是64位操作系統,然后再下載對應版本的JDK。在配置hadoop分布式安裝過程中,我們需要配置SSH的無密碼登錄。如果不配置免密碼登錄,每次啟動hadoop時,需要多臺實體機(或虛擬機)之間相互通信(即在namenode和datanode之間發送或者讀取數據),都需要輸入密碼以登錄到每臺機器上。比如在hadoop運行過程中,namenode需要啟動和停止各個datanode上的各種守護進程。SSH(secure shell)是建立在應用層和傳輸層基礎上的安全協議,利用SSH協議可有效防止遠程管理過程中的信息泄露。在構建hadoop集群時,我們需要配置SSH,以無密碼公鑰認證的形式,使namenode使用SSH無密碼登錄,并啟動nataname進程。

最新版本2.7.2,點擊“binary”鏈接,進入下載頁面,點擊下載鏈接即可下載。Hadoop運行起來,還需要做一些必要的配置工作。為了讓hadoop正常工作,可以運行本地模式、偽分布模式和全分布模式3種模式。正確地配置屬性很多,不同的配置會導致hadoop運行在不同的模式下。在本地模式無須開啟守護進程,故此可直接使用hadoop,無須啟動。首先,我們依次啟動HDFS,YARN和mapreduce守護進程,在終端輸入下面幾行命令:

start-dfs.sh

start-yarn.sh

mr-jobhistory-daemon.sh start historyserver

運行這3行命令,會在用戶的機器上開啟如下6個后臺進程:namenode、secondarynamenode、datanode(HDFS)、resourcemanager、nodemanager(YARN)和jobhistoryserver(mapreduce)。

可以使用Java提供的jps命令,列出所有的守護進程來驗證安裝正確。hadoop提供了基于Web的管理工具,Web可以用來驗證hadoop是否正確啟動。其中namenode的URL為http://localhost:5070,resourcemanager(資源管理器)的為http://lacalhost:8088/,historyserver(歷史服務器)的為http://localhost:19888/。

2.2 全分布模式下的hadoop集群構建

本地模式和偽分布模式均用于開發與調試。真實hadoop集群的運行采用的是全分布模式。在系統安裝CentOS以后,默認開機會打開圖形界面(最小化安裝除外),但是圖形界面會浪費很多資源,而且對于實打實的分布式計算而言,花哨的圖形界面并沒有什么實際用處,所以我們可以設置開機以字符界面啟動,以節省資源,特別是對于用同一臺機器開啟多個虛擬機來模擬集群,這種模式更是有一定的意義。Linux系統有以下4個運行級別(run level)。

運行級別0:系統停機狀態。系統默認運行級別不能設為0,否則不能正常啟動。

運行級別1:單用戶模式。在此模式下,主要用于系統維護,只能由管理員(即root)進入。由于啟動時,文件系統雖被加載,但網絡模塊卻沒有被載入,因此無法通過網絡遠程登錄。

運行級別2:多用戶模式。這種運行態,雖然支持用戶通過網絡進行登錄,但不支持網絡文件系統(network file system,NFS)。

運行級別3:完全的多用戶模式(支持NFS),登錄后進入控制臺命令行模式。

2.3 本策略的創新

本研究對大數據的有效存儲問題進行了研究,提出了一種基于范德蒙碼的HDFS分散式動態副本優化存儲算法:針對HDFS存儲成本過高的問題,采用了基于范德蒙碼的編譯碼操作對HDFS進行數據優化,摒棄HDFS原本的多副本鏡像復制策略;加入分散式動態副本控制思想,改進單純范德蒙碼策略無法應對災難性機架和節點失效的問題;采用分組分列策略以及有限域理論對譯碼操作的計算過程、計算模式和計算方法進行改進,精簡矩陣運算的步驟;根據范德蒙碼輸出矩陣的特點,改進譯碼觸發操作的時機,降低譯碼操作觸發的頻率。其優勢有如下3個方面:

1)HDFS是一種容錯的分布式文件系統,所有數據經由源數據生成后會立即進行副本的備份操作,并將副本分別存儲到集群的各個節點中執行數據的管理調度和數據的分析請求,允許節點數據出現災難性崩潰的情況。這樣假設醫院數據庫崩塌后,另一個容災備份系統啟用,不妨礙醫院業務的正常進行。

2)HDFS可以部署在大量廉價設備集群上以節約存儲成本,HDFS采用的多副本鏡像復制策略保證了數據存儲的安全性和可靠性,通過增加數據的副本數量彌補硬件設備的不足,同時也減少了本地機架與異地機架之間數據傳輸的時間開銷。這樣可以節省醫院對信息化建設硬件存儲設備的資金投入,又加快了數據的查詢和調取。

3)在實際的數據讀寫操作過程中,HDFS的多副本復制策略實現了多節點傳輸,降低了對網絡傳輸總帶寬的依賴,在不損害數據可靠性和讀取操作效率的前提下,提高了對文件高效寫入操作的支持。這樣可以更快速查詢獲取數據池中的有效數據,讓這些躺著的數據變成活的,充分發揮他們的臨床使用價值和科研價值。

猜你喜歡
優化策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
基于“選—練—評”一體化的二輪復習策略
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 99精品免费在线| 欧美精品亚洲精品日韩专区va| vvvv98国产成人综合青青| 91福利一区二区三区| 国产无码在线调教| 五月婷婷伊人网| 国产成人8x视频一区二区| 久久99国产综合精品女同| 久久久久久国产精品mv| 99视频精品在线观看| 国产探花在线视频| 欧美全免费aaaaaa特黄在线| 久久精品亚洲热综合一区二区| 欧美日韩一区二区三区在线视频| 无码一区18禁| 影音先锋亚洲无码| 亚洲h视频在线| 日韩福利视频导航| 看国产一级毛片| 波多野结衣一二三| 美女潮喷出白浆在线观看视频| 久久99热66这里只有精品一 | 亚洲另类国产欧美一区二区| 无码精品福利一区二区三区| 国产精品极品美女自在线看免费一区二区| 久久免费成人| 手机在线免费不卡一区二| 久久性视频| h网址在线观看| 久久亚洲美女精品国产精品| 99久久免费精品特色大片| 欧美一区国产| 成人一区专区在线观看| 亚洲欧美不卡视频| 亚洲欧美人成电影在线观看| 欧美日韩一区二区在线免费观看| 亚洲AV无码不卡无码| 青青草原国产av福利网站| 伊人久久青草青青综合| 成人综合网址| 亚洲成在人线av品善网好看| 蝌蚪国产精品视频第一页| 国产成人凹凸视频在线| 国产精品不卡片视频免费观看| 亚洲欧美日韩另类| 国产18在线播放| 国产精品自在线天天看片| 国产精品爆乳99久久| 中文字幕免费播放| Aⅴ无码专区在线观看| 久久久噜噜噜久久中文字幕色伊伊| 91久久精品国产| 午夜日b视频| 永久免费精品视频| av色爱 天堂网| 无码日韩视频| 99色亚洲国产精品11p| 日韩少妇激情一区二区| 精品99在线观看| 黄色网在线| 波多野结衣一区二区三区四区视频 | 精品无码一区二区三区在线视频| 国产福利不卡视频| 中文毛片无遮挡播放免费| 91 九色视频丝袜| 欧美视频在线播放观看免费福利资源 | 亚洲精品国产成人7777| 亚洲高清免费在线观看| 欧美一级爱操视频| 91色在线视频| 国产主播喷水| 国产对白刺激真实精品91| 激情综合网址| 国产免费自拍视频| 国产精品免费久久久久影院无码| 国产男人的天堂| 乱码国产乱码精品精在线播放| 99久久婷婷国产综合精| 亚洲欧洲美色一区二区三区| 久久综合婷婷| 亚洲午夜天堂| 一本一道波多野结衣一区二区|