999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計(jì)

2022-11-21 02:04:40周晴紅
無線互聯(lián)科技 2022年17期
關(guān)鍵詞:信息系統(tǒng)設(shè)計(jì)

周晴紅

(蘇州健雄職業(yè)技術(shù)學(xué)院,江蘇 太倉 215400)

0 引言

海量數(shù)據(jù)存儲平臺的設(shè)計(jì)與運(yùn)行維護(hù)難點(diǎn)在于:(1)數(shù)據(jù)量過大,數(shù)據(jù)應(yīng)用過程中任何情況都有可能發(fā)生;(2)對構(gòu)成平臺的軟硬件的要求極高,導(dǎo)致系統(tǒng)資源占用率高,稍有不慎便可能導(dǎo)致平臺崩塌;(3)對處理方法和技巧的要求同樣較高。考慮到上述因素,海量數(shù)據(jù)存儲平臺必須具備如下功能:其一,對多種類型的數(shù)據(jù)進(jìn)行全過程正常處理,不能發(fā)生“前面正常處理,進(jìn)展至某個環(huán)節(jié)突然無法繼續(xù)處理,造成程序終止運(yùn)行”的情況。其二,需要選用優(yōu)秀的數(shù)據(jù)庫工具、編寫優(yōu)良的程序代碼,能夠?qū)A繑?shù)據(jù)進(jìn)行分區(qū)操作。若要支持上述功能的實(shí)現(xiàn),必須搭配性能良好的硬件。在此基礎(chǔ)上,還應(yīng)建立廣泛的索引功能、緩存機(jī)制,保證虛擬內(nèi)存強(qiáng)大以及能夠?qū)?shù)據(jù)進(jìn)行分批處理。

1 Hadoop框架簡析

1.1 基于Hadoop的海量數(shù)據(jù)存儲平臺設(shè)計(jì)原理

1.1.1 Hadoop的特點(diǎn)

Hadoop全稱Apache Hadoop,是一種由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)[1]。這種架構(gòu)模式的最大特點(diǎn)在于:使用者無須掌握架構(gòu)底層的搭建細(xì)節(jié),只需根據(jù)應(yīng)用層的功能指引便可以開展分布式程序的開發(fā)工作。在此基礎(chǔ)上,通過充分利用集群的優(yōu)勢,實(shí)現(xiàn)對數(shù)據(jù)信息的高速運(yùn)轉(zhuǎn)和存儲。基于Hadoop進(jìn)行程序開發(fā)必須建立在對應(yīng)的分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)之上。這種分布式文件系統(tǒng)的容錯性極高,可以搭載在價(jià)格低廉的硬件之上。不僅如此,HDFS系統(tǒng)還能夠提供較高的數(shù)據(jù)吞吐量,用以支持訪問應(yīng)用程序。綜合而言,HDFS系統(tǒng)非常適合具有超大數(shù)據(jù)集的應(yīng)用程序,是設(shè)計(jì)海量數(shù)據(jù)存儲平臺的最佳框架之一。現(xiàn)階段,HDFS系統(tǒng)已經(jīng)在很大程度上放寬了對可移植操作系統(tǒng)接口(Portable Operating System Interface of UNIX,POSIX)的要求,并可以通過“數(shù)據(jù)流”的形式對文件系統(tǒng)中的數(shù)據(jù)進(jìn)行訪問[2]。

1.1.2 Hadoop開發(fā)的便利性

Hadoop框架最核心的設(shè)計(jì)部分除了HDFS系統(tǒng)之外,還包含MapReduce。MapReduce是一種編程模型,主要用于規(guī)模超過1TB的大規(guī)模數(shù)據(jù)集的并行運(yùn)算,以“映射”和“規(guī)約”為主要概念。這種模型的便利性在于編程人員在無須掌握分布式并行編程規(guī)則的情況下,只需按照指引,便可以將自己編寫的程序在分布式系統(tǒng)上運(yùn)行,主要實(shí)現(xiàn)方法為:在當(dāng)前使用的編程軟件中指定一個Map映射函數(shù),之后將一組鍵值按照映射規(guī)律,轉(zhuǎn)換成一組新的鍵值對。在此基礎(chǔ)上,可以指定并發(fā)的Reduce規(guī)約函數(shù),最終保證所有映射的鍵值對都能夠共享相同的鍵組。基于HDFS系統(tǒng)以及MapReduce編程模型設(shè)計(jì)的海量數(shù)據(jù)存儲平臺中,前者會為海量數(shù)據(jù)提供優(yōu)質(zhì)存儲功能,后者主要為海量數(shù)據(jù)提供計(jì)算功能。

1.2 核心架構(gòu)

1.2.1 Hadoop的優(yōu)點(diǎn)

(1)Hadoop能夠?qū)A繑?shù)據(jù)進(jìn)行分布式處理,過程可靠性和處理效率均極高。此外,Hadoop還可以通過可伸縮的方式實(shí)現(xiàn)對數(shù)據(jù)的處理。

(2)Hadoop的可靠性體現(xiàn)在:“數(shù)據(jù)計(jì)算或存儲過程會受多種原因的影響而失敗”均在系統(tǒng)的“假設(shè)”之內(nèi)。基于這種考量,Hadoop會自動開展對多個工作數(shù)據(jù)副本的維護(hù)作業(yè),在真正出現(xiàn)“數(shù)據(jù)操作失敗”的情況下,系統(tǒng)依然能夠確保對所有失敗的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行重新分布處理。

(3)Hadoop的高效性體現(xiàn)在:系統(tǒng)整體能夠進(jìn)行并行工作,可大幅度加快對數(shù)據(jù)的處理速度。Hadoop的可伸縮性在于,最小能夠處理KB規(guī)模的數(shù)據(jù),最高能夠處理PB量級的數(shù)據(jù)。有研究顯示,Hadoop面向的對象是“社區(qū)服務(wù)”,即能夠被任何人使用,成本較低。用戶可根據(jù)自己的想法,選擇Java(Hadoop自帶)、C++等編程語言進(jìn)行軟件開發(fā)[3]。

1.2.2 Hadoop的核心架構(gòu)

HDFS系統(tǒng)用于存儲Hadoop集群中所有存儲節(jié)點(diǎn)對應(yīng)的文件。HDFS的上一層是上文提到的MapReduce引擎,主要由JobTrackers和TaskTrackers組成。HDFS類似于傳統(tǒng)的分級文件系統(tǒng),支持文件的創(chuàng)建、刪除、移動、重命名等,操作過程幾乎不具備任何難度。但HDFS的架構(gòu)主要基于一組特定的節(jié)點(diǎn)完成構(gòu)建。這種特性取決于HDFS本身的特點(diǎn),優(yōu)點(diǎn)在于只有一個NameNode節(jié)點(diǎn),為HDFS的內(nèi)部單元提供原數(shù)據(jù)相關(guān)服務(wù),并為HDFS系統(tǒng)提供存儲模塊。缺點(diǎn)在于:由于NameNode的數(shù)量只有一個,一旦出現(xiàn)“單點(diǎn)失敗”情況,便會導(dǎo)致整個HDFS系統(tǒng)的運(yùn)行難以為繼。存儲在HDPS中的文件一般會被分成若干個模塊。這些模塊經(jīng)過復(fù)制之后,會進(jìn)入多個計(jì)算機(jī)的DataNode。這種架構(gòu)與人們熟知的RAID架構(gòu)存在極大的差異,主要特點(diǎn)為:模塊一般設(shè)置為64 MB,具體的模塊復(fù)制數(shù)量根據(jù)客戶機(jī)創(chuàng)建文件時的具體需求而定。理論上,Name Node能夠控制所有文件的操作,且HDFS內(nèi)部的所有通信都是基于標(biāo)準(zhǔn)的TCP/IP協(xié)議而決定。

2 基于Hadoop的海量數(shù)據(jù)存儲平臺綜合設(shè)計(jì)方法

2.1 海量數(shù)據(jù)存儲平臺的綜合設(shè)計(jì)思路

基于Hadoop進(jìn)行海量數(shù)據(jù)存儲平臺設(shè)計(jì)時,首先需要考慮平臺的數(shù)據(jù)來源、針對相關(guān)數(shù)據(jù)進(jìn)行存儲時設(shè)計(jì)的時間、空間范圍查詢等因素[4]。以交通部門為例,若要針對某一種交通工具的運(yùn)行線路、運(yùn)行時間、乘客搭載量等數(shù)據(jù)進(jìn)行收集與分析時,應(yīng)該確保數(shù)據(jù)收集的穩(wěn)定性以及準(zhǔn)確性,數(shù)據(jù)來源的偏倚控制必須到位。具體的“數(shù)據(jù)來源的偏倚控制”過程如下。

(1)如圖1所示,在城市某條公共交通沿線存在A,B,C 3路公共汽車,那么針對A路信息進(jìn)行收集時,由于A,B,C 3路公共汽車在同一路段有數(shù)個停靠站以及經(jīng)過的線路完全重合,故有可能出現(xiàn)下列情況:部分城市居民出行的線路區(qū)間恰好在3路公共汽車行駛、停靠重合的區(qū)間內(nèi),對這些居民而言,每次出行并不會定向選擇3路公共汽車中具體的哪一路,而是會根據(jù)“哪一趟車先來”“當(dāng)前車輛是否擁擠”等原因決定是否乘坐這一輛汽車。

圖1 設(shè)計(jì)流程

(2)對上述情況下的數(shù)據(jù)信息進(jìn)行收集分析時,應(yīng)該設(shè)置一種特殊的算法,可行性方法為:針對這段重合線路區(qū)間,從始發(fā)站開始(注:此處提到的始發(fā)站是指“3路公共汽車停靠站重合區(qū)間的第一站,不是每一條線路的始發(fā)站”),到終末站(與上述“始發(fā)站”相同)之間所有上下車的乘客數(shù)量進(jìn)行集中統(tǒng)計(jì),之后編程程序處理指令“÷3”,得出的平均結(jié)果便是每一條公共汽車線路在此段區(qū)間內(nèi)得到偏倚控制后的數(shù)據(jù)信息。

2.2 海量數(shù)據(jù)存儲平臺的架構(gòu)形式

2.2.1 基于Hadoop的數(shù)據(jù)信息存儲管理系統(tǒng)整體運(yùn)行結(jié)構(gòu)

基于上文所述的考量要素,得到的Hadoop數(shù)據(jù)信息存儲管理系統(tǒng)的整體運(yùn)行結(jié)構(gòu)為:(1)存儲業(yè)務(wù)處理層是海量數(shù)據(jù)存儲平臺的核心層。(2)該核心層共包含5個重要功能模塊,分別為元數(shù)據(jù)管理模塊、Hive數(shù)據(jù)加載模塊、存儲映射模塊、查詢處理模塊、節(jié)點(diǎn)存儲管理模塊。其中,新建及刪除數(shù)據(jù)全部集中在存儲映射模塊,數(shù)據(jù)查詢對應(yīng)的數(shù)據(jù)全部集中在查詢處理模塊。

HDFS目錄的具體結(jié)構(gòu)如下:

-/table-000

-/metadata

-/bucket-000

-/region-000

-/baock-000

-/region-001

-/bucket-001

-/region-000

-/region-001

-/table-001

數(shù)據(jù)存儲業(yè)務(wù)處理層的主要功能在于可以將收集而來的原始數(shù)據(jù)進(jìn)行定向轉(zhuǎn)化,并根據(jù)預(yù)定的存儲結(jié)構(gòu)附加到數(shù)據(jù)庫之中。經(jīng)過優(yōu)化處理之后,數(shù)據(jù)會在存儲模塊的作用下,周期性地重新組織成存儲結(jié)構(gòu)。在此基礎(chǔ)上,查詢處理模塊會根據(jù)用戶的需求,靈活地提供歷史數(shù)據(jù)查詢接口,以根據(jù)用戶的需求,實(shí)現(xiàn)對歷史數(shù)據(jù)的精確、高效率查詢。

2.2.2 基于Hadoop的數(shù)據(jù)存儲映射模塊構(gòu)建

根據(jù)上文所述可知,存儲映射功能是Hadoop下海量數(shù)據(jù)存儲的核心模塊。主要建構(gòu)思路為:根據(jù)數(shù)據(jù)信息自動采集系統(tǒng)收集而來的數(shù)據(jù)在時間、空間層面上的差異,進(jìn)行分層存儲。此外,為了提升數(shù)據(jù)訪問調(diào)用的加載效率,需要進(jìn)行快速文件布局、優(yōu)質(zhì)壓縮處理,實(shí)現(xiàn)海量數(shù)據(jù)的分布式存儲。

(1)數(shù)據(jù)存儲模型原理。

該模塊的主要功能是對數(shù)據(jù)對應(yīng)的時間和空間信息進(jìn)行精確定位。為了達(dá)到這一目的,需要設(shè)計(jì)一種新的數(shù)據(jù)存儲模型,并能夠?qū)?shù)據(jù)分為兩個部分:核心數(shù)據(jù)和次要數(shù)據(jù)。基于Hadoop的數(shù)據(jù)信息定義結(jié)構(gòu)的分項(xiàng)具體信息排布順序如下:

①數(shù)據(jù)id,實(shí)際上是對所收集到的信息進(jìn)行命名。要注意,具體命名完全由操作者本人決定。其中的道理類似于:人們在日常使用電腦工作時,可能會新建一個工作文檔。這個文檔的名字在建立的當(dāng)下便可以立刻給出,也可以保持系統(tǒng)常規(guī)命名不變(如一個文檔剛剛建立時,當(dāng)前給出的系統(tǒng)名字就叫“新建-文本文檔”),在日后的任何時刻自行決定更改后的名字。這里需要區(qū)分一個概念,即有些人的工作習(xí)慣非常好,在對文件(數(shù)據(jù)信息)進(jìn)行命名的過程中,為了方便文件排放和后續(xù)查詢具有更高的效率,會在總文件名上加上一些表示時間和空間的數(shù)據(jù)。比如按照月度排布的文件命名為“姓名+XX月工作任務(wù)表”。在此基礎(chǔ)上,如果有必要區(qū)分工作人員所在的分公司,則需要進(jìn)一步在文件名的前方加上“XXX分公司”。但這種人為的命名只是為了查詢和統(tǒng)計(jì)方便,對系統(tǒng)的數(shù)據(jù)錄入、存放、調(diào)取等均不會有任何便利性。

②在數(shù)據(jù)存儲功能模塊下,緊隨的第2個信息記錄數(shù)據(jù)為空間信息,英文簡稱為“l(fā)oc”。

③第3個信息記錄數(shù)據(jù)為時間信息,對應(yīng)的英文單詞為“time”。

上述3項(xiàng)數(shù)據(jù)即為海量數(shù)據(jù)存儲功能中的核心統(tǒng)計(jì)數(shù)據(jù),表明數(shù)據(jù)的名稱、被記錄在案時的空間和時間信息。在此基礎(chǔ)上,還需根據(jù)統(tǒng)計(jì)要素額外設(shè)計(jì)一些具體但優(yōu)先級相對落后的統(tǒng)計(jì)項(xiàng)。

在新冠疫情肆虐的當(dāng)下,確保司機(jī)體溫處于正常狀態(tài)是一個重要的考量因素,故在3個核心數(shù)據(jù)之外,第4項(xiàng)可以設(shè)置成司機(jī)的姓名,第5項(xiàng)為司機(jī)對應(yīng)車輛的車牌號,第6項(xiàng)為司機(jī)的體溫。按照上述順序,一輛公共汽車對應(yīng)的數(shù)據(jù)信息每天收集一次并在海量數(shù)據(jù)庫中存放。如果需要調(diào)用信息時,可以在數(shù)據(jù)管理平臺中搜索關(guān)鍵詞,按照當(dāng)前關(guān)鍵詞對應(yīng)的順序優(yōu)先級完成信息的排布。比如規(guī)定體溫在37℃以下為正常體溫,達(dá)到38℃便意味著存在感冒發(fā)燒、患肺炎的可能性。在數(shù)據(jù)查詢的過程中,可以將溫度信息優(yōu)先顯示,并篩選出某一日體溫在37℃以上的司機(jī)信息,即可進(jìn)行定向追蹤,可大幅度提高信息調(diào)取的效率。

(2)基于數(shù)據(jù)信息存儲層次的精確索引設(shè)計(jì)。

由于所收集的數(shù)據(jù)信息量極大,很多時候圍繞某個關(guān)鍵字進(jìn)行信息檢索、篩選時,可能需要較多的時間。為了提高處理和搜索的效率,需進(jìn)一步劃分海量數(shù)據(jù)存儲平臺的數(shù)據(jù)信息存儲層次。

這種存儲思路與上文所述的存儲思路的區(qū)別在于:上文所述的存儲思路沒有脫離“數(shù)據(jù)信息整體存儲”的框架,即獲取一個數(shù)據(jù)信息之后,圍繞該信息中的多個可能存在的子信息設(shè)定排布順序。完成整理之后儲存在海量數(shù)據(jù)平臺之中。在此種情況下,進(jìn)行數(shù)據(jù)查閱及調(diào)取工作時,系統(tǒng)實(shí)際上無法對信息中的某個子信息進(jìn)行針對性的查詢,而是需要按照一定的順序,對所有信息進(jìn)行全面檢索,必定費(fèi)時費(fèi)力。

劃分存儲層次之后,可圍繞位置(空間)、時間信息進(jìn)行分區(qū)存儲。這種存儲分區(qū)基于Hadoop下InputFormar接口下的getSplits方法加以實(shí)現(xiàn)。將原本粗大的數(shù)據(jù)集基于空間、時間特性分為多個較小規(guī)模的數(shù)據(jù)集之后,每個數(shù)據(jù)集都可以進(jìn)行獨(dú)立的查詢、加載、優(yōu)化。基于此,實(shí)際解決的問題為:海量數(shù)據(jù)存儲平臺的數(shù)據(jù)寫入和存儲優(yōu)化時間較長的問題已經(jīng)不復(fù)存在;針對小規(guī)模數(shù)據(jù)集進(jìn)行掃描時,定位的精準(zhǔn)程度也會隨之提升。

3 結(jié)語

綜上所述,基于Hadoop的海量數(shù)據(jù)存儲平臺具備的最大優(yōu)勢在于數(shù)據(jù)信息的存儲和讀取效率會基于數(shù)據(jù)信息的存儲區(qū)間、存儲層級方面的差異而大幅度提升。此外,在進(jìn)行設(shè)計(jì)時,無需考慮Hadoop框架的底層結(jié)構(gòu),只需根據(jù)應(yīng)用層的功能指引便可以實(shí)現(xiàn)平臺的開發(fā),最終效果一般可以達(dá)到預(yù)期。

猜你喜歡
信息系統(tǒng)設(shè)計(jì)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
瞞天過海——仿生設(shè)計(jì)萌到家
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
設(shè)計(jì)秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
有種設(shè)計(jì)叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
設(shè)計(jì)之味
舒適廣告(2008年9期)2008-09-22 10:02:48
主站蜘蛛池模板: 亚洲中文字幕在线精品一区| 亚洲国产精品VA在线看黑人| 在线观看91精品国产剧情免费| 黄片一区二区三区| 亚洲区视频在线观看| 白浆免费视频国产精品视频| 亚洲人人视频| 国内嫩模私拍精品视频| 国产AV无码专区亚洲A∨毛片| 亚洲综合久久一本伊一区| 久久国产精品无码hdav| 欧美精品成人| 久久96热在精品国产高清| 亚洲熟女中文字幕男人总站 | 亚洲一区二区三区中文字幕5566| 久久动漫精品| 欧美丝袜高跟鞋一区二区| 国产一区亚洲一区| 中文成人在线| 日韩欧美国产另类| 2024av在线无码中文最新| 九色在线观看视频| 成人国产精品一级毛片天堂| 伊人查蕉在线观看国产精品| 69视频国产| 一本大道香蕉高清久久| www欧美在线观看| 99视频在线观看免费| 午夜爽爽视频| 波多野一区| 亚洲视频四区| 国产欧美日韩资源在线观看| 又黄又爽视频好爽视频| 国产成人精品视频一区二区电影| 国产天天射| 日韩无码视频专区| 欧美日韩国产综合视频在线观看| 免费在线国产一区二区三区精品| 国产玖玖视频| 毛片视频网址| 91视频区| 婷婷开心中文字幕| 亚洲婷婷丁香| 日韩乱码免费一区二区三区| 综1合AV在线播放| 天天综合天天综合| 午夜少妇精品视频小电影| 国产午夜精品一区二区三区软件| 欧美h在线观看| 亚卅精品无码久久毛片乌克兰| 亚洲最大福利网站| 国产精品网拍在线| 国产爽爽视频| 久一在线视频| 亚洲欧美精品一中文字幕| 婷婷五月在线| 亚洲AV无码久久精品色欲| 午夜爽爽视频| 欧美成人精品在线| 57pao国产成视频免费播放| 日韩 欧美 小说 综合网 另类| 久久精品一卡日本电影| 亚洲成人在线免费观看| 国产性生大片免费观看性欧美| 午夜在线不卡| 91精品人妻一区二区| 黄色网址手机国内免费在线观看| 国产成人精品视频一区二区电影 | 免费午夜无码18禁无码影院| 亚洲精品成人片在线播放| 亚洲成肉网| 特级欧美视频aaaaaa| 久久国产乱子伦视频无卡顿| 国产日韩欧美中文| 啪啪国产视频| 无遮挡国产高潮视频免费观看| 一级香蕉视频在线观看| 成人日韩精品| 国产69精品久久久久孕妇大杂乱| 在线观看国产黄色| 亚洲最大福利视频网| 91精品国产情侣高潮露脸|