999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計(jì)算技術(shù)的海量信息分布式存儲(chǔ)研究

2022-11-09 04:38:52李韜睿徐超胡龍舟朱彤白海
微型電腦應(yīng)用 2022年10期
關(guān)鍵詞:信息方法

李韜睿, 徐超, 胡龍舟, 朱彤, 白海

(國(guó)網(wǎng)湖北省電力有限公司超高壓公司, 湖北, 武漢 430050)

0 引言

云計(jì)算技術(shù)是一種密集型數(shù)據(jù)計(jì)算技術(shù),其在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理以及虛擬化技術(shù)等方面,均具備顯著的技術(shù)優(yōu)勢(shì)。其關(guān)鍵技術(shù)包括分布式存儲(chǔ)技術(shù)、虛擬化技術(shù)以及可擴(kuò)展性并行技術(shù)等[1-3]。傳統(tǒng)的海量信息存儲(chǔ)是以集中的存儲(chǔ)服務(wù)器作為數(shù)據(jù)存儲(chǔ),但是其存在海量信息存儲(chǔ)限制和瓶頸。以文獻(xiàn)[4]和文獻(xiàn)[5]的基于壓縮感知的數(shù)據(jù)存儲(chǔ)方法和基于SWIFT的海量數(shù)據(jù)存儲(chǔ)方法為例:前者以壓縮感知理論與數(shù)字模型相結(jié)合,完成數(shù)據(jù)存儲(chǔ),但是其在存儲(chǔ)信息實(shí)行抽取使用時(shí),信噪比較低;后者則是采用哈希過(guò)程以及優(yōu)化步驟后,完成數(shù)據(jù)存儲(chǔ),但是該方法在對(duì)存儲(chǔ)信息實(shí)行查詢時(shí)效率較低。基于此,本文提出基于云計(jì)算技術(shù)的海量信息分布式存儲(chǔ)方法,具備可擴(kuò)展性是分布式存儲(chǔ)的顯著優(yōu)勢(shì),其可將海量信息分散存儲(chǔ)于多臺(tái)服務(wù)器中,以此降低存儲(chǔ)限制和瓶頸,同時(shí),通過(guò)位置服務(wù)器的定位完成海量信息的存儲(chǔ),極大地提高了存儲(chǔ)系統(tǒng)的存儲(chǔ)效率和可靠性。

1 基于云計(jì)算技術(shù)的海量信息分布式存儲(chǔ)

1.1 海量信息存儲(chǔ)技術(shù)

基于云計(jì)算技術(shù)的海量信息分布式存儲(chǔ)可解決單一服務(wù)器計(jì)算和存儲(chǔ)模式,可使信息的利用率極大提高[6],在實(shí)現(xiàn)海量信息有效存儲(chǔ)的同時(shí),可完成海量信息的聚集、抽取以及查詢。分布式存儲(chǔ)技術(shù)是當(dāng)下解決海量信息存儲(chǔ)的主要方法。當(dāng)下Google設(shè)計(jì)的GFS(google file system)和Hadoop開發(fā)團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS(hadoop distributed file system)是信息數(shù)據(jù)存儲(chǔ)的主要技術(shù)。GFS作為分布式文件系統(tǒng),數(shù)據(jù)的存儲(chǔ)、管理、定位等多層面的數(shù)據(jù)處理均是其主要功能。具備控制節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)構(gòu)成的龐大存儲(chǔ)處理能力[7],計(jì)算機(jī)集群是其主要框架,并且該架構(gòu)是由大量安裝有Linux操作系統(tǒng)的普通PC組成。HDFS采用管理節(jié)點(diǎn)/存儲(chǔ)節(jié)點(diǎn)架構(gòu),見(jiàn)圖1。一個(gè)管理節(jié)點(diǎn)和一定數(shù)目的存儲(chǔ)節(jié)點(diǎn)可構(gòu)成一個(gè)HDFS集群。為提升系統(tǒng)性能以及信息利用率,采用GFS與HDFS技術(shù)完成異地計(jì)算機(jī)資源整合,形成極大存儲(chǔ)容量的計(jì)算機(jī)群,并且對(duì)信息數(shù)據(jù)實(shí)行并行處理,打破信息存儲(chǔ)瓶頸。

圖1 管理節(jié)點(diǎn)/存儲(chǔ)節(jié)點(diǎn)架構(gòu)

1.2 事實(shí)表生成

海量信息存儲(chǔ)過(guò)程中需建立事實(shí)表和維度表,兩者之間是采用主外鍵完成關(guān)聯(lián)。其中,事實(shí)表的主要作用是實(shí)現(xiàn)信息在不同維度和粒度的情況下完成信息處理和分析[8]。為生成事實(shí)表,以原有的關(guān)聯(lián)模式為依據(jù),并在信息存儲(chǔ)時(shí),采用維度表ID代替維度表與源表中的關(guān)聯(lián)值。將事實(shí)表和維度表的原始信息記錄實(shí)行劃分,并向相同的計(jì)算節(jié)點(diǎn)中分配信息連接的記錄,可同時(shí)在2個(gè)表中操作多個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù),加載采用維度表ID替換源表中相關(guān)屬性的數(shù)據(jù)至新表中,生成新的事實(shí)表[9]。事實(shí)表的生成過(guò)程見(jiàn)圖2。事實(shí)表的生成步驟如下所述。

圖2 事實(shí)表生成

(1) Map逐一獲取源表和維度表中對(duì)應(yīng)數(shù)據(jù)塊中的信息,并且獲取依據(jù)是表的元數(shù)據(jù)和Name Node中的元數(shù)據(jù)。根據(jù)獲取的信息,完成Map類型能夠識(shí)別的鍵值對(duì)的建立以及源表和維度表數(shù)據(jù)行號(hào)的標(biāo)記。

(2) value值的解析和各列屬性值的取出,根據(jù)表的元數(shù)據(jù)完成,并且,將Map的key值采用源表中與維度表關(guān)聯(lián)的屬性值和該維度表中的屬性代替。

(3) Map的輸出和標(biāo)簽tag由處理結(jié)果生成。其中:key和value分別包含表的關(guān)聯(lián)屬性值和其余屬性值的對(duì)象;數(shù)據(jù)行來(lái)源則通過(guò)tag實(shí)行標(biāo)記。

(4) 相同key值數(shù)據(jù)的收集、tag標(biāo)簽不同數(shù)據(jù)的連接以及將源表中的相關(guān)屬性值用維度表中的ID表示,是Reduce的主要作用,并輸出。其中,key和value分別表示空文本和處理過(guò)后的每行文本,并且表的各列值位于value中。

(5) 向HDFS中新表所在目錄中輸入Reduce處理后的結(jié)果,即生成事實(shí)表。

1.3 數(shù)據(jù)聚集

通過(guò)對(duì)沉淀了大量歷史數(shù)據(jù)的原始數(shù)據(jù)庫(kù)的數(shù)據(jù)提取和分析關(guān)聯(lián)操作后生成事實(shí)表,但事實(shí)表是按數(shù)據(jù)的最新粒度來(lái)組織的數(shù)據(jù)。在實(shí)際的數(shù)據(jù)挖掘應(yīng)用中需要不同的粒度和維度的數(shù)據(jù),因此在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí)聚集生成可用報(bào)表是一個(gè)必不可少的環(huán)節(jié)[10]。聚集就是用group by操作對(duì)選取的特定維度用所需的度量方式對(duì)表中的數(shù)據(jù)進(jìn)行整合的操作。并行數(shù)據(jù)聚集的基本思路:將數(shù)據(jù)按所選的維度分組,不同組的數(shù)據(jù)分配至不同計(jì)算節(jié)點(diǎn),各節(jié)點(diǎn)因數(shù)據(jù)互不相關(guān),故可以同時(shí)使用Hive的group by語(yǔ)句和聚集函數(shù)進(jìn)行數(shù)據(jù)聚集。

1.4 云計(jì)算技術(shù)改進(jìn)ETL處理算法的海量信息抽取

考慮ETL算法針對(duì)信息的處理和任務(wù)調(diào)度方面存在的不足之處,為改善上述問(wèn)題,采用基于云計(jì)算技術(shù)對(duì)其改進(jìn)。改進(jìn)主要從兩個(gè)方面完成,分別是信息抽取和任務(wù)調(diào)度。信息抽取的改進(jìn)是將Map/Reduce原理引入ETL的抽取過(guò)程中,以此提升信息處理效率[11];任務(wù)調(diào)度改進(jìn)的是將任務(wù)的優(yōu)先級(jí)和任務(wù)處理時(shí)間作為主要參考內(nèi)容。

基于云計(jì)算技術(shù)改進(jìn)ETL處理算法的海量信息抽取,將原來(lái)的多次抽取的信息轉(zhuǎn)化為一次性抽取信息,將信息劃分成多個(gè)目標(biāo)文件,該劃分采用Map/Reduce原理完成,以此實(shí)現(xiàn)信息抽取和優(yōu)化,該過(guò)程稱為SMB-DP算法;將劃分后的目標(biāo)文件實(shí)行分配調(diào)度和處理,并且以任務(wù)優(yōu)先級(jí)和運(yùn)行時(shí)間為主要參考,以此完成任務(wù)調(diào)度優(yōu)化,該過(guò)程稱為AGB-ETL算法。改進(jìn)后的算法原理見(jiàn)圖3。

圖3 改進(jìn)后算法原理

SMB-DP算法的核心是將ETL算法在信息處理過(guò)程的多次抽取轉(zhuǎn)化成單次抽取,并實(shí)行劃分后完成并行的轉(zhuǎn)換裝載[12]。所以,其實(shí)現(xiàn)的主要包含3部分:一是單次抽取;二是對(duì)信息實(shí)行拆分;三是并行轉(zhuǎn)換裝載。詳細(xì)內(nèi)容如下。

(1) 單次抽取:將需要提取的信息采用關(guān)鍵詞的方式實(shí)行有效合并。

(2) 信息拆分:信息抽取的目的是對(duì)其實(shí)行信息拆分。將信息按照一定的字段劃分后,依據(jù)Map/Reduce原理將其存儲(chǔ)至云終端。

(3) 并行轉(zhuǎn)換裝載:劃分后的多個(gè)目標(biāo)文件的并行轉(zhuǎn)換以及裝載處理,利用多種有效的并行處理技術(shù)完成[13],并向不同的計(jì)算終端中分配處理后的多個(gè)目標(biāo)文件,以此實(shí)現(xiàn)BASS的處理效能提升目的。

AGB-ETL算法的核心是遵循分配原則并且以任務(wù)優(yōu)先級(jí)和任務(wù)運(yùn)行時(shí)間為主要目標(biāo),向處理時(shí)間所需最少的終端中分配最需要處理的任務(wù),以此實(shí)現(xiàn)信息利用率的提升、信息優(yōu)化配置和調(diào)度。

AGB-ETL算法實(shí)現(xiàn)主要步驟如下所述。

(1) 確定執(zhí)行優(yōu)先級(jí):結(jié)合相關(guān)業(yè)務(wù)規(guī)范和移動(dòng)BASS實(shí)時(shí)性處理需求而設(shè)置的優(yōu)先級(jí),并且確定優(yōu)先級(jí)規(guī)范標(biāo)準(zhǔn),最高優(yōu)先等級(jí)為1,依次類推。

(2) 確定估算時(shí)間:各個(gè)任務(wù)執(zhí)行時(shí)間的獲取通常從系統(tǒng)日志取得。任務(wù)執(zhí)行的平均時(shí)間的計(jì)算依據(jù)是該任務(wù)最近N次的執(zhí)行時(shí)間,其是依據(jù)系統(tǒng)操作日志的查詢獲取。

(3) 處理流程:第一步是判斷任務(wù)是否發(fā)生調(diào)度,發(fā)生調(diào)度將其加入隊(duì)列,反之,則等待;第二步是按照優(yōu)先級(jí)從高至低的原則,對(duì)隊(duì)列實(shí)行排序處理,如果存在相同的優(yōu)先級(jí),則根據(jù)任務(wù)執(zhí)行時(shí)間,依舊按照從高至低的原則實(shí)行排列[14];第三步向執(zhí)行時(shí)間最少的單元中傳入最需要處理的任務(wù);第四步是估算該任務(wù)組的總執(zhí)行時(shí)間,并進(jìn)行更新;第五步是分析任務(wù)列隊(duì),判斷其是否完成分配。

1.5 數(shù)據(jù)庫(kù)信息查詢

基于云計(jì)算技術(shù)的數(shù)據(jù)庫(kù)信息查詢時(shí),用戶查詢請(qǐng)求的信息提供,可由某個(gè)數(shù)據(jù)對(duì)象的等價(jià)數(shù)據(jù)集合中的全部節(jié)點(diǎn)完成[15]。所以,對(duì)等價(jià)節(jié)點(diǎn)數(shù)據(jù)集合中的節(jié)點(diǎn)實(shí)行其負(fù)載能力和信息的標(biāo)記。固定時(shí)間范圍t中,M(q,y,u)表示數(shù)據(jù)節(jié)點(diǎn)q中的數(shù)據(jù)對(duì)象y的請(qǐng)求次數(shù),則節(jié)點(diǎn)q的負(fù)載信息的公式為

D(q,u)=(Md,Mυ,Mm)

(1)

式中,數(shù)據(jù)節(jié)點(diǎn)時(shí)的負(fù)載信息用Md、Mυ和Mm表示,同時(shí)節(jié)點(diǎn)負(fù)載能力極大值和極小值也用其描述。該數(shù)據(jù)節(jié)點(diǎn)的超載信息和欠載信息為

(2)

(3)

為描述該節(jié)點(diǎn)的等價(jià)節(jié)點(diǎn)負(fù)載信息數(shù)據(jù)集合,將式(2)和式(3)實(shí)行聯(lián)立,則得出:

D(q,u)={(r,F,O)|r∈F(q,y)F=Fm(q,y,u),O=Ol(p,x,t)}

(4)

如果Mm

2 性能測(cè)試

為驗(yàn)證本文方法的有效性,選取某地區(qū)城市規(guī)劃數(shù)據(jù)信息為研究對(duì)象,該數(shù)據(jù)中總共包含的數(shù)據(jù)數(shù)量為48 000個(gè),采用本文方法對(duì)其實(shí)行相關(guān)存儲(chǔ)測(cè)試。實(shí)驗(yàn)中使用8臺(tái)同品牌、同等配置的服務(wù)器搭建服務(wù)器集群,其中性能較好的1臺(tái)為主機(jī)服務(wù)器,剩余的為節(jié)點(diǎn)從機(jī)。

向事實(shí)表中插入不同數(shù)量信息,測(cè)試本文方法的插入性能,結(jié)果見(jiàn)圖4。根據(jù)圖4的測(cè)試結(jié)果可知,隨著物理節(jié)點(diǎn)數(shù)量的增加,信息插入的時(shí)間逐漸減小,是由于本文方法可在不同維度和粒度的情況下完成插入信息的處理和分析,并且分布式存儲(chǔ)可提高信息存儲(chǔ)速度,因此,信息的插入效率隨著物理節(jié)點(diǎn)數(shù)量的增加而增加,說(shuō)明物理節(jié)點(diǎn)越多,數(shù)據(jù)存儲(chǔ)效率越快。

圖4 插入性能

本文方法在實(shí)行海量信息抽取時(shí),需將信息劃分成多個(gè)目標(biāo)文件。測(cè)試本文方法在劃分成不同數(shù)量的目標(biāo)文件時(shí)的信息抽取效率,結(jié)果見(jiàn)圖5。根據(jù)圖5的測(cè)試結(jié)果可知,隨著劃分目標(biāo)文件數(shù)量的逐漸增加,抽取時(shí)間逐漸降低。沒(méi)有劃分之前,針對(duì)一個(gè)整體信息實(shí)行抽取,無(wú)法通過(guò)多個(gè)物理節(jié)點(diǎn)完成,需要完成整個(gè)信息的抽取;將信息劃分成多個(gè)目標(biāo)文件之后,可通過(guò)分布式存儲(chǔ)物理節(jié)點(diǎn)同時(shí)進(jìn)行抽取,極大程度提高信息抽取效率,縮小信息抽取時(shí)間。

圖5 抽取效率

統(tǒng)計(jì)本文方法抽取不同信息數(shù)量時(shí),抽取結(jié)果的信噪比,并將本文方法的抽取結(jié)果與基于壓縮感知的數(shù)據(jù)存儲(chǔ)方法(文獻(xiàn)[4]方法)和基于SWIFT的海量數(shù)據(jù)存儲(chǔ)方法(文獻(xiàn)[5]方法)的抽取結(jié)果作對(duì)比,結(jié)果見(jiàn)圖6。根據(jù)圖6的測(cè)試結(jié)果可知,采用本文方法抽取信息后,抽取的信息中信噪比明顯高于其余2種對(duì)比方法的信噪比。該結(jié)果說(shuō)明本文方法抽取的信息可有效保證信息完整性的同時(shí),亦可有效保證信息的信噪比,說(shuō)明本文方法具備較好的信息抽取性能。

圖6 3種方法的抽取對(duì)比結(jié)果

測(cè)試3種方法的空間數(shù)據(jù)信息查詢性能。空間信息查詢性能是指對(duì)不同量級(jí)信息實(shí)行查詢,并返回該信息的所有字段值。3種方法的查詢結(jié)果見(jiàn)圖7。根據(jù)圖7的測(cè)試結(jié)果可知,本文方法具備良好的查詢性能,查詢速度約是2種對(duì)比方法的3倍,是由于本文方法可以將信息經(jīng)過(guò)劃分處理后存儲(chǔ)在分布的集群中,在實(shí)行信息查詢時(shí),可實(shí)現(xiàn)并行查詢處理,因此顯著提升查詢速度。

圖7 3種方法查詢對(duì)比結(jié)果

采用3種方法分別進(jìn)行城市規(guī)劃成本信息的查詢,統(tǒng)計(jì)3種方法的成本信息查詢誤差結(jié)果,見(jiàn)圖8。根據(jù)圖8的測(cè)試結(jié)果可知,本文方法查詢城市規(guī)劃成本信息的誤差最低,其余2種對(duì)比方法的查詢誤差顯著高于本文方法。該結(jié)果說(shuō)明本文方法的實(shí)際信息查詢性能較好。

圖8 3種方法的查詢結(jié)果

3 總結(jié)

本文針對(duì)傳統(tǒng)海量信息的存儲(chǔ)方法的不足展開分析,研究基于云計(jì)算技術(shù)的海量信息分布存儲(chǔ)方法。通過(guò)分布式存儲(chǔ)方式,保證信息的高效存儲(chǔ)的同時(shí),亦可保證信息的可靠性,并滿足用戶低成本地完成海量信息存儲(chǔ)的目的。測(cè)試結(jié)果表明,本文方法可高效完成信息的插入、抽取和查詢。

猜你喜歡
信息方法
學(xué)習(xí)方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 国产毛片基地| 国产一区二区丝袜高跟鞋| 爱色欧美亚洲综合图区| 999福利激情视频| 亚洲人成人无码www| 欧美不卡二区| 一本久道久综合久久鬼色| 国产伦精品一区二区三区视频优播 | 婷婷亚洲最大| 国产美女丝袜高潮| 欧美视频在线播放观看免费福利资源| 欧美在线黄| swag国产精品| 中文字幕永久在线看| 欧美精品高清| 亚洲成人一区二区| 国产91成人| 99精品影院| 国产精品第三页在线看| 国产又粗又猛又爽| 自拍偷拍欧美日韩| 中文国产成人精品久久| 成人国内精品久久久久影院| 无码日韩视频| 国产99在线观看| 伊人久久婷婷五月综合97色| 亚洲天堂网视频| 色综合手机在线| 欧美在线视频不卡| 青青极品在线| 韩日午夜在线资源一区二区| 99热这里只有精品免费国产| 久草中文网| 无码免费的亚洲视频| 97se亚洲综合在线天天| 久久精品日日躁夜夜躁欧美| 欧美国产视频| 免费在线观看av| 国产熟睡乱子伦视频网站| 性视频一区| 免费观看国产小粉嫩喷水| 国产波多野结衣中文在线播放| 亚洲日本精品一区二区| 国产精品第三页在线看| 欧美无专区| 国产在线精品香蕉麻豆| 成人91在线| 国产小视频a在线观看| 久久a毛片| 九月婷婷亚洲综合在线| 欧洲极品无码一区二区三区| 久久精品这里只有国产中文精品 | 国产主播在线一区| 免费AV在线播放观看18禁强制| 尤物午夜福利视频| 国产人成午夜免费看| 欧美午夜网站| 国产白浆在线| 国产极品美女在线播放| 亚洲精品色AV无码看| 亚洲经典在线中文字幕| 一级看片免费视频| AV色爱天堂网| 国产h视频免费观看| 亚洲人人视频| 久久精品娱乐亚洲领先| 国产无码精品在线播放 | 国产精品第一区在线观看| 最近最新中文字幕在线第一页| 日本午夜在线视频| 国产微拍一区二区三区四区| 国产一区二区三区免费| 日韩在线视频网站| 2020国产精品视频| 极品国产一区二区三区| 伊人久久精品亚洲午夜| 国产亚洲视频免费播放| 日本高清视频在线www色| 国产日本一线在线观看免费| 日韩美毛片| 91九色国产porny| 亚洲欧洲一区二区三区|