999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于并行數據庫的海量數據分析處理方法的研究

2017-07-24 15:45:32萌,管
電子設計工程 2017年10期
關鍵詞:數據處理數據庫

梁 萌,管 陽

(陜西國防工業職業技術學院 陜西 西安710300)

基于并行數據庫的海量數據分析處理方法的研究

梁 萌,管 陽

(陜西國防工業職業技術學院 陜西 西安710300)

隨著計算機信息處理系統的迅速發展,傳統的計算機數據處理能力已不能為如今海量的數據處理提供快速,簡捷,高效的數據分析處理。針對這一問題,文中提出了并行數據庫的海量數據分析處理方法,該方法詳細對比了MapReduce和并行數據庫技術,然后確定選用并行數據庫的方法來處理海量數據。最后在該方法的基礎之上,提出了從數據讀取到數據處理的整個算法流程,該算法大幅縮短了海量數據處理的時間,使得數據處理更加高效,在未來的發展中有較強的實用價值。

海量數據;并行數據庫;處理時間

隨著時代的不斷進步,信息化的氣息也遍布在當今各個領域,尤其在計算機行業。隨著系統硬件地不斷精確化,系統軟件更要不斷的更新。近年來,研究者面臨著接收、處理、分析爆炸式的數據信息的問題,如何使這些數據更加高效的運轉成為了當今研究者普遍關心的問題。海量數據既為大量數據[1],在人們日常生活中,例如水利部門測量的大量數據,氣象局不時獲得的氣象信息等,這些數據均極其龐大,同時這些數據的格式也是千變萬化,有聲音、文字、圖像等。對于一個企業而言,這些數據至關重要,大量的數據統計不僅可發現客戶潛在的需求,同時還能夠開發出更多滿足客服需求的應用。然而,任何事情均有兩面性,數據量的增大必然會導致大量數據存儲及處理速度的難題[2],為了解決以上難題就必須要求研究者不斷提出更高效的算法,本文提出的算法就是在該問題的前提下研究更加高效的數據處理及分析方法。

目前,硬件系統的性能改善已提高到了有限度的境界。此外,文中可從軟件上改善數據處理的方式,目前最流行的技術就是多核技術[3],該技術的核心為并行技術,即分而治之,本文所要討論的并行技術為MapReduce技術和并行數據庫技術[4]這兩種主流技術。

1 海量數據的存儲

對于一個企業而言,數據既是財富,隨著信息化時代的飛速發展,數據量的增加突飛猛進,這就要求企業必須解決對海量數據存儲的難題。在此階段,各大企業也均提出了各自的解決方案,成功地完成了大數據的存儲難題,目前大多數企業采用文件服務器的方式進行數據的存儲,一小部分企業采用服務器內置存儲空間的方法來存儲文件數據,還有少部分企業采用NAS網關共享SAN網絡的方式來存儲數據[5]。此外,還有較少的一部分采用NAS網絡、集群式NAS、分布式文件系統及多協議支持的統一存儲系統解決數據存儲問題[6]。隨著信息化時代的不斷進步,這些方法也會不斷的被更新或取代。

2 海量數據的處理

2.1 MapReduce技術

由于Google搜索引擎每天要處理巨大的數據信息,因此該公司在2004年時提出了MapReduce技術,該技術可分為Reduce和 Map兩個概念[7]。現實中的諸多東西均可通過Reduce操作表達出來,而表達出的數據通過Map操作進行處理,如圖1所示為Map/Reduce執行流程圖,從input到output經歷了Map/Reduce操作。為了能在不同的機器上運行,Map操作首先將數據進行了分區處理,完成分區處理后,Map操作又將數據進行了分塊的處理。在圖1中Reduce操作通常根據用戶的指定完成數據分區數量和分區函數的劃分。

圖1 Map/Reduce執行流程

2.2 并行數據庫技術

并行數據庫技術即將并行計算和數據庫技術相融合的產物。為了提高對數據處理的效率,人們不斷意識到通過在空間和時間上的并行化處理能大幅改善效率,任務并行和數據并行共同組成了并行計算,兩者作用也大相徑庭。對于事物的管理和協調,任務并行處理會使其更加復雜化,相反并行數據的功能就是將復雜的,龐大的大任務分解成諸多的子模塊,便于處理。吞吐量和響應時間[8]是衡量一個數據庫優劣的性能指標,對于并行數據庫的設計,研究者要以提高這兩者性能為前提。并行數據庫的體系架構圖如圖2所示,該架構的設計是以共享內存為前提設計的[9]。圖2所示為共享磁盤及無共享體系設計的體系架構,該體系架構使得所有處理器共同享用一個內存,從而使通信效率極高,訪問內存的速度也較快,在對數據進行存取或處理時占較大的優勢,故通常情況下選用該體系架構。

圖2 并行數據庫的體系架構

通過對MapReduce技術和并行數據庫技術的對比,文中選用并行數據庫來對數據進行分析和處理,因本算法旨在提高數據庫的效率,而索引則是提高數據庫效率的一種方式,由于MapReduce技術是不支持索引的,當必須要用到索引時其需要根據應用編寫具體的索引程序,而并行數據則將具有共性的索引程序按照標準的格式進行固化,從而大幅度提高了數據庫的效率。

2.3 海量數據處理語言選擇

對于一般數據而言,通常只需數據庫便可完成數據的處理,但對于海量數據庫的處理,其還需要程序的幫助才能完成。程序操作文本是處理程序數據庫和文本之間快速有效的方法,該方法對于文本的處理出錯率低。文本格式能以任何方式存儲,通常常見的日志均是以文本格式存儲的,對于這些日志數據的清除處理,可選用導入數據庫的方法[10]來完成。但通常情況下,對于大量數據的清除會選用編程處理,因而程序對于處理復雜數據起著至關重要的作用,程序的優劣直接決定著數據的準確性和高效率性。

當處理龐大的數據時,編程語言的選擇極其重要,因每一種語言針對的方面不同,在處理不同類問題時效率會出現差異,這就需要編程者在編程之前深思熟慮,仔細權衡編程時間和運行時間的優先性。腳本語言由于運行時間長,因而在大數據的遍歷問題上不被人們接受。此外,其無法控制內存的使用及文件的讀寫程序,且在大數據的處理中大多情況下要為文件進行優化,統籌兼顧,C/C++是處理海量數據的最佳選擇[11]。

3 處理海量數據的算法實現

在并行數據庫的基礎下,對于海量數據庫算法實現分成兩部分,分別為海量數據庫的讀取算法和海量數據庫的分析算法。前者對于任何文本文件類型的數據,均能夠以字符的形式讀取出來,后者則需根據海量數據的類型格式進行不同的處理。如圖3所示,該文件以.csv格式存儲,文件在25 M左右,有152 049行,81列,其存儲形式如圖3所示,理論上該算法的執行時間約為7 s[12]。

圖3 文件內容形式

3.1 海量數據的讀取算法

如圖4所示為海量數據讀取的流程圖,該讀取算法既是根據該流程編寫而成,首先需要為文件創建映射對象[13],完成映射對象的創建之后即可獲得系統分配粒度,然后將文件映射對象找到其在應用程序中的地址,查看文件大小,最后文件以字符的形式被讀取處理出來。當完成讀取之后,撤銷文件的映射[14-15],結束整個算法流程。

3.2 海量數據的分析算法流程

該階段對海量數據分析處理的過程,如圖5所示。首先建立信息存儲文件庫,以csv格式進行存儲,數據以逗號作為分隔符是該存儲文件的特點,圖5所示流程圖旨在將圖3文件中的各個時間點的有效數據,以及行列值提取出來,算法實現嚴格按照圖5流程圖進行編寫。圖6,7為海量算法執行海量數據的結果圖,從圖6中可發現,對于海量數據的訪問時間達到了7 s的理論值,在圖7中也能清析的看到提取的有效數據結果,該算法的驗證,對未來大數據的處理,起到了至關重要的作用。

圖4 讀取海量數據

圖5 海量數據處理

圖6 顯示執行時間

圖7 提取有效數據結果

4 結束語

文中提出了一種基于并行數據庫的海量數據處理算法,該算法旨在解決當前大數據時代下龐大數據存儲及處理的難題,通過流程圖設計再到算法驗證,證實了該算法的可行性及高效性,在未來具有良好的發展前景。

[1]陳康,鄭緯民.云計算:系統實例與研究現狀[J].軟件學報,2009,20(5):1337-1348.

[2]Dean J,Ghemawat S.MapReduce:Simplified data processing on largeclusters[M].In Proc.OSDI,2004.

[3]David J,DeWitt,Jim Gray.Parallel database systems [M].The Future of High Performance Database Processing,1992.

[4]Ben Lorica.HadoopDB[M].An Open Source Parallel Database,2009.

[5]盛昀瑤,夏惠芬.云計算系統架構與實例研究[J].軟件導刊,2012,11(12):3-5.

[6]馮朝一.云理論在數據挖掘中的應用研究 [D].南寧:廣西大學,2007.

[7]陳丹偉,黃秀麗,任勛益.云計算及安全分析[J].計算機技術與發展,2010,20(2):99-102.

[8]Kostenetskii P S,Lepikhov A V,Sokolinskii L V. Technologies of Parallel Database Systems for Hierarchical Multiprocessor Environments.December,2006.

[9]曹媛媛.云計算關鍵技術應用及發展[J].電子科技,2011,24(11):141-143.

[10]李凱,常征.基于云計算的并行數據挖掘系統設計與實現[J].微計算機信息,2011,27(6):121-123.

[11]劉鵬.云計算[M].2版.北京:電子工業出版社,2011.

[12]Armbrust M,Fox A,Griffith R,et al.Above the Clouds:ABerkeley View of Cloud Computing[EB/ OL].[2011-01-10].http://www.EECS.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf.

[13]李成華,張新訪,金海,等.MapReduce:新型的分布式并行計算編程模型[J].計算機工程與科學,2011,33(3):129-135.

[14]拓守恒.云計算與云數據存儲技術研究[J].電腦開發與應用,2010,23(9):1-3.

[15]楊麗婷.基于云計算數據存儲技術的研究[D].太原:中北大學,2011.

Research on the analysis and processing method of massive data based on parallel database

LIANG Meng,GUAN Yang
(Shaanxi National Defense College of Industrial Technology,Xi'an 710300,China)

According to the rapid development of computer information processing system, data processing ability of traditional computer has not been able to now for the massive data processing provides fast,simple,efficient data analysis and processing,resulting in the massive data parallel database processing method.The methods were compared with MapReduce and parallel database technology,and then determine the selection method of parallel database processing of massive data based on this method,put forward from the read data to the data processing of the whole algorithm,the proposed algorithm can greatly shorten the data processing time,makes the data processing more efficient,there is strong practical value in the future.

massive data;parallel database;processing time

TN99

A

1674-6236(2017)10-0132-04

2016-10-09稿件編號:201610018

國家自然科學基金(60902079)

梁 萌(1981—),女,陜西戶縣人,碩士,講師。研究方向:計算機數學教學,數據分析與處理。

猜你喜歡
數據處理數據庫
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
MATLAB在化學工程與工藝實驗數據處理中的應用
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
Matlab在密立根油滴實驗數據處理中的應用
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 国产成人在线小视频| 欧美区在线播放| 四虎永久在线视频| 国产一区二区福利| 国产区在线看| 中国一级特黄视频| 午夜精品久久久久久久99热下载| 国内精品小视频在线| 91精品免费高清在线| 国产门事件在线| 精品国产网站| 久久99精品久久久久久不卡| 91精品在线视频观看| 欧美成人综合视频| 日韩AV无码免费一二三区| 自拍中文字幕| 久久这里只精品国产99热8| 国产麻豆另类AV| 色综合久久88色综合天天提莫| 99re在线免费视频| 亚洲成人黄色在线| 四虎影视8848永久精品| 成人va亚洲va欧美天堂| 亚洲自拍另类| 国产草草影院18成年视频| 人妻丰满熟妇av五码区| 91色爱欧美精品www| 蜜芽国产尤物av尤物在线看| 亚洲最大看欧美片网站地址| 国产精品2| 五月婷婷综合网| 国产精品一区在线观看你懂的| 国产福利免费视频| 中文无码精品a∨在线观看| 国产精品九九视频| 国产日产欧美精品| h视频在线播放| 久久国产成人精品国产成人亚洲| 中文字幕 日韩 欧美| 色综合热无码热国产| 日韩精品高清自在线| 她的性爱视频| 亚洲无码电影| 欧美日韩精品在线播放| 免费国产不卡午夜福在线观看| 午夜小视频在线| 亚洲毛片网站| 欧美一道本| 97青青青国产在线播放| 欧美福利在线观看| 久久国产精品麻豆系列| 制服丝袜一区| 国产午夜不卡| 国产又粗又爽视频| 亚洲欧洲国产成人综合不卡| 免费福利视频网站| 激情综合五月网| 亚洲精品成人7777在线观看| 国产一区成人| 中文字幕久久亚洲一区| 久久精品国产精品一区二区| 亚洲无码高清视频在线观看 | 国产成人精品一区二区不卡| 天天综合网亚洲网站| 视频一本大道香蕉久在线播放| 欧美成人午夜在线全部免费| 亚洲天堂视频网站| 玩两个丰满老熟女久久网| 茄子视频毛片免费观看| 午夜日b视频| a毛片在线免费观看| 亚洲欧美一区二区三区蜜芽| www.av男人.com| 2021国产乱人伦在线播放| 亚洲欧美在线看片AI| 色视频国产| 国内99精品激情视频精品| 97青草最新免费精品视频| 国产91全国探花系列在线播放| 国产日本欧美亚洲精品视| 99爱在线| 久久久精品国产SM调教网站|