999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的海量數據處理平臺設計與實現?

2012-07-01 18:05:13宋均祝林
電訊技術 2012年4期
關鍵詞:數據處理計算能力系統

宋均,祝林

(1.中國西南電子技術研究所,成都610036;2.四川職業技術學院,四川遂寧629000)

基于云計算的海量數據處理平臺設計與實現?

宋均1,祝林2

(1.中國西南電子技術研究所,成都610036;2.四川職業技術學院,四川遂寧629000)

針對傳統并行處理技術在海量數據處理中存在的實際應用問題,利用云計算技術強大的計算能力、高效的海量數據處理方式,結合關系數據庫實時訪問的優點,在Hadoop分布式計算框架基礎上,采用Map-Reduce架構,設計并實現了基于云計算的海量數據處理平臺。實踐證明,該系統在計算能力、穩定性、可擴展性等方面都優于傳統并行處理的技術,能有效解決海量數據大并發訪問。

云計算;海量數據;Hadoop分布式計算;并行處理技術

1 引言

在許多行業和機構中,大中型數據庫和數據倉庫的大批量數據集快速批量處理有廣泛的應用需求。如何實現海量數據快速交互的批量處理是管理信息系統所面臨日益突出的問題,也是數據集中工程中急需解決的關鍵問題[1]。傳統的基于并行處理的數據平臺已不能滿足海量數據處理的實際要求,海量信息技術架構迫切需要具有動態的、可伸縮的存儲計算模式,才能實現快速響應的機制[2-3]。

大型數據庫大規模數據查詢、分析、提取、更新等批量處理過程正面臨著嚴峻的實際問題[4]:一是傳統的數據庫復雜,查詢耗時過長,當面臨大數據量查詢任務時甚至無法完成;二是系統面臨大并發的數據任務時,系統性能將急劇降低;三是傳統的數據庫可擴展性差,額外增加的可擴展硬件根本無法有效提高系統處理性能;四是海量數據的存取與處理成本高、維護費用大,等。研究海量數據及時高效的處理技術將有效地提高計算機系統的應用性能,從而更好地提供社會基礎服務,帶動經濟效益的增長。

作為一種新型的基于互聯網的商業計算模型,云計算提供了靈活的計算能力和高效的海量數據分析處理方法。本文將云計算應用于關系數據庫的海量數據處理當中,設計并搭建了基于云計算的海量數據處理平臺,為解決關系數據庫的海量數據處理問題提供了新方法。

2 云計算技術

2.1 云計算的定義

云計算(Cloud Computing)是在信息技術進步和應用需求拉動兩方面成熟的條件下逐漸演化而來的,于2007年被提出。到目前為止,云計算還沒有統一、公認的定義,維基百科中對云計算的定義為:云計算是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需提供給計算機和其他設備。提供資源的網絡被稱為“云”。“云”中的資源在使用者看來是可以無限擴展的,并且可以隨時獲取,按需使用,隨時擴展,按使用付費。

2.2 云計算的技術支撐

云計算是網格計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和網絡技術發展融合的產物,它旨在通過網絡把多個成本相對較低的計算實體整合成一個具有強大計算能力的完美系統,并借助SaaS、PaaS、IaaS、MSP等先進的商業模式把這強大的計算能力分布到終端用戶手中[5-6]。云計算的一個核心理念就是通過不斷提高“云”的處理能力,進而減少用戶終端的處理負擔,最終使用戶終端簡化成一個單純的輸入輸出設備,并能按需享受“云”的強大計算處理能力。

3 系統設計

3.1 系統需求背景

本文以某藥品經營管理信息系統為例來設計和實現基于云計算的海量數據處理平臺。藥品經營管理具有藥品種類繁多、統計數量大、藥品的批次號和有效期管理要求高、銷售門店多等特點,因此該系統具有數據量大、并發用戶多、查詢復雜等特點。

3.2 系統設計要求與原則

傳統的基于并行處理的海量數據技術存在系統硬件要求高、成本大、并行程序編寫困難等缺點,海量數據的處理要求系統不僅要具有良好的穩定性、超強的計算能力,能夠進行快速、并行的數據處理,還要求在面對數據庫的復雜查詢問題時,系統具有一定的并發能力,能夠面對一定程度海量數據的大并發訪問[7]。此外,還應要求系統核心架構具有可擴展性,當節點增加時,核心架構可實現線性擴展功能[4]。

本系統設計遵循的幾點原則:

(1)經濟性原則,充分利用現有的資源構建系統基礎設施,采用Hadoop做為底層集群部署,對系統硬件要求不高;

(2)高效性原則,以云計算為基礎,充分利用云計算的優點和現有資源,采用合理的結構體系,實現對海量數據的高效處理;

(3)通用性,注重采用目前成熟的軟、硬件技術,在兼顧個體用戶需求的同時,突出廣大客戶對系統共性的需求,盡可能地滿足不同類用戶的需求;

(4)易操作性,貫徹落實面向最終用戶的原則,建立友好界面,使用戶操作簡單直觀,易于學習和掌握。

3.3 系統總體架構

傳統的數據倉庫是集中在一臺大型服務器上的,本系統將數據分割到相互聯系的一個集群上。每個服務器上有一小部分數據,整個集群的數據組合成一個完整的數據集。當系統并行運算時,整個系統的I/O、CPU、內存都遠遠高于單服務器的架構,從而為數據處理速度帶來巨大的提升。與云計算的map/reduce/merge架構相對應,可以將數據分割理解為map,將每臺服務器單獨處理的模塊理解為re

duce,在匯總節點進行再處理可理解為Merge。系統總體構架如圖1所示。

圖1 系統總體構架Fig.1 System architecture

3.4 并行數據分割技術

在并行計算系統中,如何分割數據是整個并行計算的核心問題之一[7-8]。簡單按字段做Hash分割,可以快速分割數據,但是對系統帶寬有很高的要求,而且對系統的并發和可擴展性都有很大限制;按業務規則進行復雜的數據分割可以極大地減少節點間數據的交換,降低并行計算系統對帶寬的要求,但同時又會導致巨大的分割運算量(例如,當對一個1.3億條的數據按業務規則進行分割時,單服務器進行的分割時間需要20 h以上)。

為了有效解決這個兩難問題,我們開發了并行數據分割系統,在多機并行的模式下,按業務規則對數據進行有效分割(例如,若對1.3億條數據用9臺機器進行分割,可在24min內完成)。并行分割流程框圖如圖2所示。

圖2 并行數據分割流程框圖Fig.2 Diagram of partitioning data parellet

3.5 智能節點替換技術

對于云計算系統來說,容錯技術是保證系統穩定的基礎[9]。系統采用多重備份模式,實現一份數據,多機存儲。如圖3所示,當某個節點出現故障時,系統的節點替換模塊會自動更新節點信息,用備份節點替換掉故障節點。用戶在前臺操作時,絲毫感覺不到系統后臺的操作。

圖3 系統備份模式流程圖Fig.3 Backupmodes of system

3.6 內容負載均衡技術

按內容條件進行負載均衡技術查詢流程如圖4所示,查詢往往包含很多過濾條件,如果能有效地利用這些過濾條件,鎖定它們所在的節點,則可以有效減少對所有節點的掃描,降低運算所帶來的時間浪費[10]。通過指定過濾條件和數據內容索引間的關聯,查出查詢所需要訪問的節點,再針對性地向對應節點發出請求,大大減少了對系統資源的使用,同時也為海量數據的大并發查詢提供了更多的可用計算資源。

圖4 內容負載均衡技術查詢框圖Fig.4 Content load balancing lnquiry

3.7 任務負載均衡技術

如何應對海量數據的大并發訪問是云計算技術面臨的技術挑戰,在并行計算時,所有子節點的運算結果需要由某個匯總節點進行集中再處理。在大并發的條件下,如果這個匯總節點是固定的,那么它的任務負荷一定會非常重,可能會造成整個系統的崩潰[11-12]。我們采用Master節點按任務進行負載均衡的技術,可以讓任意節點擔任Master的工作,從而極大地提高了并行計算系統應對大并發的能力。

如圖5所示:實線任務和虛線任務兩個任務同時并發,實線任務的匯總任務由1號節點完成,虛線任務的匯總任務則是由5號節點完成。

圖5 負載均衡處理框圖Fig.5 Load balancing processing

4 系統模塊組成及其實現

整個系統包括六大功能模塊,下面以系統在某醫療單位運行數據情況為例,分別進行介紹。

(1)數據分割模塊

該模塊包括中數據精確分割模塊和大數據并行分割模塊。

(3)并行查詢模塊

該模塊包括并行查詢設計模塊、并行查詢解析模塊、并行查詢控制模塊,其中并行查詢控制模塊又包括并行調度模塊、節點替換模塊和負載均衡模塊。

(3)安全管理模塊

該模塊包括用戶管理、Portal內容權限管理及數據內容權限管理。

(4)Portal模塊

該模塊包括報表管理模塊和縮略圖模塊。

(5)數據建模模塊

該模塊主要有元數據導入和業務視圖模塊。

(6)前臺展現模塊

該模塊包括用戶交互模塊、表格模塊及圖表模塊。

5 基于云計算海量數據處理系統的特點

系統在試用期間,通過對廣大使用客戶的調研,發現該系統具有以下幾個特點。

(1)計算快速性

云計算的核心在于數據的分布式存儲與大規模并行計算,google、yahoo、百度、facebook等互聯網巨頭正是利用這一技術來處理它們后臺的海量數據,我們將這一技術與傳統的關系數據庫技術相結合,設計了基于云計算技術的海量數據處理系統,為解決關系數據庫的海量數據快速處理提供了新方法。

(2)穩定可靠性

引進智能節點替換技術,在節點壞掉的時候,系統可以自動用備份節點替換掉故障節點,保證系統的穩定性。該系統采用和hadoop類似的多重備份模式,一份數據,多重備份。當有節點宕機后,系統自動用備份節點替換掉故障節點,保證系統穩定運行。

(3)可有效解決并發能力

采用多項負載均衡技術,通過dispather指定任意節點承擔Master任務,有效消除并行計算中Master節點工作負荷太重的問題;通過內容索引、二次查詢等技術,有效減少按條件查詢時對所有節點進行的掃描數量,避免系統資源浪費等問題。

(4)可擴展性

由于系統完全是基于并行模式設計的,所以當節點增加時,整個系統的I/O、CPU、內存等核心架構可線性擴展,以此提高系統計算性能。

(5)零客戶端

系統的設計按照云計算的架構,從系統管理[15]報表到查詢的開發,用戶使用完全基于Web完成。所有操作界面都通過瀏覽器完成,用戶可以使用私有云在企業內部部署,也可以使用公有云的模式,將數據上傳到云中心,然后通過云的方式使用,分析數據。

6 結束語

隨著信息化進程的不斷深入,人們對信息的需求也將不斷增加,海量數據快速處理的技術需求與目前技術現狀的滯后之間的矛盾將日趨激烈,已成為全球廣為關注的熱點議題。本文在對廣大客戶需求分析的基礎上,針對傳統并行數據庫對大數據量處理不足等現狀,利用云計算靈活的計算能力和高效的海量數據分析處理技術,設計并搭建了基于云計算的海量數據實現平臺,最后對系統運行情況進行了簡要展示。系統在投試期間,通過對使用客戶的廣泛調研,發現本系統在計算能力、穩定性、可擴展性等方面都優于傳統并行處理的技術方法,能有效解決系統大并發問題。該系統是云計算技術面向海量數據處理的一個實際應用,是解決海量數據處理問題的一種成功范例,可為面向海量數據處理的系統開發提供參考和借鑒。

[1]2010 Digital Universe Study[EB/OL].[2010-7-27]. http://gigaom.files.wordpress.com/2010/05/2010-digital -universe-iview-5-4-10.pdf

[2]陳康,鄭緯民.云計算:系統實例與研究現狀[J].軟件學報,2009,20(5):1337-1348. CHEN Kang,ZHENGWei-min.Cloud Computing:System Instances and Current Research[J].Journal of Software,2009,20(5):1337-1348.(in Chinese)

[3]黃華峰,曹王王木.云計算:中國未來的IT戰略[M].北京:人民郵電出版社,2010. HUANG Hua-feng,CAOQin.Cloud Computing:China Future IT Tactic[M].Beijing:People′s Post and Telecomm Press,2010.(in Chinese)

[4]Armbrust M,Fox A,Grifth R,et al.Above the Clouds:A Berkeley View of Cloud Computing[R]//Technical Report No.UCB/EECS-2009-28.Berkeldy:Department of Electrical Engineering and Computer Sciences,University of California,2009.

[5]劉鵬.云計算[M].北京:電子工業出版社,2011. LIU Peng.Cloud Computing[M].Beijing:Publishing House of Electronic Industry,2011.(in Chinese)

[6]Fingar P.云計算:21世紀的商業平臺[M].王靈俊,譯.北京:電子工業出版社,2010. Fingar P.Cloud Computing:21st Century Business Platform Built[M].Translated by WANG Ling-jun.Beijing:Publishing House of Electronic Industry,2011.(in Chinese)

[7]Chaves SA,Westphall CB,Lamin FR.SLA Perspective in Security Management for Cloud Computing[C]//Proceedings of the 6th International Conference on Networking and Services.Cancun,Mexico:IEEE,2010:201-217.

[8]Cryans Jean-Daniel,April A,Abran A.Criteria to Compare Cloud Computingwith CurrentDatabase Technology[C]//Proceedings of the International Conferences on Software Process and ProductMeasurement.[S.l.]:IEEE,2008:114-126.

[9]Santos N,Gummadi K P,Rodrigues R.Towards trusted cloud computing[C]//Proceedings of HotCloud 2009.San Diego,CA,USA:[s.n.],2009.

[10]Li Wei,Chen C X.Efficient Data Modeling and Querying Systemfor Multi—dimensional Spatial Data[C]//Proceedings of ACM GIS.Irvine,CA,USA:ACM,2008.

[11]Porter G,UC San Diego,La Jolla.Decoupling Storage and Computation in Hadoop with SuperDataNodes[J].ACM SIGOPSOperating System Review,2010,44(2):41-46.

[12]Raj H,NathujiR,Singh A,etal.Resourcemanagement for isolation enhanced cloud services[C]//Proceedings of the 2009 ACM Workshop on Cloud Computing Security.New York:ACM,2009:77-84.

SONG Jun was born in Suining,Sichuan Province,in 1972.He received the M.S.degree in 2002.He is now a system analyst.

Email:songjun@china.com

祝林(1970—),男,四川射洪人,1994年獲工學碩士學位,現為副教授。

ZHU Lin was born in Shehong,Sichuan Province,in 1970.He received the M.S.degree in 1994.He is now an associate professor.

M ass Data Processing Platform Design and Im plementation Based on Cloud Com puting

SONG Jun1,ZHU Lin2
(1.Southwest China Institute of Electronic Technology,Chengdu 610036,China;2.Sichuan Vovational and Technical College,Suining 629000,China)

According to the shortcomings of themassive data processingmethods based on traditional parallel processing techniques in practical applications,by using the powerful computing abilities and effcientways ofmass data processing of cloud computing,and taking the advantages of real-time access to relational databases,a cloud computing platform formass data processing based on the Hadoop distributed computing framework and Map-Reducemodel is developed.Practice shows that the system proposed is superior to the traditional parallel processing techniques in computing ability,stability,scalability,etc.,and what′smore,it can effectively solve the concurrent access tomass data simultaneously.

cloud computing;mass data;hadoop distributed computing;parallel processing technique

TP391

A

10.3969/j.issn.1001-893x.2012.04.029

宋均(1972—),男,四川遂寧人,2002年獲工程碩士學位,現為系統分析師;

1001-893X(2012)04-0566-05

2011-11-11;

2012-03-26

猜你喜歡
數據處理計算能力系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
淺談如何提高小學生的計算能力
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
小學生計算能力的提高策略
甘肅教育(2021年10期)2021-11-02 06:14:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
小學生計算能力的培養
甘肅教育(2020年21期)2020-04-13 08:08:42
淺談小學生計算能力的培養
數學大世界(2018年1期)2018-04-12 05:39:02
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 四虎永久在线视频| 青青操视频免费观看| 四虎影视库国产精品一区| 国产爽爽视频| 日本手机在线视频| 国产成人8x视频一区二区| 国内精品九九久久久精品| 亚洲黄色片免费看| 青青操国产视频| 亚洲三级a| 好久久免费视频高清| 欧洲一区二区三区无码| 欧美午夜视频| 萌白酱国产一区二区| 91小视频在线播放| 亚洲欧美日韩中文字幕在线| 亚洲欧美综合另类图片小说区| jizz亚洲高清在线观看| 欧洲成人在线观看| 国产精品久久国产精麻豆99网站| 国产中文一区a级毛片视频| 热99精品视频| 亚洲精品高清视频| 国产白浆在线| 国产精品嫩草影院视频| 国产高潮流白浆视频| 国产乱视频网站| 国产成人AV男人的天堂| 国产制服丝袜无码视频| 十八禁美女裸体网站| 超碰91免费人妻| 欧美一道本| 国产精品亚洲片在线va| 久久99国产视频| 亚洲美女高潮久久久久久久| 福利一区在线| 亚洲三级色| 国产91高清视频| 久久国产黑丝袜视频| 国产精欧美一区二区三区| 久久96热在精品国产高清| 亚洲水蜜桃久久综合网站| 国产欧美日韩va另类在线播放| a色毛片免费视频| 亚洲综合片| 亚洲成年人片| 国产精品私拍在线爆乳| 国产成人精彩在线视频50| 亚洲日韩AV无码一区二区三区人 | 91啦中文字幕| 国产日本一线在线观看免费| 国产尤物在线播放| aaa国产一级毛片| 不卡色老大久久综合网| 欧美日本在线| 免费高清毛片| 99伊人精品| 8090午夜无码专区| 1024你懂的国产精品| 色悠久久久久久久综合网伊人| 亚洲成人网在线播放| a网站在线观看| 国产精品永久久久久| 99久久性生片| 国模视频一区二区| 中文字幕日韩视频欧美一区| 国产精品2| 欧美日韩第二页| 手机成人午夜在线视频| 在线永久免费观看的毛片| 久久久国产精品无码专区| 亚洲AV人人澡人人双人| 亚洲清纯自偷自拍另类专区| 成人免费一区二区三区| 欧美精品伊人久久| 91麻豆精品国产高清在线| 99无码中文字幕视频| 不卡无码h在线观看| 亚洲国产成人精品无码区性色| 在线欧美一区| 久久国产成人精品国产成人亚洲| 亚洲床戏一区|