王磊 張真南京云創(chuàng)大數(shù)據(jù)科技股份有限公司
?
實(shí)時(shí)云計(jì)算數(shù)據(jù)庫(kù)-數(shù)據(jù)立方
王磊 張真
南京云創(chuàng)大數(shù)據(jù)科技股份有限公司
摘要:現(xiàn)階段,云計(jì)算技術(shù)的快速發(fā)展和大范圍應(yīng)用,為眾多行業(yè)帶來(lái)了新的發(fā)展機(jī)遇。在大數(shù)據(jù)計(jì)算和存儲(chǔ)方面,被稱(chēng)為是數(shù)據(jù)立方的大數(shù)據(jù)處理系統(tǒng)在數(shù)據(jù)的入庫(kù)、查詢(xún)以及擴(kuò)展等方面具有一系列獨(dú)特的優(yōu)勢(shì)。
關(guān)鍵字:實(shí)時(shí) 云計(jì)算 數(shù)據(jù)立方
在互聯(lián)網(wǎng)技術(shù)的帶動(dòng)下,社會(huì)各行各領(lǐng)域所產(chǎn)生的數(shù)據(jù)量增長(zhǎng)速度明顯加快,這些數(shù)據(jù)涉及到的內(nèi)容也多種多樣,十分復(fù)雜,這就在很大程度上加大了數(shù)據(jù)的處理難度,采用傳統(tǒng)的系統(tǒng)處理技術(shù)已遠(yuǎn)遠(yuǎn)跟不上技術(shù)發(fā)展的趨勢(shì),云計(jì)算計(jì)算模式便應(yīng)運(yùn)而生,基于目前及近未來(lái)的技術(shù)和產(chǎn)業(yè)發(fā)展方向,它的產(chǎn)生具有重要的時(shí)代性意義。
1.1MapReduce技術(shù)形式分析
這種技術(shù)形式的內(nèi)部計(jì)算結(jié)構(gòu)主要是由兩個(gè)函數(shù)來(lái)實(shí)現(xiàn)的,即Map和Reduce。在它的程序功能中,會(huì)把得到的大數(shù)據(jù)進(jìn)行逐一分層和分解,分解之后再由Map函數(shù)進(jìn)行處理,最后Reduce函數(shù)再對(duì)分解之后的多種任務(wù)處理所得到的結(jié)果進(jìn)行一個(gè)針對(duì)性的匯聚。從它的實(shí)際應(yīng)用來(lái)看,它所適用的處理范圍一般是需要將大范圍數(shù)據(jù)集進(jìn)行細(xì)化處理的,而且細(xì)化之后的小數(shù)據(jù)集又是可以進(jìn)行結(jié)構(gòu)意義上的完整化處理的。
1.2并行數(shù)據(jù)庫(kù)技術(shù)
從并行數(shù)據(jù)庫(kù)的結(jié)構(gòu)構(gòu)成來(lái)看,它主要可以分為兩種基本存儲(chǔ)架構(gòu),即無(wú)共享架構(gòu)和磁盤(pán)共享存儲(chǔ)結(jié)構(gòu)。如果單從技術(shù)角度來(lái)對(duì)兩種架構(gòu)進(jìn)行分析的話(huà),并不能取得完整的分析結(jié)果,這兩種架構(gòu)雖然在內(nèi)部組成上各有差異,但是在作用的體現(xiàn)上是不相上下的。我們可以借助Shared——nothing系統(tǒng)來(lái)分析,在這個(gè)系統(tǒng)下,所有的數(shù)據(jù)集都是已細(xì)化后存在的,通常情況下,在這個(gè)系統(tǒng)的作用下,它是可以發(fā)揮出自身的良好計(jì)算性能的。但是不可忽視的是,它也存在著多個(gè)節(jié)點(diǎn)事務(wù)處理、數(shù)據(jù)傳輸以及數(shù)據(jù)傾斜等的問(wèn)題[1],而且它的任何一個(gè)節(jié)點(diǎn)都是可以對(duì)系統(tǒng)中的所有磁盤(pán)進(jìn)行訪(fǎng)問(wèn)和寫(xiě)入的,這就可以在很大程度上避免數(shù)據(jù)出現(xiàn)傾斜問(wèn)題。
1.3云計(jì)算和數(shù)據(jù)庫(kù)相融合技術(shù)
從現(xiàn)有的技術(shù)形式來(lái)講,我們常說(shuō)的和數(shù)據(jù)庫(kù)相融合的云計(jì)算技術(shù)主要指的是MapReduce技術(shù)。我們以HadoopDB為分析對(duì)象,它的系統(tǒng)有嚴(yán)明的區(qū)分,共有兩層部分,上層的分解和調(diào)度是以Hadoop為主的,下層部分是以RDBMS來(lái)完成對(duì)數(shù)據(jù)的檢查和計(jì)算的,從它的實(shí)際查詢(xún)流程來(lái)看,它所執(zhí)行的命令是SQL to MapReduce to SQL操作流程,這個(gè)操作流程也是具有明顯技術(shù)性的。對(duì)于它的性能試驗(yàn),相對(duì)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)來(lái)說(shuō),還存在有一定差距,那么如何在技術(shù)角度進(jìn)一步提升MapReduce性能,就成為了未來(lái)發(fā)展需要解決的重點(diǎn)問(wèn)題之一,要采取有效措施來(lái)使其性能得到了明顯改善。
從它的產(chǎn)生歷程來(lái)看,它的產(chǎn)生是離不開(kāi)對(duì)MapReduce技術(shù)和并行數(shù)據(jù)庫(kù)兩者的研究的,兩者是其產(chǎn)生的重要輔助。它是通過(guò)引入額外的新型索引模塊技術(shù)并加以利用,進(jìn)而配合并行數(shù)據(jù)庫(kù)來(lái)保證檢索的高效性、簡(jiǎn)單性和安全性。
2.1體系結(jié)構(gòu)闡述
從結(jié)構(gòu)構(gòu)成方面來(lái)講,數(shù)據(jù)立方的結(jié)構(gòu)可以劃分為以下幾個(gè)重點(diǎn)部分,即用戶(hù)接口、索引、SQL解析器、作業(yè)生成器以及元數(shù)據(jù)管理等五部分。按照它的功能發(fā)揮和體現(xiàn)來(lái)分析,它的用戶(hù)結(jié)構(gòu)主要有兩個(gè),即JDBC和Shell,前者主要是針對(duì)于數(shù)據(jù)的定義操作來(lái)講的,并且還可以完成對(duì)數(shù)據(jù)查詢(xún)的SQL語(yǔ)句的查詢(xún),后者主要支持的是數(shù)據(jù)庫(kù)、表的增減以及查詢(xún)的SQL語(yǔ)句。此外,數(shù)據(jù)立方還可以用HDFS或cStor等云存儲(chǔ)文件系統(tǒng)來(lái)作為其底層存儲(chǔ)系統(tǒng)。
2.2分布式的并行計(jì)算架構(gòu)
立足于分布式的結(jié)構(gòu)構(gòu)成角度來(lái)分析,它的分布架構(gòu)在實(shí)質(zhì)上是一種典型的主動(dòng)形式的分布結(jié)構(gòu)。主Master和從Master在具體部署上,分布在HDFS或cStor云存儲(chǔ)的主從NameNode物理節(jié)點(diǎn)上,而Slave部署在DataNode物理節(jié)點(diǎn)上,主從Master采用的是Zookeeper完成同步,并且能夠?qū)ο到y(tǒng)的日志進(jìn)行分享[2]。
2.3分布式索引體系
在原生的MapReduce技術(shù)體系下,它的所有查詢(xún)活動(dòng)都是通過(guò)直接形式,來(lái)從分布式文件系統(tǒng)中對(duì)原始數(shù)據(jù)進(jìn)行讀取實(shí)現(xiàn)的;相比較而言,數(shù)據(jù)立方技術(shù)體系則是引入了一種高效的分布式索引機(jī)制,它的數(shù)據(jù)文件和索引文件都是直接存放在分布式文件系統(tǒng)中。
通過(guò)上述的分析可知,在云計(jì)算技術(shù)得到大范圍應(yīng)用的今天,針對(duì)海量數(shù)據(jù)實(shí)現(xiàn)效處理任務(wù)的解決方案和技術(shù)研發(fā)成為了行業(yè)發(fā)展的重點(diǎn),實(shí)時(shí)云計(jì)算數(shù)據(jù)庫(kù)作為一種新型的大數(shù)據(jù)處理技術(shù),具有重要的應(yīng)用意義。文中在簡(jiǎn)單介紹的同時(shí)也對(duì)大數(shù)據(jù)處理技術(shù)的相關(guān)內(nèi)容進(jìn)行了分析,并在此基礎(chǔ)上對(duì)數(shù)據(jù)立方的優(yōu)勢(shì)進(jìn)行了簡(jiǎn)要說(shuō)明。
參考文獻(xiàn)
[1]劉小琦.云計(jì)算數(shù)據(jù)庫(kù)在海量用電信息采集系統(tǒng)的應(yīng)用研究[J].軟件工程師,2015,(12):9-10.
[2]宋振偉.云實(shí)時(shí)數(shù)據(jù)庫(kù)在用電信息采集系統(tǒng)中的應(yīng)用[J].中國(guó)電力教育:下,2014,(3):263-265.
基金項(xiàng)目
本研究得到了國(guó)家科技支撐計(jì)劃課題任務(wù)“基于云計(jì)算平臺(tái)的OTT智能終端應(yīng)用示范”(項(xiàng)目編號(hào)2012BAH57F00,課題編號(hào)2012BAH57F01)的資助。