李薇
摘要:大數(shù)據(jù)是信息化時代的產(chǎn)物,因此其發(fā)展離不開云計算的大力支持。大數(shù)據(jù)的特征顯著,包括數(shù)據(jù)處理效率高、數(shù)據(jù)類型多樣化等。本文主要以大數(shù)據(jù)特征和應(yīng)用作為出發(fā)點,分析了大數(shù)據(jù)與云計算的關(guān)系,并在此基礎(chǔ)之上從挖掘技術(shù)、可視化技術(shù)等方面探討了基于云計算的大數(shù)據(jù)處理技術(shù),以期為相關(guān)行業(yè)人員提供一些參考和意見。
關(guān)鍵詞:云計算;大數(shù)據(jù);大數(shù)據(jù)處理
中圖分類號:TP274 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)08-0218-02
隨著社會經(jīng)濟(jì)的發(fā)展以及網(wǎng)絡(luò)技術(shù)的進(jìn)步,人們獲取信息資源的渠道得以拓寬、獲取信息的方式更加靈活性。與此同時,信息種類的繁多以及信息傳播的高效性也對現(xiàn)有數(shù)據(jù)處理模式和數(shù)據(jù)處理體系提出了更高的要求。依據(jù)大數(shù)據(jù)摩爾定律,數(shù)據(jù)規(guī)模和數(shù)量將呈逐年擴(kuò)大趨勢,預(yù)計2020年,世界數(shù)據(jù)量將超過35億GB。由此可見,當(dāng)前社會已進(jìn)入“信息大爆炸”和大數(shù)據(jù)時代。加之云技術(shù)的興起與發(fā)展,改變了傳統(tǒng)數(shù)據(jù)處理方式,促使數(shù)據(jù)處理方式向高效、智能化、信息化方向發(fā)展。如何利用云計算技術(shù)實現(xiàn)數(shù)據(jù)的高效處理,已成為當(dāng)今社會各界關(guān)注的焦點問題之一。
1 大數(shù)據(jù)概述
1.1 特征
在計算機(jī)領(lǐng)域,大數(shù)據(jù)特征較為多樣化。具體而言,表現(xiàn)在五方面。其一,龐大性。其二,豐富性。其三,價值型。其四,高速性。其五,準(zhǔn)確性。不同業(yè)界均認(rèn)為:加強(qiáng)對大數(shù)據(jù)的研究,既可以提高數(shù)據(jù)的準(zhǔn)確性,又可以促使國家經(jīng)濟(jì)的發(fā)展。與此同時,在大數(shù)據(jù)時代和云計算環(huán)境下,與一般數(shù)據(jù)容量相比,大數(shù)據(jù)容量較大。
1.2 應(yīng)用
大數(shù)據(jù)的應(yīng)用包括三個架構(gòu)。第一,融合式架構(gòu)。所謂融合式架構(gòu)是指整合數(shù)據(jù)信息之后,對數(shù)據(jù)進(jìn)行科學(xué)處理。這樣可以提高數(shù)據(jù)的整合效率。此種模式為用戶模式,又稱之為服務(wù)器模式。服務(wù)器主要負(fù)責(zé)方案的管理。第二,分散式架構(gòu)。此種架構(gòu)模式可以控制客戶端數(shù)據(jù)信息。控制模塊具有多樣性,不同控制模塊的控制對象不同,將其分布在不同客戶端中,能夠起到自我調(diào)整和控制內(nèi)部系統(tǒng)的作用。由此可見,此種架構(gòu)模式的安全性較高,且具有較強(qiáng)的靈活性。但是也存在的一定的缺陷,即數(shù)據(jù)維護(hù)成本較高、用戶注冊時會出現(xiàn)諸多提示性問題。第三,混合式架構(gòu)。此種架構(gòu)模式綜合了前面兩種架構(gòu)模式的優(yōu)點。無論是數(shù)據(jù)的分發(fā)還是數(shù)據(jù)的傳播,都需要依靠服務(wù)器完成。用戶要想實現(xiàn)數(shù)據(jù)的交互,則需要借助客戶端完成。
2 云計算和大數(shù)據(jù)的關(guān)系
就云計算的功能而言,其顯著功能為處理虛擬化資源。云計算與互聯(lián)網(wǎng)的有效結(jié)合,不僅能夠大大提高數(shù)據(jù)運(yùn)算能力,還可以實現(xiàn)資源共享。云計算的服務(wù)器與互聯(lián)網(wǎng)各種交付模式的整合,能夠在實現(xiàn)資源優(yōu)化配置的同時降低數(shù)據(jù)運(yùn)算任務(wù)量。就云計算特點而言,主要包括五方面:其一,虛擬性(最根本特點);其二,擴(kuò)展性;其三,可靠性;其四,高規(guī)模性;其五,通用性。利用云計算展開數(shù)據(jù)運(yùn)算,可以對數(shù)據(jù)信息進(jìn)行虛擬化。相對而言,運(yùn)算機(jī)的一大優(yōu)勢是可以提供數(shù)據(jù)的容錯性措施。并且,用戶可以結(jié)合自身實際要求與需求設(shè)置其規(guī)模,并展開動態(tài)性管理。在不同的行業(yè)領(lǐng)域,均可以通過云計算實現(xiàn)數(shù)據(jù)的計算、數(shù)據(jù)的應(yīng)用。因此,用戶的應(yīng)用成本降低、獲取信息的方式更加靈活。
3 大數(shù)據(jù)處理技術(shù)
3.1 Hadoop、Open Stack 技術(shù)
Hadoop屬于一種分布式架構(gòu)。此種架構(gòu)適用于數(shù)據(jù)容量較大的情況,依據(jù)Hadoop高吞吐量特征,能夠?qū)崿F(xiàn)對數(shù)據(jù)的及時處理,進(jìn)而提高數(shù)據(jù)處理效率。另外,Hadoop可以實現(xiàn)對多個數(shù)據(jù)副本進(jìn)行維護(hù)、再次布局和操作失敗的操作。就其數(shù)據(jù)處理方式而言,主要以并行方式為主。此種處理方式具有成本低、便利性大等優(yōu)勢。Open Stack屬于分布式平臺。平臺優(yōu)勢在于包含的組件較多、支持范圍廣。其中,就Open Stack平臺模塊而言,主要包括兩種,一是NOVA 模塊,二是 Swift 模塊。Hadoop與Open Stack的結(jié)合,既可以提高資源的利用率,又可以提高數(shù)據(jù)的處理效率。
3.2 存儲技術(shù)
就數(shù)據(jù)信息的特征而言,其顯著特征包括兩點。其一,分散性。其二,龐大性。在處理數(shù)據(jù)信息過程中,假設(shè)采用傳統(tǒng)的存儲技術(shù),不僅無法滿足大數(shù)據(jù)存儲要求,還會降低數(shù)據(jù)計算效率。現(xiàn)階段,隨著社會的不斷發(fā)展,數(shù)據(jù)信息量日益增加。無論是傳統(tǒng)數(shù)據(jù)存儲技術(shù)還是數(shù)據(jù)存儲庫,都無法滿足大數(shù)據(jù)容量需求。而利用計算機(jī)展開數(shù)據(jù)存儲和計算,能夠通過列式存儲方式,實現(xiàn)對龐大的數(shù)據(jù)信息進(jìn)行分割,進(jìn)而將分割之后的數(shù)據(jù)進(jìn)行單獨(dú)存儲。在數(shù)據(jù)投影時,云計算可以在較快時間內(nèi)找到所需數(shù)據(jù)信息,這樣既可以有效彌補(bǔ)傳統(tǒng)數(shù)據(jù)處理方式的不足與缺陷,又可以大大提高數(shù)據(jù)存儲和處理效率。與此同時,在列式存儲中,相鄰數(shù)據(jù)的相似性極高。這在一定程度上可以減少數(shù)據(jù)存儲空間。
3.3 挖掘技術(shù)
通常情況下,實現(xiàn)數(shù)據(jù)挖掘不僅需要對數(shù)據(jù)進(jìn)行收集與清理,還需要完成數(shù)據(jù)集成操作。采用云計算下的聯(lián)機(jī)分析方式可以縱觀整個數(shù)據(jù),并站在全方位、多角度剖析數(shù)據(jù)。在此基礎(chǔ)之上,采用聯(lián)機(jī)分析方式能夠?qū)崟r在數(shù)據(jù)庫中挖掘內(nèi)在數(shù)據(jù),并對挖掘之后的數(shù)據(jù)進(jìn)行模擬化表示。就挖掘技術(shù)的優(yōu)勢而言,包括提高數(shù)據(jù)處理效率、實現(xiàn)對數(shù)據(jù)模塊的分配布局、善于解決并行任務(wù)等。同時,挖掘技術(shù)在很多行業(yè)都是非常適用的,比如電子商務(wù)、物流等等行業(yè),通過數(shù)據(jù)挖掘技術(shù)可以提供相關(guān)業(yè)務(wù)的精確性和針對性。
3.4 可視化技術(shù)
此種技術(shù)可以凸顯數(shù)據(jù)的直觀性,并為用戶自身操作數(shù)據(jù)提供便利。所謂可視化技術(shù)是指利用圖形學(xué)或者圖像表示數(shù)據(jù),最終向用戶展現(xiàn)一種交互技術(shù)。依靠圖形化的原則,探索相對較為復(fù)雜的數(shù)據(jù),可以明顯發(fā)現(xiàn)其中的不同之處。除此之外,采用此種技術(shù)可以分析數(shù)據(jù)的表面、實現(xiàn)數(shù)據(jù)的多維度表示。當(dāng)用戶在檢索數(shù)據(jù)信息過程中,可以利用可視化技術(shù)提高數(shù)據(jù)檢索效率。endprint
4 云計算下大數(shù)據(jù)廉價計算平臺
4.1 大規(guī)模廉價計算平臺
大規(guī)模計算平臺,即運(yùn)用現(xiàn)代信息技術(shù)對數(shù)據(jù)進(jìn)行安排,這種安排辦法一般是在臺式電腦、筆記本電腦、液晶電腦等PC機(jī)上進(jìn)行平臺搭建,這個平臺具有動態(tài)、高效、便于拓展等優(yōu)勢,具有十分強(qiáng)大的實用性。常規(guī)辦法是把云計算和Hadoop技術(shù)同編程技術(shù)進(jìn)行整合。在整合之間,便可以對大數(shù)據(jù)進(jìn)行一定程度的分類,這樣分類以后,有利于對數(shù)據(jù)中各個子集的采集、安排更加明確,使得數(shù)據(jù)通過這種分類安排變得清晰明了。
大規(guī)模計算平臺是將虛擬技術(shù)運(yùn)用到PC機(jī)上完成各種各樣的應(yīng)用,這種應(yīng)用有利于利用閑置平臺采集資源。例如對虛擬服務(wù)器Ui和Uj(i可以任意取值),可以針對單獨(dú)數(shù)據(jù)實現(xiàn)安排。要使得這一系統(tǒng)得到實現(xiàn),就需要對各種資源進(jìn)行集合、整理。在這一系統(tǒng)的控制當(dāng)中需要對節(jié)點資源池進(jìn)行管理,這種管理分為幾個步驟進(jìn)行。這其中有一個基礎(chǔ),便是計算機(jī)節(jié)點的激活,它需要在PC機(jī)上對數(shù)據(jù)進(jìn)行安排和分配,并對此做相應(yīng)計算和資源存儲安排,緊接著,將安排好的計算流程與資源分別進(jìn)行處理,這樣安排以后,才能激活計算節(jié)點。
4.2 大數(shù)據(jù)處理計算流程概述
在大規(guī)模廉價計算平臺的具體操作過程中,最為重要的板塊就是計算流程的設(shè)計,計算流程的設(shè)計關(guān)系到資源能否順利存儲。因而在此單獨(dú)作為一個項目提出。以電信的資源處理流程為例,電信每天都需要處理成千上萬資源,這些資源若沒有按照計算流程進(jìn)行保存將十分混亂。因此,電信的計算流程分成了幾個步驟進(jìn)行,每個步驟都有細(xì)致的數(shù)據(jù)工作流程。它具體是由:數(shù)據(jù)分析板塊、消費(fèi)查詢板塊、性能監(jiān)控板塊三個板塊組成。這三個板塊每一個都具有詳細(xì)的處理過程。因此,在處理大數(shù)據(jù)時,要建立相應(yīng)流程可以通過細(xì)化分配來完成。
4.3 實現(xiàn)大規(guī)模安排的步驟
要實現(xiàn)大規(guī)模數(shù)據(jù)核心數(shù)據(jù)安排,就需要對數(shù)據(jù)虛擬化的辦法實施有效安排。具體步驟為:
第一,對數(shù)據(jù)資源進(jìn)行整合。在進(jìn)行數(shù)據(jù)虛擬化時必須要提前利用電腦進(jìn)行數(shù)據(jù)資源的安排,進(jìn)行實際操作的電腦有兩種。一種是為進(jìn)行資源提供的電腦,另一種是具有計算流程的電腦。這個步驟主要是對資源進(jìn)行收集和保存,并對保存的資源通過確定流程進(jìn)行計算。
第二,對第一步所得出的結(jié)果進(jìn)一步處理,并做好下一流程安排。
第三,將第二步處理結(jié)果與相關(guān)文件結(jié)合,即在此要對該節(jié)點和資源進(jìn)行一定程度的管理。
第四,要將實施操作的各個部分(程序、保存空間、網(wǎng)絡(luò)等)實施管理。管理過程中使用的相關(guān)工具要同時開始安排節(jié)點、流程,當(dāng)一切就位以后方可以進(jìn)行方案。
第五,一切準(zhǔn)備就緒,計算機(jī)流程開始。
第六,激活計算、存儲資源分配的計算流程。
5 結(jié)語
大數(shù)據(jù)容量的擴(kuò)大,需要借助云計算技術(shù)實現(xiàn)數(shù)據(jù)的及時處理與解決。加之云計算技術(shù)的日益成熟,可以為用戶提供更多可視化大數(shù)據(jù)應(yīng)用軟件。當(dāng)前,云計算作為一種全新的數(shù)據(jù)處理模式,無論是在搜集大數(shù)據(jù)方面還是在計算大數(shù)據(jù)方面,都為期提供了較大的便利。云計算與大數(shù)據(jù)的綜合,既可以有效發(fā)揮云計算的優(yōu)勢,又可以提高數(shù)據(jù)處理效率,并在一定程度上推動云計算技術(shù)的發(fā)展。
參考文獻(xiàn)
[1]張焰,李楊.用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術(shù)[J].中國新通信,2015,17(04):87-88.
[2]龔旭.基于云計算的大數(shù)據(jù)處理技術(shù)探討[J].電子技術(shù)與軟件工程,2015,(10):198.
[3]李曉飛.基于云計算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長春工程學(xué)院學(xué)報(自然科學(xué)版),2014,15(01):116-118+125.endprint