徐建紅
(山東經(jīng)貿(mào)職業(yè)學(xué)院,山東 濰坊 261011)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源是企業(yè)發(fā)展中不能忽視的重要資源之一,企業(yè)通過構(gòu)建大數(shù)據(jù)分析系統(tǒng),可以更好地掌握行業(yè)數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)信息的規(guī)律和潛在信息等,為促進(jìn)企業(yè)決策和發(fā)展戰(zhàn)略制定提供必要依據(jù)。在構(gòu)建大數(shù)據(jù)分析系統(tǒng)中,云計(jì)算技術(shù)也是重要的組成部分,這一技術(shù)的有效應(yīng)用,對(duì)于優(yōu)化系統(tǒng)設(shè)計(jì)、提升系統(tǒng)性能等都具有重要作用。
云計(jì)算技術(shù)應(yīng)用中,需要借助相關(guān)硬軟件資源支持,結(jié)合客戶的具體需要,在多個(gè)端口以及規(guī)格應(yīng)用,為客戶提供服務(wù)[1]。在云計(jì)算技術(shù)應(yīng)用過程中,搭建云平臺(tái)是基礎(chǔ)工作,這是支撐平臺(tái)運(yùn)作的前提,可以幫助獲取大量的信息資源,進(jìn)行業(yè)務(wù)計(jì)算等,還可以進(jìn)行數(shù)據(jù)存儲(chǔ),借助云平臺(tái)對(duì)相關(guān)數(shù)據(jù)開展計(jì)算,結(jié)合客戶需求快速為客戶獲取資源提供支持。考慮到不同客戶的需求存在一定差異,云平臺(tái)能夠?yàn)榭蛻籼峁?duì)應(yīng)服務(wù),具體的服務(wù)模式也能體現(xiàn)云計(jì)算技術(shù)的應(yīng)用價(jià)值。云計(jì)算技術(shù)的出現(xiàn)提升了客戶的業(yè)務(wù)辦理效率[2]。公司借助云平臺(tái),可以避免針對(duì)某個(gè)具體業(yè)務(wù)發(fā)展購(gòu)置相關(guān)配置,不需要單獨(dú)構(gòu)建數(shù)據(jù)庫(kù)和機(jī)房等,客戶只需要表達(dá)自己的需求,就實(shí)現(xiàn)數(shù)據(jù)處理效率的顯著提升。
1.2.1 可視化
基于云計(jì)算構(gòu)建大數(shù)據(jù)分析系統(tǒng),可以確保實(shí)現(xiàn)信息處理中的可視化目標(biāo)。以此為基礎(chǔ)形成的重要因素也是大數(shù)據(jù)分析的重要前提和基礎(chǔ)。大數(shù)據(jù)分析結(jié)果需要結(jié)合云計(jì)算可視化功能,確保數(shù)據(jù)分析者可以有效地進(jìn)行數(shù)據(jù)分析,確保大數(shù)據(jù)可以實(shí)現(xiàn)分析判斷,提升數(shù)據(jù)處理水平和效率[3]。
1.2.2 數(shù)據(jù)挖掘算法
這種算法能夠?yàn)橛?jì)算處理系統(tǒng)提供數(shù)據(jù)信息,協(xié)助實(shí)現(xiàn)數(shù)據(jù)挖掘的終極目標(biāo)。云計(jì)算能夠?yàn)閿?shù)據(jù)處理分析提供有效的分割、集群、孤立點(diǎn)、運(yùn)算方式等服務(wù),促進(jìn)計(jì)算系統(tǒng)有效開展數(shù)據(jù)挖掘[4]。在數(shù)據(jù)挖掘中,還需要做好海量數(shù)據(jù)處理,提升數(shù)據(jù)快速處理能力,確保及時(shí)挖掘出數(shù)據(jù)的潛在價(jià)值。
1.2.3 預(yù)測(cè)分析能力
針對(duì)挖掘得出的結(jié)果,云計(jì)算能夠滿足預(yù)測(cè)分析功能實(shí)現(xiàn)需求,相關(guān)數(shù)據(jù)分析人員可以在此過程中形成分析結(jié)果和處理方式的系統(tǒng)范式,基于可視化結(jié)果以及數(shù)據(jù)挖掘技術(shù)支持,理性分析能夠促進(jìn)數(shù)據(jù)分析,實(shí)現(xiàn)對(duì)未來(lái)決策的有效判斷。
要進(jìn)行大數(shù)據(jù)處理系統(tǒng)應(yīng)用,必須把握其不同系統(tǒng)結(jié)構(gòu)。
第一,融合式機(jī)構(gòu)[5]。這種結(jié)構(gòu)主要是客戶機(jī)/服務(wù)器架構(gòu)模式,相關(guān)服務(wù)器主要是對(duì)于系統(tǒng)管理以及控制進(jìn)行相關(guān)邏輯處理和數(shù)據(jù)調(diào)度。客戶端則是實(shí)現(xiàn)人機(jī)交互,在用戶想要進(jìn)行數(shù)據(jù)分析時(shí),可以及時(shí)向服務(wù)器傳輸指令,服務(wù)器完成處理后將信息返回到客戶端。這種融合式的大數(shù)據(jù)處理架構(gòu),整體結(jié)構(gòu)比較簡(jiǎn)單,方便維護(hù)管理,但是缺點(diǎn)是服務(wù)器功能的依賴性比較強(qiáng),會(huì)限制數(shù)據(jù)處理系統(tǒng)應(yīng)用。
第二,分散式架構(gòu)。這種結(jié)構(gòu)的優(yōu)勢(shì)是能夠?qū)崿F(xiàn)協(xié)同控制,確保節(jié)點(diǎn)平等,在處理系統(tǒng)的控制和管理模塊中,能夠?qū)崿F(xiàn)在相應(yīng)客戶端的分散。這種結(jié)構(gòu)中的客戶端具有很強(qiáng)的自治性、靈活性、通用性以及可拓展性。不過因?yàn)閿?shù)據(jù)是以分布式為存儲(chǔ)和分布操作的,所以這種結(jié)構(gòu)中,系統(tǒng)維護(hù)難度大,且節(jié)點(diǎn)之間實(shí)時(shí)同步以及用戶動(dòng)態(tài)注冊(cè)應(yīng)用也很難確保有效開展[6]。
第三,混合式結(jié)構(gòu)。這一系統(tǒng)結(jié)構(gòu)具備上述兩種結(jié)構(gòu)的優(yōu)勢(shì),系統(tǒng)借助服務(wù)器對(duì)數(shù)據(jù)信息實(shí)施統(tǒng)一維護(hù),客戶端可以進(jìn)行信息傳輸,也能夠和用戶在相關(guān)方面實(shí)現(xiàn)交互,可以有效地緩解服務(wù)器端的壓力,消除服務(wù)器端發(fā)展面臨的阻礙,促進(jìn)系統(tǒng)靈活性和魯棒性的顯著提高。
如目前在企業(yè)大數(shù)據(jù)分析中應(yīng)用比較多的D-EYE大數(shù)據(jù)分析平臺(tái)。D-EYE大數(shù)據(jù)分析平臺(tái)是以大數(shù)據(jù)平臺(tái)為基礎(chǔ),對(duì)IP網(wǎng)數(shù)據(jù)(移動(dòng)網(wǎng)、固網(wǎng))和客戶歷史重要數(shù)據(jù)、外部導(dǎo)入數(shù)據(jù)等進(jìn)行智能挖掘分析和關(guān)聯(lián),為客戶提供智能化高收益的行業(yè)完整解決方案。該系統(tǒng)通過線索的發(fā)現(xiàn)、追溯、復(fù)原及綜合分析手段可以從海量數(shù)據(jù)中“快、準(zhǔn)、全”地挖掘用戶最想要的高價(jià)值業(yè)務(wù)線索。D-EYE大數(shù)據(jù)分析平臺(tái)整體分為4層架構(gòu),分別是數(shù)據(jù)采集層、數(shù)據(jù)平臺(tái)層、應(yīng)用支撐層和業(yè)務(wù)應(yīng)用層。通過實(shí)時(shí)和離線采集固定網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò)、網(wǎng)絡(luò)流量采集數(shù)據(jù)及第三方數(shù)據(jù),D-EYE大數(shù)據(jù)分析平臺(tái)可利用地理信息引擎、建模引擎、標(biāo)簽引擎、人工智能的動(dòng)態(tài)知識(shí)圖譜、自然語(yǔ)言處理引擎、語(yǔ)音圖像識(shí)別引擎等方式,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,為客戶提供決策支持。
2.2.1 數(shù)據(jù)采集技術(shù)應(yīng)用
在企業(yè)大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)中,數(shù)據(jù)采集是實(shí)現(xiàn)大數(shù)據(jù)分析處理的前提和基礎(chǔ),只有確保采集的企業(yè)相關(guān)數(shù)據(jù)信息資源足夠全面、多樣,才能夠確保數(shù)據(jù)分析結(jié)果準(zhǔn)確可靠[7]。企業(yè)管理中的數(shù)據(jù)類型呈現(xiàn)多樣性,包含企業(yè)基礎(chǔ)信息、行業(yè)數(shù)據(jù)、營(yíng)銷數(shù)據(jù)、支出數(shù)據(jù)、售后數(shù)據(jù)、客戶數(shù)據(jù)、投訴建議數(shù)據(jù)等,針對(duì)不同類型的數(shù)據(jù)信息,需要構(gòu)建相應(yīng)的數(shù)據(jù)信息庫(kù),這些數(shù)據(jù)信息庫(kù)的構(gòu)建一般是企業(yè)財(cái)務(wù)管理的工作,僅僅是一個(gè)數(shù)據(jù)信息庫(kù),其中包含的企業(yè)管理數(shù)據(jù)表可能多達(dá)幾百個(gè),相關(guān)數(shù)據(jù)也呈現(xiàn)不一樣的特征,例如企業(yè)階段性經(jīng)營(yíng)業(yè)績(jī)數(shù)據(jù)、盈利數(shù)據(jù)等,都是結(jié)構(gòu)化的數(shù)據(jù),而還有一些企業(yè)培訓(xùn)和業(yè)務(wù)拓展產(chǎn)生的數(shù)據(jù)則是非結(jié)構(gòu)化數(shù)據(jù),需要從不同渠道對(duì)相關(guān)數(shù)據(jù)進(jìn)行采集,這對(duì)于提升數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)分析結(jié)果的精準(zhǔn)性和可靠性都十分必要。在數(shù)據(jù)采集中,應(yīng)用傳感器,可以及時(shí)對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行傳輸,確保數(shù)據(jù)及時(shí)采集并有效傳輸?shù)焦潭ㄎ恢茫瑢?shí)現(xiàn)數(shù)據(jù)積累。
2.2.2 數(shù)據(jù)存儲(chǔ)技術(shù)應(yīng)用
現(xiàn)階段,很多企業(yè)對(duì)于內(nèi)部數(shù)據(jù)信息的存儲(chǔ)采用的是服務(wù)器存儲(chǔ)方式,但是這類服務(wù)器在遇到停電等突發(fā)狀況時(shí),數(shù)據(jù)信息很可能面臨丟失的風(fēng)險(xiǎn),雖然有些企業(yè)有備用電源,但是不間斷電源的維持時(shí)間也是有限的,所以不能確保數(shù)據(jù)的萬(wàn)無(wú)一失。在企業(yè)發(fā)展規(guī)模不斷擴(kuò)大的今天,企業(yè)經(jīng)營(yíng)相關(guān)的數(shù)據(jù)量以及數(shù)據(jù)類型越來(lái)越多樣化,數(shù)據(jù)急劇增加,服務(wù)器分散,不能為數(shù)據(jù)處理和共享提供必要支持。而借助大數(shù)據(jù)技術(shù)應(yīng)用,以云架構(gòu)為基礎(chǔ),構(gòu)建分布式的文件系統(tǒng),這樣的系統(tǒng)具備很好的拓展性、冗余性等,能夠滿足海量數(shù)據(jù)存儲(chǔ)和分析的需要,滿足企業(yè)對(duì)于數(shù)據(jù)管理的需要[8]。通過對(duì)企業(yè)重要的數(shù)據(jù)信息進(jìn)行有效存儲(chǔ),為進(jìn)一步的數(shù)據(jù)挖掘提供素材。
2.2.3 數(shù)據(jù)挖掘技術(shù)應(yīng)用
基于云計(jì)算的企業(yè)大數(shù)據(jù)分析系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)是在海量的企業(yè)數(shù)據(jù)中進(jìn)行挖掘,從中分析出數(shù)據(jù)背后隱藏的重要信息,為企業(yè)的生產(chǎn)經(jīng)營(yíng)和發(fā)展決策制定提供必要的依據(jù)。基于云計(jì)算的企業(yè)大數(shù)據(jù)挖掘流程如圖1所示。
圖1 基于云計(jì)算下的企業(yè)大數(shù)據(jù)挖掘流程
可見,通過相關(guān)數(shù)據(jù)在大數(shù)據(jù)分析系統(tǒng)中輸入,借助云計(jì)算技術(shù),實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,最后通過圖形化流程來(lái)建模,得出輸出結(jié)果,這一結(jié)果可以作為企業(yè)決策制定的重要參考依據(jù)。數(shù)據(jù)挖掘技術(shù)是在海量的數(shù)據(jù)處理和分析中,總結(jié)出數(shù)據(jù)的規(guī)律,挖掘出潛在的數(shù)據(jù)信息[9]。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。一般數(shù)據(jù)挖掘任務(wù)包含兩類,一類是描述,一類是預(yù)測(cè)。描述性挖掘任務(wù)是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般特性進(jìn)行挖掘,預(yù)測(cè)性挖掘任務(wù)是基于現(xiàn)有的數(shù)據(jù)規(guī)律進(jìn)行推理,做出預(yù)測(cè)和判斷。所以在數(shù)據(jù)挖掘系統(tǒng)中,要實(shí)現(xiàn)多類型的模式挖掘,適應(yīng)多樣化需要,數(shù)據(jù)挖掘系統(tǒng)需要把握相應(yīng)的粒度模式,為用戶提供必要提示,促進(jìn)挖掘有效性提升。
目前在企業(yè)大數(shù)據(jù)分析系統(tǒng)應(yīng)用中,大數(shù)據(jù)分析技術(shù)還處在對(duì)表面信息的提取上,通過隱性知識(shí)整合對(duì)數(shù)據(jù)倉(cāng)庫(kù)中相關(guān)信息挖掘,將海量信息中隱藏的信息挖掘出來(lái),基于云計(jì)算技術(shù)的大數(shù)據(jù)分析技術(shù)應(yīng)用,構(gòu)建分布式并行技術(shù)系統(tǒng),開展數(shù)據(jù)挖掘,可以實(shí)現(xiàn)在短時(shí)間內(nèi)對(duì)機(jī)器集群進(jìn)行任務(wù)拆分,實(shí)現(xiàn)多臺(tái)空閑設(shè)備同時(shí)進(jìn)行計(jì)算和處理,切實(shí)提升了大數(shù)據(jù)的數(shù)據(jù)處理速度和效率[10]。云計(jì)算能夠?yàn)橄到y(tǒng)數(shù)據(jù)分析提供必要的挖掘模型,相關(guān)技術(shù)人員可以借助映射MAP函數(shù)內(nèi)特定分塊數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)處理,實(shí)現(xiàn)數(shù)據(jù)處理效率的顯著提升,并將和本次數(shù)據(jù)分析中關(guān)系不大的計(jì)算集群及時(shí)排除。
以云計(jì)算技術(shù)為基礎(chǔ),可以為大數(shù)據(jù)分析處理創(chuàng)建一個(gè)可靠的平臺(tái),讓研發(fā)者能夠基于這個(gè)平臺(tái)進(jìn)行相關(guān)技術(shù)和性能開發(fā)。以云計(jì)算為算法構(gòu)建分布式計(jì)算框架,其中包含分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)等功能模塊相關(guān)的完整生態(tài)系統(tǒng),是目前大數(shù)據(jù)處理平臺(tái)中最常見的、也是應(yīng)用最為廣泛的一種方式。在此基礎(chǔ)上,用戶可以編寫處理海量數(shù)據(jù)的分布式并行程序,使其在成千上萬(wàn)的節(jié)點(diǎn)中,組件大規(guī)模計(jì)算機(jī)集群,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的有效分析處理,為企業(yè)的生產(chǎn)經(jīng)營(yíng)決策提供有效的信息參考。目前,很多企業(yè)已經(jīng)意識(shí)到大數(shù)據(jù)技術(shù)在企業(yè)運(yùn)行管理中應(yīng)用的重要性,并積極在管理中引入大數(shù)據(jù)分析系統(tǒng),在這類系統(tǒng)構(gòu)建中,云計(jì)算技術(shù)都是不可缺少的部分,云計(jì)算技術(shù)是基于大數(shù)據(jù)技術(shù)基礎(chǔ)上發(fā)展而來(lái)的,應(yīng)用于大數(shù)據(jù)分析中,具有很好的應(yīng)用成效。