在大數(shù)據(jù)的時(shí)代,企業(yè)需要能對(duì)大量的結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行快速分析的能力,而且相對(duì)傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)通常意味著更大的數(shù)據(jù)量,同時(shí)其可利用價(jià)值要低一些,這就對(duì)大數(shù)據(jù)的分析和處理方法提出了更高的要求。
“大數(shù)據(jù)具有三個(gè)特征,即海量、數(shù)據(jù)結(jié)構(gòu)多樣、數(shù)據(jù)生成速度快,但在目前這個(gè)階段,特別是談到數(shù)據(jù)的分析和利用時(shí),最要緊的還是性能問題。”SAS公司大中國區(qū)咨詢服務(wù)和技術(shù)總監(jiān)姚遠(yuǎn)在接受記者采訪時(shí)告訴記者。
作為專門從事數(shù)據(jù)分析的廠商,SAS對(duì)于數(shù)據(jù)分析引擎遇到的性能瓶頸有著更為切身的體會(huì)。實(shí)際上,這也正是SAS于不久前推出高性能分析產(chǎn)品High-Performance Analytics(HPA)的主要原因之一。SAS的HPA含有一系列可在高度擴(kuò)展、基于內(nèi)存的分布式架構(gòu)中執(zhí)行分析的產(chǎn)品,利用它用戶可以使用過去不可能使用的大量數(shù)據(jù)去研究和模擬各種場景,并顯著提升分析運(yùn)算的處理速度。
據(jù)姚遠(yuǎn)介紹,HPA之所以能克服數(shù)據(jù)分析在性能上的瓶頸,主要得益于其四項(xiàng)關(guān)鍵技術(shù):第一個(gè)是網(wǎng)格計(jì)算,基于它分析引擎可自動(dòng)使用網(wǎng)絡(luò)環(huán)境下集中控制的資源庫,實(shí)現(xiàn)工作負(fù)載均衡、高可用性和并行處理;第二個(gè)是內(nèi)存分析技術(shù),與SAP HANA類似,數(shù)據(jù)暫存在內(nèi)存進(jìn)行分析,少了數(shù)據(jù)從存儲(chǔ)介質(zhì)中存取的過程,從而提高了分析性能;第三個(gè)是數(shù)據(jù)庫內(nèi)分析,即把計(jì)算和分析過程直接加載到數(shù)據(jù)庫中進(jìn)行,從而提高處理的速度;第四個(gè)是大數(shù)據(jù)的可視化分析,可幫助企業(yè)及時(shí)地從數(shù)據(jù)中獲得必要的信息。
“分析性能的提高并不是單靠某一種技術(shù)實(shí)現(xiàn)的,它是綜合利用多種技術(shù)的結(jié)果。也正是有了這些技術(shù),HPA才可以應(yīng)對(duì)大數(shù)據(jù)分析和處理時(shí)的性能要求。”姚遠(yuǎn)說。
姚遠(yuǎn)特別強(qiáng)調(diào),一個(gè)好預(yù)測分析引擎對(duì)大數(shù)據(jù)固然很重要,但數(shù)據(jù)分析專家同樣不可少。因?yàn)閿?shù)據(jù)分析是需要行業(yè)知識(shí)的,只有懂得行業(yè)的分析師,才有可能知道要分析什么,最終產(chǎn)生好的投資回報(bào)。