在大數據的時代,企業需要能對大量的結構、半結構和非結構化數據進行快速分析的能力,而且相對傳統的結構化數據,大數據通常意味著更大的數據量,同時其可利用價值要低一些,這就對大數據的分析和處理方法提出了更高的要求。
“大數據具有三個特征,即海量、數據結構多樣、數據生成速度快,但在目前這個階段,特別是談到數據的分析和利用時,最要緊的還是性能問題。”SAS公司大中國區咨詢服務和技術總監姚遠在接受記者采訪時告訴記者。
作為專門從事數據分析的廠商,SAS對于數據分析引擎遇到的性能瓶頸有著更為切身的體會。實際上,這也正是SAS于不久前推出高性能分析產品High-Performance Analytics(HPA)的主要原因之一。SAS的HPA含有一系列可在高度擴展、基于內存的分布式架構中執行分析的產品,利用它用戶可以使用過去不可能使用的大量數據去研究和模擬各種場景,并顯著提升分析運算的處理速度。
據姚遠介紹,HPA之所以能克服數據分析在性能上的瓶頸,主要得益于其四項關鍵技術:第一個是網格計算,基于它分析引擎可自動使用網絡環境下集中控制的資源庫,實現工作負載均衡、高可用性和并行處理;第二個是內存分析技術,與SAP HANA類似,數據暫存在內存進行分析,少了數據從存儲介質中存取的過程,從而提高了分析性能;第三個是數據庫內分析,即把計算和分析過程直接加載到數據庫中進行,從而提高處理的速度;第四個是大數據的可視化分析,可幫助企業及時地從數據中獲得必要的信息。
“分析性能的提高并不是單靠某一種技術實現的,它是綜合利用多種技術的結果。也正是有了這些技術,HPA才可以應對大數據分析和處理時的性能要求。”姚遠說。
姚遠特別強調,一個好預測分析引擎對大數據固然很重要,但數據分析專家同樣不可少。因為數據分析是需要行業知識的,只有懂得行業的分析師,才有可能知道要分析什么,最終產生好的投資回報。