大數(shù)據(jù)熱引發(fā)了人們對Hadoop的極大興趣,同時也引來一些誤解,認為既然Hadoop能幫助解決數(shù)據(jù)的處理和分析問題,它就可以替代傳統(tǒng)的數(shù)據(jù)倉庫。
“數(shù)據(jù)倉庫(數(shù)據(jù)庫)與Hadoop(MapReduce)其實是兩類有著很大區(qū)別的技術(shù),這兩者之間不是競爭關(guān)系,而是合作的關(guān)系。大數(shù)據(jù)或者說Hadoop的上升不會帶來數(shù)據(jù)倉庫或數(shù)據(jù)庫市場的下降。”在日前舉行的Sybase IQ15.4發(fā)布會上,Sybase中國公司技術(shù)總監(jiān)盧東明對此予以了澄清。Sybase IQ15.4是Sybase公司的一款數(shù)據(jù)倉庫產(chǎn)品,也是業(yè)界為數(shù)不多的真正采用列式存儲技術(shù)的數(shù)據(jù)倉庫,正是由于采用了獨特的列式存儲使得其具有高壓縮率和高速處理能力。
盧東明告訴本報記者,Hadoop或者MapReduce最初是為解決信息搜索問題而誕生的,然而,搜索問題和數(shù)據(jù)倉庫或數(shù)據(jù)庫問題是兩個完全不同的問題,其解決思路存在非常大的不同。比如,數(shù)據(jù)庫和數(shù)據(jù)倉庫講究數(shù)據(jù)的一致性,同樣的查詢其結(jié)果一定唯一,而Hadoop可以允許不同結(jié)果存在;Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,所以可以輕松應對PB級數(shù)據(jù),而數(shù)據(jù)倉庫和數(shù)據(jù)庫則要受到很多技術(shù)限制。另外,在處理數(shù)據(jù)的規(guī)模上也存在量級的差距。
“數(shù)據(jù)倉庫(或數(shù)據(jù)庫)與Hadoop有著完全不同的應用場景,分別適應于不同的數(shù)據(jù)規(guī)模。它們之間不能相互取代,而是必須相互合作。”盧東明說。
事實上,隨著大數(shù)據(jù)時代的到來,越來越多的傳統(tǒng)數(shù)據(jù)倉庫選擇了與Hadoop進行合作來滿足用戶的數(shù)據(jù)分析需求。一種典型的合作方式是先通過Hadoop把大數(shù)據(jù)進行預處理,然后通過傳統(tǒng)數(shù)據(jù)倉庫引擎提供的工具把這些預處理后的數(shù)據(jù)導入到數(shù)據(jù)倉庫中,利用傳統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)分析和挖掘引擎來對數(shù)據(jù)的分析。Sybase IQ 15.4就支持這種方式,為此,Sybase IQ 15.4推出了很多接口。比如,通過數(shù)據(jù)庫的外聯(lián)接口可以同時訪問這兩個數(shù)據(jù)集里的數(shù)據(jù),其中一個來自IQ,另一個來自Hadoop;Sybase IQ 15.4還提供了針對Hadoop的訪問接口,所以可以用一個標準的SQL通過IQ去訪問Hadoop的數(shù)據(jù)。