大數據熱引發了人們對Hadoop的極大興趣,同時也引來一些誤解,認為既然Hadoop能幫助解決數據的處理和分析問題,它就可以替代傳統的數據倉庫。
“數據倉庫(數據庫)與Hadoop(MapReduce)其實是兩類有著很大區別的技術,這兩者之間不是競爭關系,而是合作的關系。大數據或者說Hadoop的上升不會帶來數據倉庫或數據庫市場的下降。”在日前舉行的Sybase IQ15.4發布會上,Sybase中國公司技術總監盧東明對此予以了澄清。Sybase IQ15.4是Sybase公司的一款數據倉庫產品,也是業界為數不多的真正采用列式存儲技術的數據倉庫,正是由于采用了獨特的列式存儲使得其具有高壓縮率和高速處理能力。
盧東明告訴本報記者,Hadoop或者MapReduce最初是為解決信息搜索問題而誕生的,然而,搜索問題和數據倉庫或數據庫問題是兩個完全不同的問題,其解決思路存在非常大的不同。比如,數據庫和數據倉庫講究數據的一致性,同樣的查詢其結果一定唯一,而Hadoop可以允許不同結果存在;Hadoop的分布式處理架構支持大規模的集群,所以可以輕松應對PB級數據,而數據倉庫和數據庫則要受到很多技術限制。另外,在處理數據的規模上也存在量級的差距。
“數據倉庫(或數據庫)與Hadoop有著完全不同的應用場景,分別適應于不同的數據規模。它們之間不能相互取代,而是必須相互合作。”盧東明說。
事實上,隨著大數據時代的到來,越來越多的傳統數據倉庫選擇了與Hadoop進行合作來滿足用戶的數據分析需求。一種典型的合作方式是先通過Hadoop把大數據進行預處理,然后通過傳統數據倉庫引擎提供的工具把這些預處理后的數據導入到數據倉庫中,利用傳統數據倉庫中的數據分析和挖掘引擎來對數據的分析。Sybase IQ 15.4就支持這種方式,為此,Sybase IQ 15.4推出了很多接口。比如,通過數據庫的外聯接口可以同時訪問這兩個數據集里的數據,其中一個來自IQ,另一個來自Hadoop;Sybase IQ 15.4還提供了針對Hadoop的訪問接口,所以可以用一個標準的SQL通過IQ去訪問Hadoop的數據。