大數(shù)據(jù)熱引發(fā)了人們對(duì)Hadoop的極大興趣,同時(shí)也引來一些誤解,認(rèn)為既然Hadoop能幫助解決數(shù)據(jù)的處理和分析問題,它就可以替代傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)。
“數(shù)據(jù)倉(cāng)庫(kù)(數(shù)據(jù)庫(kù))與Hadoop(MapReduce)其實(shí)是兩類有著很大區(qū)別的技術(shù),這兩者之間不是競(jìng)爭(zhēng)關(guān)系,而是合作的關(guān)系。大數(shù)據(jù)或者說Hadoop的上升不會(huì)帶來數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)市場(chǎng)的下降。”在日前舉行的Sybase IQ15.4發(fā)布會(huì)上,Sybase中國(guó)公司技術(shù)總監(jiān)盧東明對(duì)此予以了澄清。Sybase IQ15.4是Sybase公司的一款數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,也是業(yè)界為數(shù)不多的真正采用列式存儲(chǔ)技術(shù)的數(shù)據(jù)倉(cāng)庫(kù),正是由于采用了獨(dú)特的列式存儲(chǔ)使得其具有高壓縮率和高速處理能力。
盧東明告訴本報(bào)記者,Hadoop或者M(jìn)apReduce最初是為解決信息搜索問題而誕生的,然而,搜索問題和數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)問題是兩個(gè)完全不同的問題,其解決思路存在非常大的不同。比如,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)講究數(shù)據(jù)的一致性,同樣的查詢其結(jié)果一定唯一,而Hadoop可以允許不同結(jié)果存在;Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,所以可以輕松應(yīng)對(duì)PB級(jí)數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)則要受到很多技術(shù)限制。另外,在處理數(shù)據(jù)的規(guī)模上也存在量級(jí)的差距。
“數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)庫(kù))與Hadoop有著完全不同的應(yīng)用場(chǎng)景,分別適應(yīng)于不同的數(shù)據(jù)規(guī)模。它們之間不能相互取代,而是必須相互合作。”盧東明說。
事實(shí)上,隨著大數(shù)據(jù)時(shí)代的到來,越來越多的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)選擇了與Hadoop進(jìn)行合作來滿足用戶的數(shù)據(jù)分析需求。一種典型的合作方式是先通過Hadoop把大數(shù)據(jù)進(jìn)行預(yù)處理,然后通過傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)引擎提供的工具把這些預(yù)處理后的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中,利用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分析和挖掘引擎來對(duì)數(shù)據(jù)的分析。Sybase IQ 15.4就支持這種方式,為此,Sybase IQ 15.4推出了很多接口。比如,通過數(shù)據(jù)庫(kù)的外聯(lián)接口可以同時(shí)訪問這兩個(gè)數(shù)據(jù)集里的數(shù)據(jù),其中一個(gè)來自IQ,另一個(gè)來自Hadoop;Sybase IQ 15.4還提供了針對(duì)Hadoop的訪問接口,所以可以用一個(gè)標(biāo)準(zhǔn)的SQL通過IQ去訪問Hadoop的數(shù)據(jù)。