
數(shù)據(jù)是一種資產(chǎn),這已經(jīng)成為越來越多人的共識。但要利用好數(shù)據(jù)、真正讓數(shù)據(jù)發(fā)揮其價(jià)值并不是一件容易的事情。這其中有著很高的技術(shù)門檻和資金門檻,因此,很長時(shí)間以來數(shù)據(jù)挖掘、商業(yè)智能距離大多數(shù)中小企業(yè)都很遙遠(yuǎn),即使相關(guān)廠商不斷努力讓數(shù)據(jù)分析技術(shù)“平民化”,而今數(shù)據(jù)的爆炸性增長更是加劇了這種挑戰(zhàn)。
“過去我們只有在企業(yè)中、在工作狀態(tài)中才會產(chǎn)生數(shù)據(jù),而在云計(jì)算、社交媒體和移動計(jì)算高度普及的今天,我們幾乎24小時(shí)在生產(chǎn)數(shù)據(jù),從而迎來了大數(shù)據(jù)時(shí)代。這就使得企業(yè)在數(shù)據(jù)的處理上面臨相當(dāng)大的壓力。”Informatica高級副總裁兼首席信息官托尼·楊在日前舉行的“2012 Informatica 全球巡展(北京站)”上表示。作為一家以數(shù)據(jù)集成為主要業(yè)務(wù)的公司CIO,托尼·楊對于數(shù)據(jù)的爆炸性增長有著更為直接的體會。
托尼·楊認(rèn)為,大數(shù)據(jù)時(shí)代建立在傳統(tǒng)的基于數(shù)據(jù)倉庫之上的數(shù)據(jù)分析處理方法面臨著很大局限性,至少從性價(jià)比(數(shù)據(jù)的價(jià)值/數(shù)據(jù)的成本)上來看。一方面,數(shù)據(jù)倉庫的建設(shè)不管是軟硬件的購置還是數(shù)據(jù)的準(zhǔn)備都涉及很大的投入;而另一方面,數(shù)據(jù)倉庫的部署以及隨后的數(shù)據(jù)建模及其分析都需要專業(yè)人士的參與。另外,過去的數(shù)據(jù)分析方法都是面向傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),而對非結(jié)構(gòu)化數(shù)據(jù)的處理并不擅長。這也正是Hadoop廣受歡迎的主要原因之一。
“Hadoop的出現(xiàn)將大幅降低數(shù)據(jù)分析和處理的門檻,提高數(shù)據(jù)的回報(bào)率。”Informatica核心技術(shù)部資深產(chǎn)品管理總監(jiān)鄭瑋表示。
在鄭瑋看來,Hadoop可以從兩個(gè)方面降低數(shù)據(jù)處理和分析的成本。其一,Hadoop是開源軟件,盡管并不意味著免費(fèi),但和商業(yè)軟件相比,其采購成本要低得多;其二,Hadoop是為普通的硬件設(shè)備而設(shè)計(jì),本身已經(jīng)充分考慮到這些硬件的不可靠性,而不是專用硬件,這就大幅降低了硬件投入成本。不過,在鄭瑋看來,Hadoop的最大價(jià)值在于它讓我們可以以一種全新的、高回報(bào)率的方式來創(chuàng)新性地處理數(shù)據(jù)。比如,很多電子商務(wù)網(wǎng)站利用它來分析訪客的行為,從而做出更科學(xué)的營銷策略,一些半導(dǎo)體企業(yè)利用它來幫助分析產(chǎn)品缺陷。而為了幫助企業(yè)用好Hadoop,Informatica在其最新的產(chǎn)品Informatica 9.5中特別新增了一些功能模塊,包括幫助企業(yè)把數(shù)據(jù)轉(zhuǎn)載入Hadoop、探查Hadoop中數(shù)據(jù)的質(zhì)量以及把數(shù)據(jù)從Hadoop中導(dǎo)入數(shù)據(jù)倉庫中等。
“降低數(shù)據(jù)的成本,同時(shí)提高數(shù)據(jù)的價(jià)值,另外,即使你是一個(gè)小企業(yè),也可以用好大數(shù)據(jù),這就是Hadoop的最大價(jià)值。”鄭瑋表示。