
數據是一種資產,這已經成為越來越多人的共識。但要利用好數據、真正讓數據發揮其價值并不是一件容易的事情。這其中有著很高的技術門檻和資金門檻,因此,很長時間以來數據挖掘、商業智能距離大多數中小企業都很遙遠,即使相關廠商不斷努力讓數據分析技術“平民化”,而今數據的爆炸性增長更是加劇了這種挑戰。
“過去我們只有在企業中、在工作狀態中才會產生數據,而在云計算、社交媒體和移動計算高度普及的今天,我們幾乎24小時在生產數據,從而迎來了大數據時代。這就使得企業在數據的處理上面臨相當大的壓力。”Informatica高級副總裁兼首席信息官托尼·楊在日前舉行的“2012 Informatica 全球巡展(北京站)”上表示。作為一家以數據集成為主要業務的公司CIO,托尼·楊對于數據的爆炸性增長有著更為直接的體會。
托尼·楊認為,大數據時代建立在傳統的基于數據倉庫之上的數據分析處理方法面臨著很大局限性,至少從性價比(數據的價值/數據的成本)上來看。一方面,數據倉庫的建設不管是軟硬件的購置還是數據的準備都涉及很大的投入;而另一方面,數據倉庫的部署以及隨后的數據建模及其分析都需要專業人士的參與。另外,過去的數據分析方法都是面向傳統的結構化數據,而對非結構化數據的處理并不擅長。這也正是Hadoop廣受歡迎的主要原因之一。
“Hadoop的出現將大幅降低數據分析和處理的門檻,提高數據的回報率。”Informatica核心技術部資深產品管理總監鄭瑋表示。
在鄭瑋看來,Hadoop可以從兩個方面降低數據處理和分析的成本。其一,Hadoop是開源軟件,盡管并不意味著免費,但和商業軟件相比,其采購成本要低得多;其二,Hadoop是為普通的硬件設備而設計,本身已經充分考慮到這些硬件的不可靠性,而不是專用硬件,這就大幅降低了硬件投入成本。不過,在鄭瑋看來,Hadoop的最大價值在于它讓我們可以以一種全新的、高回報率的方式來創新性地處理數據。比如,很多電子商務網站利用它來分析訪客的行為,從而做出更科學的營銷策略,一些半導體企業利用它來幫助分析產品缺陷。而為了幫助企業用好Hadoop,Informatica在其最新的產品Informatica 9.5中特別新增了一些功能模塊,包括幫助企業把數據轉載入Hadoop、探查Hadoop中數據的質量以及把數據從Hadoop中導入數據倉庫中等。
“降低數據的成本,同時提高數據的價值,另外,即使你是一個小企業,也可以用好大數據,這就是Hadoop的最大價值。”鄭瑋表示。