李榮
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。并充分利用集群的威力進行高速運算和存儲。以下是常見的Hadoop十大應用誤解和正解。
1.(誤解)Hadoop什么都可以做
(正解)當一個新技術出來時,我們都會去思考它在各個不同產業的應用,而對于平臺的新技術來說,我們思考之后常會出現這樣的結論“這個好像什么都能做”,然而,更深入地去想,就會發現“好像什么都需要重頭做”。對于Hadoop,本人常喜歡舉數據庫(Database)來當例子。三十年前Database剛出來時,上面并沒有什么現成的應用方案(Application),所以廠商在銷售的過程中常需要花很多的時間去告訴客戶說,如果今天你有了這個數據庫,你就可以做什么什么的應用,而看起來的確好像數據庫什么應用都可以做,因為畢竟大部分的應用都會需要一個數據庫。只是三十年前所有的應用都得重頭打造,我們今天習以為常的ERP、CRM等應用系統,當時并不存在的。今天的Hadoop,正好有點像當年database剛出來的時候,畢竟今天所有的應用或多或少都會開始去處理半結構、非結構化數據,而這些東西的確都是Hadoop擅長的,所以平臺的適用性問題不大,重點還是在應用要由誰來搭建。
2.(誤解)Hadoop無法扮演HPC or Grid Computing的角色
(正解)由于Hadoop本身是由并行運算架構(MapReduce)與分布式文件系統(HDFS)所組成,所以我們看到很多研究機構或教育單位,開始嘗試把部分原本執行在HPC或Grid上面的任務,移植到Hadoop集群上面,利用Hadoop兼顧高速運算與海量儲存的特性,更簡易且更有效率地來執行工作。……