eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯提供了幾條如何利用Hadoop的建議。
1.提高Hadoop的利用效率。“如果組織中有很多人同時在使用某個Hadoop集群,他們很可能會做一些同樣的事情。”威廉姆斯說,“這意味著他們很可能會產生相同的中間數據集來進行分析,這是一種浪費。”
他建議,更好的辦法是早上執行一些通用的數據查詢,并把結果保存在一個地方,任何人需要它們都可以訪問,從而節省大量的處理時間及相關資源。“盡量先想想,哪些數據集對使用者是有用的,再為這些用戶創建這些數據集。”
2.對Hadoop集群進行清理是日常維護中的一個關鍵工作。“這非常重要。”威廉姆斯說,“組織中可能會運行很多Hadoop作業,這樣會生成大量的數據。不過,通常情況下,人們做完后,帶上文件就一走了之。如果不及時清理,最后在系統中就會留下大量無用的Hadoop文件。”
“所以,你有必要創建一個策略,以保持您的Hadoop集群系統是干凈的,不至于無謂地浪費磁盤空間。在大型的Hadoop集群系統中這一點尤為重要。”