王皎 呼明亮
摘要:針對當前用戶難以快速準確地獲取到自己需要的網絡信息,設計了基于Hadoop云計算平臺的資源搜索系統,并對該搜索系統進行了實驗驗證,結果表明,隨著數據量的不斷增大,Hadoop版本系統節約的時間越多,優勢越明顯。
關鍵詞:云計算;資源搜索系統;Hadoop;MapReduce
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)19-4463-03
Implementation of Resource Searching System Based on Hadoop
WANG Jiao, HU Ming-liang
(Xi'an Aeronautics Computing Technique Research Institute,AVIC,Xi'an 710065,China)
Abstract: Aiming at the current user can not quickly and accurately access to network information, A resource search system based on Hadoop is designed, The search system is verified by the experiment ,and the test shows that the Hadoop system is to save time with the increase of data quantity.
Key words: cloud computing; Resource Searching System; Hadoop; MapReduce
互聯網的出現改變了我們的工作,學習乃至生活方式,其豐富的資源為我們提供了大量的信息,然而由于缺乏行之有效的整合標準和手段,目前這些資源的分布呈現高度分散狀態,內容龐雜無序,結構化程度低,用戶往往難以快速準確地獲取自己需信息。所以研究和設計出針對資源搜索的系統平臺,以提高用戶獲取資源信息的速度和準確度有著非常重要的意義。而Hadoop作為新一代的分布式計算框架,非常有利于處理“網絡大數據”。中國電信、中國移動、淘寶、Facebook 和Yahoo均有成功應用。
1 Hadoop概述
Apache Hadoop 是一個用java語言實現的軟件框架,在由大量計算機組成的集群中運行海量數據的分布式計算,由pig,HIVE,Chukwa,ZooKeeper,HBASE,MAPreduce,HDFS等組成。如圖1所示。本資源搜索系統主要使用了HDFS,HBASE,MAPreduce。
1.1 Hadoop體系架構
圖1 Hadoop體系架構
1.2 HDFS——分布式文件系統
HDFS是一個高度容錯性的分布式文件系統,能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用,其主要由Client、DataNode和NameNode三部分組成,其中,Client是面向用戶的分布式文件系統應用程序;DataNode是存儲在本地文件系統中的文件塊單元,在存儲文件塊的meta-data的同時,向NameNode周期發送所存儲的文件塊信息;……