摘 要:論文將通過具體設計,提出一個行之有效的處理分析Hadoop中海量小文件的應用方法。
關鍵詞:Hadoop 海量小文件 索引 算法
中圖分類號:TP391 文獻標識碼:A 文章編號:1672-3791(2012)10(a)-0013-01
目前,國內外很多大型企業和機構都采用Hadoop技術處理規模巨大的數據,但是如何高效穩定地處理好伴隨大數據而產生的各類海量小文件就成了一個決定系統穩定、數據可靠與否的重要依據。本文將根據個人研究淺談一下海量小文件的處理分析。
1 Hadoop中海量小文件處理存在的問題
1.1 海量的小文件堆積造成系統節點內存不足
我們知道在HDFS整合數據時,是將數據分割成若干塊存儲在多個數據節點上的。因此,HDFS存儲的大文件都是被分成許多塊分攤出去的。由此,不可避免的就會產生很多尺寸小,甚至比Hadoop應用中默認分塊小很多的小文件,這些文件被認為是不可以分塊的而被保留在了各個數據節點上。當這些海量小文件達到一定規模后就會淹沒數據節點的內存從而造成硬件內存供應不足的現象。
1.2 海量小文件的檢索效率低
由于Hadoop的分布式存儲對象是海量的廉價計算機,因此存儲系統中數據節點的內存限制也對可存放的文件數量造成了制約,從而增加了系統管理的難度。一但某一數據節點上出現了海量小文件,文件的檢索效率就會急劇下降,當小文件的數量達到一定規模后,甚至可能導致數據節點崩潰。
2 Hadoop中海量小文件的處理分析方法
2.1 構建海量小文件分析處理架構……p>