999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Hadoop的海量圖片檢索策略

2016-11-14 23:54:40孫玉林王曉卉
電子技術與軟件工程 2016年18期

孫玉林++王曉卉

摘 要

針對電商平臺海量圖片的檢索出現的性能瓶頸問題,本文提出一種基于Hadoop的海量圖片檢索策略,通過Sequence實現對小圖片合并,并在合并過程中設定單個Sequence File的偏移量,解析索引快速定位存儲圖片Block的DataNode和Fileld,解決海量圖片數據擴容和快速檢索的問題。

【關鍵詞】分布式系統 海量圖片 檢索策略

隨著互聯網的普及和廣泛應用,電商平臺和社交網絡也不斷發展,用于商品展示或社交分享的圖片數量呈爆炸式增長。在這些電子商務網站和社交網站上,圖片的信息表達遠遠超過了文字信息的描述,所以這些電子商務網站和社交網站更加注重圖片的質量。從對淘寶網的分析來看,在整個商務平臺的流量中,對圖片的訪問高達91.5%以上。騰訊相冊的用戶每周上傳的圖片也高達11億張,目前的總圖片數量有近700億張,總容量高達15PB。由于海量圖片需要消耗海量的存儲空間,圖片的存儲和檢索都會出現性能瓶頸。面對海量的圖片資源,如何高效的檢索以及如何在滿足高并發訪問的前提下構建高效廉價的檢索系統成為需要迫切解決的問題。

1 Hadoop云計算平臺

Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,同時它又是可靠、高效、可擴展的。可靠性體現在它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。高效性體現在它以并行的方式工作,通過并行處理加快處理速度。可拓展性指其能夠處理PB級數據。由于Hadoop最初是針對大規模文本數據處理設計的,內部數據類型有限,不能直接處理圖片數據。在HDFS中,文件或目錄等均是以對象形式在內存中存儲,每個對象約使用150比特內存。隨著海量圖片數量的增加,耗費的內存也迅速增加,大量名字節點內存的耗費,嚴重影響了Hadoop的應用性。同時,檢索大量圖片的速度遠遠慢于訪問相同數據量的大文件。

2 基于Hadoop的海量圖片檢索策略

HDFS是分布式計算的存儲基石,Hadoop的分布式文件系統和其他分布式文件系統有很多類似的特質。它將復雜的運行于大規模集群上的并行計算過程高度的抽象到了兩個函數Map和Reduce。MapReduce是一個用于進行大數據量計算的編程模型,同時也是一種高效的任務調度模型,它將一個任務分成很多更細粒度的子任務,這些子任務能夠在空閑的處理節點之間調度,使處理速度越快的節點處理越多的任務,從而避免處理速度慢的節點延長整個任務的完成時間。

步驟1 搭建Hadoop集群平臺。每臺計算機安裝操作系統和Hadoop軟件,將一臺計算機配置成NameNode,其它計算機配置成DataNodes。各個機器通過SSH直接通信。NameNode負責的是整個存儲層的管理,DataNode主要作為存儲節點。驗證DataNode和NameNode之間聯通性是通過心跳檢測來實現,并且DataNode還要定期將自己的存儲區信息發送給NameNode。當客戶端訪問時,首先訪問NameNode,NameNode會分配相應的空間,在得到相應的空間后開始各個作業。

步驟2 設置安全策略。Hadoop集群平臺中新增一臺DataNode2作為NameNode備份機,將原有NameNode中的數據復制到選定的DataNode2中,在NameNode運行時,NameNode2會實時的檢測NameNode的運行狀態,同時把NameNode中的操作實時更新到本地,在NameNode出現故障時,NameNode2代替NameNode保證服務的正常進行。

步驟3 單圖片存儲處理。圖片先經過負載均衡模塊過濾,進入應用服務器隊列等待進入HDFS存儲系統,通過NameNode分配DataNode進行存儲,圖片寫入過程中先確定寫入Block,再確定Sequence File,系統將二者的ID組合命名為圖片的系統內的名稱。圖片元數據保存在HBase,同時元數據也保存在由Redis構建的緩存系統中。圖片完成寫入操作。

步驟4 文件預處理合并。將指定目錄下的圖片文件讀取進圖片數組,并初始化byte數組,用相應的輸出文件流將byte中的圖片讀入到指定路徑下的合并文件中去。

步驟5 建立圖片索引。圖片名用的是聯合編碼的方式,主要包含BlockId和FileId兩部分。其中BlockId代表的是一個存儲單元,NameNode可以根據其確定最近的DateNode地址,FileId代表的是小圖片在拼接的時候SequenceFile的Id;offset代表的是相應key值的一個的偏移量。HDFS前端在接收到客戶端的請求后首先會解析文件名,根據相關信息定位到相應的Block文件、FileId和offset,然后客戶端直接對圖片進行讀取。在對文件名解析以后,可以直接讀取DateNode節點數據,并可以通過偏移量定位到圖片的開始位置。

步驟6 客戶端以圖片名稱和創建時間為參數發起訪問請求,NameNode運算獲取圖片所在分鐘時間段和合并文件對應的Blocks信息,返回給客戶端。客戶端向最近的DataNode發起圖片讀取請求。DataNode運算獲得圖片具體地址信息。

3 結束語

本文提出的一種基于Hadoop的海量圖片檢索策略,可以很好的解決Hadoop檢索海量圖片時NameNode內存消耗過度和檢索效率低下的問題,并有效降低了檢索時的NameNode負載,實現了對NameNode性能的提升,從而推動hadoop平臺更廣泛的應用。

參考文獻

[1]郭本俊,王鵬, 陳高云等.基于MPI的云計算模型[J].計算機工程,2009,35(24): 84-85,96.

[2]王文平,劉希玉,韓杰.基于并行遺傳算法的關聯規則挖掘[J].山東師范大學學報(自然科學版),2006,21(04):29-31.

主站蜘蛛池模板: 久久综合一个色综合网| 亚洲一区二区三区麻豆| 久久精品免费看一| 国产精品无码一二三视频| 国产在线自揄拍揄视频网站| 中文字幕色站| 亚洲不卡无码av中文字幕| 欧美亚洲国产视频| 亚洲成人免费在线| 国产麻豆91网在线看| 一区二区三区四区精品视频| 国产精品手机视频一区二区| 热久久这里是精品6免费观看| 国产成人成人一区二区| 久草中文网| 97国产精品视频人人做人人爱| 国内精品视频| 亚洲αv毛片| 亚洲无码91视频| 精品人妻系列无码专区久久| 91破解版在线亚洲| A级全黄试看30分钟小视频| 天堂岛国av无码免费无禁网站| 中文无码精品A∨在线观看不卡| 精品少妇人妻av无码久久 | 四虎成人在线视频| 大陆精大陆国产国语精品1024| 欧美日本不卡| 亚洲人成影院在线观看| 色吊丝av中文字幕| 狠狠v日韩v欧美v| 亚洲最大在线观看| 亚洲乱强伦| 亚洲欧美在线综合一区二区三区| 国产成人无码久久久久毛片| 乱码国产乱码精品精在线播放| 日韩高清无码免费| 亚洲欧美日韩另类| 国内精品九九久久久精品| 日本三级黄在线观看| 精品福利一区二区免费视频| 免费高清自慰一区二区三区| 精品丝袜美腿国产一区| 中文字幕第1页在线播| 精品国产aⅴ一区二区三区| 久久不卡精品| 国产经典三级在线| 亚洲一区国色天香| 91香蕉视频下载网站| 久久这里只精品国产99热8| 九九九精品成人免费视频7| 日韩AV无码免费一二三区| 国产高清无码第一十页在线观看| 中文字幕亚洲精品2页| 欧美亚洲国产一区| 日韩黄色大片免费看| 国产午夜人做人免费视频中文 | 日韩精品一区二区深田咏美| 国产高颜值露脸在线观看| 亚洲欧美成人影院| 毛片网站在线播放| 亚洲黄色成人| 国产精品无码久久久久久| 在线免费看黄的网站| 99久久精品免费看国产电影| 国产一区二区三区在线观看免费| 国产美女91呻吟求| 成年人午夜免费视频| 无码专区国产精品一区| 亚洲AV无码乱码在线观看裸奔| 中文纯内无码H| 日韩在线播放中文字幕| 久久亚洲国产最新网站| 一级爆乳无码av| 国产99视频免费精品是看6| 国产在线自揄拍揄视频网站| 欧美专区日韩专区| 国产精品视频猛进猛出| AV老司机AV天堂| 国产成人精品一区二区| 中文字幕2区| 97免费在线观看视频|