龐敏
(寶雞職業技術學院 陜西 寶雞 721000)
基于Web的電子產品信息分布式檢索系統的設計與實現
龐敏
(寶雞職業技術學院 陜西 寶雞 721000)
文章旨在從海量信息中對有用信息獲取,將用戶需求滿足,設計了一種基于Web的電子產品信息分布式檢索系統。通過結合Hadoop以及Lucene技術模型,對Web電子產品信息進行檢索,結合分布式索引文件的存儲過程,并應用Lucene檢索技術將引文件中的訪問實現,并將信息檢索效率提高。在Lucene_Hadoop架構分析過程,結合粗粒度檢索問題,將細粒度檢索方法提出,并將系統建立索引的時間有效減少。實驗結果表明,基于Web電子產品信息應用Hadoop以及Lucene分布式檢索系統,緊縮性能較好
Web電子產品信息;分布式檢索系統;設計;實現
21世紀的今天,互聯網的信息呈現出一種不斷膨脹的狀態,其數據資源較為豐富,對于如何做好互聯網信息的有效檢索始終是人們關注的焦點之一。然而,互聯網的商業網站主要是結合半結構化的形式呈現,應用超文本標記語言,有著較多的展開形式,語義特征逐漸缺乏,難以實現穩定性和高效性的信息提取[1]。基于商業信息的海量選擇,就要正確應用商業信息的一種應用系統,并實現信息的有效檢索。在搜索引擎的高速發展階段,信息檢索速度以及精確度更是有著越來越高的要求,對信息檢索系統的設計帶來了一定的挑戰。因此文章提出一種基于Web的電子產品信息分布式檢索系統,對其設計和實現過程進行研究有一定的現實意義。
文章提出一種Hadoop以及Lucene分布式檢索模型,也即是Lucene_Hadoop,不僅僅包括Lucene_Hadoop_Map模塊,同時也包括Lucene_Hadoop_Reduce模塊[2]。基于信息檢索模塊的應用,也即是分布式框架結構存在的一種存儲功能[3]。在信息檢索過程,主要是結合分布式文件的讀寫功能,并依據于Lucene中的一種索引查詢技術,對不同索引塊中的搜索結果獲取,基于合并結果的情況,實現打分排序的應用。
1.1基于Lucene_Hadoop中的Map端分布式檢索模型設計
對于 Lucene_Hadoop_Map分布式的基礎檢索過程,結合分布式文件系統中的一種HDFS將索引文件存放實現,并結合命名節點中的一種NameNote提供文件,做好文件的備份,將Map_Reduce分布式編程模塊提供,結合作業跟蹤器的形式,將分布式任務中的一種調度管理實現[4]。關于Lucene_Hadoop_Map分布式檢索的模式,如圖1所示。
基于模式的應用,主要是結合分布式文件系統的文件存放過程,在命名節點的分析過程,結合作業跟蹤器將分布式任務的調度管理實現[5]。基于分布式檢索任務的一種調度管理實現,主要是結合Map進行操作,在應用Lucene的應用將索引的建立完成。基于Reduce操作模式的應用,將索引的歸并完成,最終實現分布式搜索的過程。
對于Map操作而言,往往是結合分布式的一種基礎架構,并應用Hadoop平臺,做好文本的合理處理,在多個Map處理應用過程,結合Lucene中的各種方法,將Input HDFS Block中的索引塊實現,實現文件索引的基本輸出過程[6]。對于Reduce而言,在實際的操作過程,通過對Map輸出的一種KEY進行搜集,進而結合Lucene中的基本合并索引應用,注重不同路徑索引塊的有效性合并,在分布式文件系統中的一種HDFS中進行寫入[7]。

圖1 Lucene_Hadoop_Map分布式檢索的模式
這種模式的應用過程,結合編寫的形式,并將索引快遞的優點生成,對索引時針建立,并結合Input HDFS Block的形式,歸類生成的索引,將多層次的索引進行提供,并避免系統中搜索結果未空白狀態,盡可能的結合索引塊的主要形式,將全局搜索的形式完成,最后將搜索的性能逐漸降低。
1.2基于Lucene_Hadoop中的Reduce端分布式檢索模型
對于Lucene_Hadoop中的Reduce端分布式檢索如圖2所示。

圖2 Lucene_Hadoop中的Reduce端分布式檢索
Lucene_Hadoop中的Reduce端分布式檢索過程的實現,往往是結合分布式索引的模式,對Map端應用,做好全局查詢的方法,往往將查詢的效率降低。基于電子產品領域的發展過程,需要做好電子產品結合數據的有效性存放,往往是在Input HDFS Block中將電子產品信息集合數據存放。對于這種分布式索引模式的應用,其中的Map操作往往是將電子產品文本信息的一種建模過程實現,基于分配模式的應用,將索引的建立完成[8]。在模式中的電子產品領域的應用過程,結合文本信息的一種電子產品建模實現過程,實現的電子產品信息的一種有效性應用。
1.2.1Map設計
對于Map_Reduce分布式的一種編程模型應用過程,往往是結合Job中的一種Input Hdfs Block對純文本電子產品電子信息數據集合進行讀取,對Map程序模塊進行分類,結合Map程序進行格式的應用,做好數據塊數據的合理分析和應用,其中文本格式的一種電子產品信息的表達,實現文本格式中電子產品信息的合理有效性處理[9]。基于電子產品信息內容的直接傳遞,實現線程數的有效性處理。
關于算法的應用,主要是對InputSplit數據電子產品信息進行處理,在轉化過程,結合類型輸出,進而得到中間結果。
輸入過程,產品數量用Texe Key輸入表示,電子產品文本信息用Texe value表示[10]。輸出的主要是寫入中間結果。

1.2.2Reduce設計
對于Reduce設計而言,主要是結合Mapa程序中的一種Task Tracker節點的形式,對中間計算結果獲取。在對Document對象進行構建過程,就要做好不同參數的有效設置[11]。結合檢索的過程,對參數進行合理設計,實現參數的有效存儲。關于Reduce程序處理階段,通過結合中文分詞器的一種支持過程,對價格以及索引目錄問題進行有效性的分析。
2.1基于Web電子產品信息抽取
關于電子產品信息的抽取而言,結合用戶文本數據需要的內容,做好標記控制對文本進行展示。關于信息抽取數據流程,如圖3所示。

圖3 信息抽取數據流程
基于電子產品的應用過程,主要是結合模塊信息數據流的處理,并結合HTML以及XML數據格式技術的應用,做好URL地址的分析,結合HMI網頁的形式,注重結果特點的有效性應用,實現數據的及時清洗,在XML格式數據相關內容的轉換過程,結合文檔對象的一種模型應用,做好數據內容內存模式的構建,在信息的抽取測試過程,進而得到Anchor-Hop-T模型的應用[12]。
通過在太平洋網以及淘寶網將輸入,也即是 “手機”,對于淘寶網上的頁面顯示上,主要有100個頁面,而太平網上頁面顯示的數量,有170頁。基于模型的應用,通過比較,如表1所示。

表1 淘寶網和太平洋網抽取的結果比較
通過對表格中的數據進行比較。淘寶網基于Anchor-Hop魔影的應用中,抽取的時間為58 052 ms,基于Anchor-Hop-T應用過程,抽取的時間為40 368 ms。在模型的應用過程,相對而言,兩個模型均有著較高的召回率,但是在消耗時間的分析而言,Anchor-Hop有著較多的消耗時間[13]。
2.2性能測試結果
索引建立性能的改善過程,往往是結合Task的個數情況,將系統框架的開銷逐漸增加,并結合負載均衡的特點,將任務失敗的開銷逐漸降低[14]。服務器上的運行情況,就要做好參數的設置,并結結合計算機硬件的基本水平,將更好的執行能力逐漸提供,在參數的設置過程,實現參數的科學合理設計。而Reduce Slot處于不變的狀態,就要對多個Map Slot作為目標,做好索引建立時間的有效性設置,對Slot基礎配置進行驗證[15]。相對而言,對于索引建立的性能有著直接的影響,這種程序運行狀態的一種調整過程,如圖4所示,橫坐標表示數據塊大小,單位為MB,縱坐標表示運行的時間/s。

圖4 Map Slot索引建立性能的比較
相對而言,一旦數據塊大小較小的時候,主要是1個Map Slot有著較高的性能。但是有著較大的數據塊時,Map Slo較多的時候,有著較好的性能。
總而言之,文章的研究,主要是基于Web技術下的Hadoop _Lucene基礎上實現的一種電子產品信息分布式檢索系統,在檢索技術的訪問過程,盡可能的將檢索效率顯著提高。結合基礎架構,做好未來研究的進一步檢索,盡可能的結合手機界面,將信息檢索實現,注重人工智能以及自然算法結合的一種系統性測試。
[1]YANG Chao,SHAO Yuan-zheng,CHEN Neng-cheng et al. Aggre-gating distributed geo-processing workflows and web servicesasprocessingmodelweb[C].//2012First international con-ference on agro-geoinformatics,2012:1-4.
[2]萬東,莊越.基于Web Services的電子產品交易系統的設計[J].微計算機信息,2010,26(9):144-145,150.
[3]邱勝海,魯泳,葛燕等.CIMS環境下電子產品全面質量檢驗管理系統設計[J].機械設計與制造,2012,12(10):184-186.
[4]CHEN Jia-ying,REN Yan,ZHANG Hai-tao,et al.Oilseed rape pro-ductive potentialities assessment under OGC web service by using geoprocessing[C].//2012 First international confe-rence on agro-geoinformatics,2012:1-8.
[5]GUAN Qiang,JIA Jian-hua,YANG Xiao-dong et al.An online system of winter wheat drought monitoring based on satellite data:Design concepts and initial testing[C].//2012 First international conference on agro-geoinformatics,2012:1-5.
[6]董李鵬,高東懷,張迎,等.基于 Lucene的校園網智能搜索引擎的設計與實現[J].現代電子技術,2013,11(6):83-86.
[7]趙靜.高校圖書館搜索引擎中Web使用記錄挖掘研究[J].現代電子技術,2013,36(2):1-5.
[8]張淵源,張琴燕,蔣關富,等.面向Web電子產品信息分布式檢索系統的設計與實現[J].計算機應用,2013,33(4): 1026-1030.
[9]Geng,Xiaoyuan,Schut,Peter.OGC Web Processing Service and Table Joining Service:A land suitability rating system implementation case[C].//2012 First international conference on agro-geoinformatics,2012:1-6.
[10]康海燕,XIONG Li.面向大數據的個性化檢索中用戶匿名化方法[J].西安電子科技大學學報:自然科學版,2014,4(5): 148-154,160.
[11]吳廣君,王樹鵬,陳明,等.海量結構化數據存儲檢索系統[J].計算機研究與發展,2012,49(z1):1-5.
[12]齊向東,劉大偉,王勁林,等.分布式結構化P2P網絡下局部敏感哈希快速檢索的負載均衡[J].高技術通訊,2013,23(12):1213-1218.
[13]吳廣印.分布式檢索系統架構及核心技術研究[J].情報學報,2013,32(6):601-609.
[14]李德文,黃文君,胡靜泓,等.一種分布式冗余的實時數據存儲檢索機制[J].上海交通大學學報,2014,48(7):948-952,958.
[15]梁敏,任卓然,解萍,等.面向輿情采集的分布式緩存系統設計[J].信息工程大學學報,2013,14(1):118-123.
[16]熊晶,郭磊,高峰,等.基于JPPF的分布式并行檢索系統研究[J].計算機技術與發展,2012,22(1):79-82.
The design and implementation of electronic product information retrieval system based on Web
PANG Min
(Baoji Vocational Technology College,Baoji 721000,China)
This paper aims to obtain the useful information from the vast amount of information,and to meet the needs of users,and design a distributed information retrieval system based on Web.By combining Hadoop and Lucene technology model,the Web electronic product information is retrieved,and the storage process of the distributed index file is combined with the Lucene search technology,and the information retrieval efficiency is improved.In the process of Lucene_Hadoop architecture analysis,the paper proposes the method of fine granularity retrieval,and reduces the time of system establishment.The experimental results show that the Hadoop and Lucene distributed retrieval system based on the Web electronic product information,the compression performance is better.
Web electronic product information;distributed retrieval system;design;implementation
TN99
A
1674-6236(2016)21-0082-03
2015-12-11稿件編號:201512129
龐 敏(1976—),女,甘肅鎮原人,碩士,講師。研究方向:計算機技術。