999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垂直搜索引擎爬蟲系統DIPRE算法及改進

2017-03-31 20:19:01趙君
軟件導刊 2016年8期

趙君

摘 要:針對垂直搜索引擎中精確抽取網頁中特定字段的問題,對DIPRE算法進行了研究和改進。闡述了DIPRE算法在垂直搜索引擎中的重要作用,探討了DIPRE算法在抽取復雜結構網頁時的不足,并提出了改進,包括種子定位方式,將單模匹配擴展成多模匹配并引入定位索引,再根據已有技術對改進后的算法進行了實驗驗證。結果表明,改進后的算法在精度和效率上都符合預期。

關鍵詞關鍵詞:垂直搜索引擎;DIPRE算法;種子定位;單模匹配;多模匹配;定位索引

DOIDOI:10.11907/rjdk.161451

中圖分類號:TP312

文獻標識碼:A 文章編號:1672-7800(2016)008-0030-03

0 引言

垂直搜索引擎是針對某一特定領域、人群或需求提供的信息檢索服務,因此垂直搜索引擎的爬蟲(Spider)在抽取數據時應該具有相當的選擇性。DIPRE(Dual Iterative Pattern Relation Extraction)是Google創始人之一Sergey Brin針對抽取互聯網上特定格式或類型的數據而提出的一種算法,由于垂直搜索引擎具有較強的專業性和針對性,因而DIPRE算法在垂直搜索領域里具有較為廣闊的應用前景,但隨著Internet上的信息量呈指數級增長,網頁結構越來越多樣化,利用DIPRE算法抽取數據無論是在廣度還是在精度上都已遇到瓶頸[1],如何在發揮DIPRE算法優勢的基礎上彌補其不足成為一個值得研究的問題。

3 實驗結果

實驗以某大型網上書城的圖書信息為檢索對象,包括作者、出版社、出版時間、版次、頁數共5個字段,此5個字段之間不含噪聲,是測試的理想之選。使用的服務器配置如表2所示。

以采集40萬條數據為測試目標,采用兩種算法的爬蟲檢索性能情況如表3所示。

通過抽樣檢測,以上檢索的ER值均低于10%。根據表3繪制出性能對比圖,如圖4所示。

由式(3)、式(5)和圖4可知,爬蟲檢索頁面時間和頁面數量呈線性關系,其中采用傳統DIPRE算法的斜率為t1+α·β·t2,采用改進后算法的斜率為t1+α·γ·t2;改進后算法的效率要略低于原算法,即γ值要大于β值。

4 結語

本文對DIPRE算法進行了擴展和改進,將原算法中的單模模式擴展成多模模式,同時引入定位索引,使得改進后的算法具有很強的實用性和可擴展性。實驗結果表明,改進后算法的性能曲線斜率要比原算法的大,效率比原算法低,這是因為||過小導致無法有效過濾數據,使得L遠大于R中字段數量,爬蟲檢索了很多無效值,降低了檢索效率。在后續改進中,重點在于降低式(5)中的值,即L的值,這就必須使||達到一個合理的范圍,圖2中闡述的前后綴延伸方法是個不錯的解決方案,如何控制延伸的程度則是后續研究的主要內容。

參考文獻:

[1]OREN KURLAND,LILLIAN LEE.PageRank without hyperlinks[J].ACM Transactions on Information Systems (TOIS),2010,28(4):1-38.

[2]LIU GUI-MEI.An adaptive improvement on PageRank algorithm[J].Applied Mathematics:A Journal of Chinese Universities(Series B),2013,28(1):17-26.

[3]GHOLAM R AMIN,ALI EMROUZNEJAD.Optimizing search engines results using linear programming[J].Expert Systems With Applications,2011,38(9):11534-11537.

[4]LIN LI,GUANDONG XU,YANCHUN ZHANG,et al.Random walk based rank aggregation to improving web search[J].Knowledge-Based Systems,2011,24(7):943-951.

[5]E GARCIA,F PEDROCHE,M ROMANCE.On the localization of the personalized PageRank of complex networks[J]. Linear Algebra and Its Applications,2013,439(3):640-652.

[6]SHAYAN A,TABRIZI,AZADEH SHAKERY,et al.Personalized pagerank clustering:a graph clustering algorithm based on random walks[J].Physica A:Statistical Mechanics and its Applications,2013,12(5):15-24.

[7]ALEXGOH KWANG LENG,P RAVI KUMAR,ASHUTOSHKUMAR SINGH,et al.Link-Based spam algorithms in adversarial information retrieval[J].Cybernetics and Systems,2012,43(6):459-475.

[8]LI LIAN,ZHU AI HONG,SU TAO.An improved text similarity calculation algorithm based on vsm[J].Advanced Materials Research,2011,1250(225):1105-1108.

[9]LI MIN,ZHAO JUN.Research and design of the crawler system in a vertical search engine[C].Guilin:In Proceedings of the 2010 International Conference on Intelligent Computing and Integrated Systems,2010:790-792.

[10]EVANTHIA E TRIPOLITI,DIMITRIOS I FOTIADIS,GEORGE MANIS.Modifications of the construction and voting mechanisms of the random forests algorithm[J].Data & Knowledge Engineering,2013,87(7):112-118.

[11]柳廳文,孫永,卜東波,等.正則表達式分組的1/(1-1/k)-近似算法[J].軟件學報,2012,23(9):2261-2272.

(責任編輯:孫 娟)

主站蜘蛛池模板: 精品国产福利在线| 国产视频自拍一区| 国产性生交xxxxx免费| 亚洲品质国产精品无码| 日本日韩欧美| 精品无码人妻一区二区| 免费无码又爽又黄又刺激网站| 日本成人一区| 亚洲成人在线网| 亚洲天堂首页| 久久先锋资源| 亚洲专区一区二区在线观看| 国产视频一区二区在线观看| 亚洲第一区在线| 高清视频一区| 欧美人与牲动交a欧美精品 | 国产精品分类视频分类一区| 激情网址在线观看| AV不卡国产在线观看| 五月天综合婷婷| 丰满人妻久久中文字幕| 91蜜芽尤物福利在线观看| 国产精品污视频| 中文字幕在线一区二区在线| 小13箩利洗澡无码视频免费网站| 69视频国产| 看看一级毛片| 欧美日本一区二区三区免费| 国产成人亚洲无码淙合青草| 日本一区二区三区精品AⅤ| 视频一本大道香蕉久在线播放| 18禁黄无遮挡免费动漫网站| 71pao成人国产永久免费视频| 9999在线视频| 69av在线| 亚洲欧洲日韩综合色天使| 免费国产无遮挡又黄又爽| 精品无码视频在线观看| 日本免费精品| vvvv98国产成人综合青青| a在线观看免费| 亚洲欧洲日产国码无码av喷潮| 国产91视频免费观看| 97人人模人人爽人人喊小说| 久草视频福利在线观看 | 国产超薄肉色丝袜网站| 亚洲一区二区无码视频| 亚洲综合色婷婷中文字幕| 免费Aⅴ片在线观看蜜芽Tⅴ| 精品丝袜美腿国产一区| 波多野结衣视频网站| 亚洲欧美另类日本| 欧美翘臀一区二区三区| 精品国产免费第一区二区三区日韩| 欧美综合成人| 国产精品久久国产精麻豆99网站| 国产欧美视频在线| 国产青青草视频| www亚洲天堂| 日韩精品一区二区三区大桥未久 | 精品国产成人av免费| 国产欧美成人不卡视频| 久久99热这里只有精品免费看| 亚洲中文无码h在线观看| 四虎国产永久在线观看| 欧美日韩v| 久久99蜜桃精品久久久久小说| 五月综合色婷婷| 丁香综合在线| 日韩欧美中文在线| 国产农村1级毛片| 国产一区二区三区日韩精品 | 欧美一级大片在线观看| 无码中文字幕乱码免费2| 国产麻豆精品在线观看| 亚洲欧美精品日韩欧美| 免费欧美一级| 精品国产免费观看一区| 亚洲国产看片基地久久1024| 中文字幕伦视频| 亚洲国产精品无码久久一线| 国产 在线视频无码|