999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎中的網絡爬蟲搜索對策分析

2018-05-14 09:06:08魏茂
絲路視野 2018年12期
關鍵詞:搜索引擎對策

【摘要】進入互聯網時代之后,網絡融入到了現代人生活的各個方面,而搜索引擎之運用為人們的工作、學習與生活帶來了非常大的好處。因此,實施對基于搜索引擎的網絡爬蟲技術的探究,對進一步提高搜索引擎的效率來說很有必要。本文在闡述網絡爬蟲原理的基礎上,列舉了網絡爬蟲的基本類別,并提出了搜索引擎中應用網絡爬蟲搜索的主要對策。

【關鍵詞】搜索引擎;網絡爬蟲;對策

隨著互聯網技術的迅猛發展,網絡為人們提供了極大的便利。然而,因為網絡中的信息非常分散和無序,因此極難被充分運用。怎樣在網絡這一信息大海中迅速而又精準地找到最有效的信息,是用戶們迫切需要解決的問題,而搜索引擎的產生很好地破解了該難題。搜索引擎主要是運用諸多網絡站點中的信息,便于為用戶們找到需要的信息。在搜索引擎當中,網絡爬蟲發揮了非常大的作用,是引擎全部數據之源頭。爬蟲設計之優劣將直接影響到引擎系統內容的豐富性與更新的及時性。

一、網絡爬蟲原理闡述

所謂網絡爬蟲,是指一種能夠自動提取相關網頁的程序,能夠為搜索引擎從網絡中下載所需要的網頁,也是搜索引擎中極為重要的構成部份。爬蟲從一個或者數個初始網頁URL上起步,再分析這一URL的源文件,從而提取到新網頁的鏈接,其后再運用新鏈接去找別的新鏈接,如此循環往復,一直到抓取與分析完全部網頁。這可以說是一種理想的狀態,然而事實上不可能抓取到網絡中的全部網頁。依據一項統計,最優秀的搜索引擎只能夠抓取到40%的網頁。原因是網絡爬蟲的抓取技術還存在著瓶頸,難以顧及到全部網頁。同時,存儲技術也存在一定的問題。依據每一網頁平均為20K來計算,100億個網頁的規模為大小就是20萬G,目前的存儲技術還無法達到。

二、網絡爬蟲的基本類別

一是通用爬蟲。其爬取的范圍太大,而且對于爬取的順序要求比較低,但對爬取的速度以及存儲空間的要求相對較高。二是限定爬蟲。主要是一種能夠爬取使用者有興趣的某類網頁的程序。它并不需要爬取全部網頁,只要爬取部分特定網頁即可。工作原理是運用樸素貝葉斯法來訓練文本分類器,其后使用該分類器以指導爬蟲之偏好,在諸多爬蟲隊列中為用戶選出其最有興趣的那部分網頁。三是主題爬蟲。先明確一個或者多個不同的主題,再依據相關分析算法過濾出和主題沒有關系的URL,并保留和主題存在關聯的URL,并且把其放進等待隊列之中,其后再用搜索策略從諸多等待的隊列當中選取下一個需要進行抓取的URL,并且循環操作,一直到達成停止條件為止。

三、搜索引擎中應用網絡爬蟲搜索的主要對策

運用網絡爬蟲,應當盡量搜集和主題有關的網頁,并且減少下載沒有關聯的網頁。主題爬蟲和通用爬蟲比較起來,尚需解決如何進行主題描述與定義、如何判斷網頁內容和主題的關聯、如何判斷鏈接的重要性以及如何提升爬蟲資源的覆蓋率等。下面,從四個方面對實施網絡爬蟲搜索的主要對策進行討論。

一是選擇合適的主題集。在網絡爬蟲之中,為了進行科學的剪枝與過濾,應當對主題加以定義或者描述,從而明確采集之方向。主題集之優劣將直接影響到最后的成效。主題既可以是某些關鍵詞,也可以是某種自然語言。使用者可立足于定制主題對此進行深入描述。

二是提取所需Web信息。自采集起點起,網絡爬蟲即開始爬取Web中的相關信息資源,運用相關Web協議自動爬取各個站點的相關信息。為了能夠更好地獲取相關信息,爬蟲系統當中主要是運用多線程形式來提取其中的Web信息。

三是對頁面進行預處理,實現主題爬蟲所抓取Web頁面的規范化,主要涵蓋了對頁面語法的闡述,對頁面實施去噪等,從中可以提取到網頁當中的各類有效信息,其后再判定網頁信息主題具有的相關性,過濾和主題沒有關聯的頁面,以增加爬蟲獲取主題信息的精準性。因為HTML網頁的內容可從正文、標題、標記信息以及鏈接信息等諸多方面加以體現。所以,在提取網頁信息時只需要提取以上特征信息即可。在讀取頁面過程中,應當找到標記,并把標記中間內容當中的全部標記加以去除,以獲取頁面的正文,而標記為的內容即為網頁標題,其顯示于標題欄之中。即便提取出來的URL能夠通過主題相關性的判定,所提取到的頁面內容和設定主題之間可能也會有比較大的差距。因此,在提取頁面以后還需對頁面信息加以判別,并且刪除和主題沒有關聯的頁面。</p><p>四是對鏈接進行過濾。要進一步提升對主題Web信息提取的速率以及精確性,系統應當對采集到的UI實施URL與主題之間的關系判定。鏈接過濾中最為常用的算法為EPR算法。應當在鏈接關系的前提下增加有關主題之權重,再引入鏈接網頁主題所具有的權重,如此一來,就產生了EPR算法。</p><p>四、結語</p><p>總之,網絡爬蟲技術的應用,為搜索引擎的發展打下了良好基礎。但是,隨著網絡技術的快速發展,現代人對搜索引擎所具有的需求愈來愈大,信息檢索服務朝著個性化與規范化、精細化的趨向加以發展,自然也就對網絡爬蟲的深化設計提出了新的要求。鑒于網絡爬蟲具備了重復性的特點,所以怎樣實現頁面動態變化之規律和原來的搜索統計結果的密切結合,以提升爬取工作的效率,值得下一步繼續深入加以探究。</p><p>參考文獻</p><p>[1]楊文剛,韓海濤.大數據背景下基于主題網絡爬蟲的檔案信息采集[J].蘭臺世界,2015(20).</p><p>[2]盛亞如,魏振鋼,劉蒙.基于主題網絡爬蟲的信息數據采集方法的研究與應用[J].電子技術與軟件工程,2016(07).</p><p>[3]祁忠琪,呂曉聰.基于網絡爬蟲的搜狐網新聞搜索引擎系統的實現[J].數字通信世界,2017(07).</p><p>作者簡介:魏茂(1980.11—),男,漢族,四川梓潼人,學士,講師,研究方向:可視化和人工智能方向。

猜你喜歡
搜索引擎對策
診錯因 知對策
對策
面對新高考的選擇、困惑及對策
關于職工隊伍穩定的認識和對策
活力(2019年22期)2019-03-16 12:47:28
防治“老慢支”有對策
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
主站蜘蛛池模板: 99在线视频免费观看| 99国产精品一区二区| 成人综合网址| 亚洲无码久久久久| 日韩在线网址| 乱色熟女综合一区二区| 亚洲天堂.com| 91成人试看福利体验区| 久久免费看片| 亚洲av无码片一区二区三区| 草逼视频国产| 国产激情第一页| 亚洲欧洲自拍拍偷午夜色| 四虎永久在线| 久久精品91麻豆| 免费人成网站在线高清| 综合色区亚洲熟妇在线| 国产在线视频欧美亚综合| 高清无码不卡视频| 精品国产免费观看一区| 免费看a毛片| 激情综合激情| 色135综合网| 91高清在线视频| 青青草a国产免费观看| 香蕉色综合| 在线观看免费黄色网址| 日韩成人免费网站| 亚洲日韩久久综合中文字幕| 亚洲美女AV免费一区| 一区二区在线视频免费观看| 潮喷在线无码白浆| 黄色网站不卡无码| 欧美成人影院亚洲综合图| 免费观看欧美性一级| 欧美一级专区免费大片| 亚州AV秘 一区二区三区| 国产精品综合久久久| 99在线视频免费观看| 国产精品成人一区二区不卡| 色网在线视频| 精品国产亚洲人成在线| 国产人免费人成免费视频| 成人综合网址| 日本成人不卡视频| 亚洲第一在线播放| 美女亚洲一区| 扒开粉嫩的小缝隙喷白浆视频| 国产内射一区亚洲| 成人一级黄色毛片| 国产成人亚洲精品蜜芽影院| 中文字幕 91| 国模极品一区二区三区| 久久99久久无码毛片一区二区| 久久精品丝袜高跟鞋| 亚洲成人一区二区| 亚洲欧美人成人让影院| 九九精品在线观看| 色一情一乱一伦一区二区三区小说 | 国产人成在线观看| 天天婬欲婬香婬色婬视频播放| 另类专区亚洲| 91人妻日韩人妻无码专区精品| 97国产成人无码精品久久久| 亚洲精选无码久久久| 91精品日韩人妻无码久久| 青青青草国产| 中文字幕久久精品波多野结| 欧美在线中文字幕| 日本少妇又色又爽又高潮| 亚洲性视频网站| 精品人妻一区二区三区蜜桃AⅤ| 91精品国产一区| 久久久噜噜噜| A级毛片高清免费视频就| 无码啪啪精品天堂浪潮av| 婷婷综合缴情亚洲五月伊| 国产成人综合在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 日韩在线中文| 日本免费新一区视频| 国产欧美日韩18|