999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡爬蟲在Web信息搜索與數據挖掘中應用

2019-05-08 03:01:26周海山
科學與技術 2019年19期
關鍵詞:信息檢索數據挖掘

周海山

摘要:隨著計算機網絡技術的發展,計算機通訊、計算機原理等這些內容已經逐漸被人們深知,關于網絡爬蟲的概念人們也逐漸的理解,并且不斷的探索網絡爬蟲在信息檢索與數據挖掘中的應用。本文主要從網絡爬蟲的概念和分類進行概述,并且分析和探討了網絡爬蟲在信息檢索和數據挖掘中的應用,最后對于未來網絡的發展進行了展望。

關鍵詞:網絡爬蟲;信息檢索;數據挖掘

由于計算機技術的發展,現在的網絡資源類型也十分的豐富,并且所含的數據和信息也是特別的多,基本上可以滿足人們目前的需要,但是如何快速的對這些信息和數據進行分類,這就需要擁有很強的數據處理能力,人們對于獲取數據,處理數據是非常關心的。網絡爬蟲可以非常容易的獲取到我們需要的一些信息,方便人們對于數據的搜索、整理和利用,使我們日常信息獲取的高效工具。

一、網絡爬蟲的概念與類型

以前人們經常取名為網絡蜘蛛的,其實就是網絡爬蟲,這是按照一定的規則在人們自動瀏覽網站時獲取信息的程序或者腳本,曾經被廣泛應用于互聯網的搜索引擎中,一般在各種網頁中會有許多的鏈接,網絡爬蟲正是從這些鏈接中不斷的獲取其他界面上的信息,那么網絡爬蟲在進行數據采集時就是像一個爬蟲在網絡上漫游,所以才被形象的稱之為網絡爬蟲。根據不同的分工,網絡爬蟲有不同的分類,就像社會上有各種職業的分工一樣,大型的爬蟲系統,內部也是有不同的分工的,這將爬蟲分為新網頁爬蟲和定期網絡爬蟲,新網頁爬蟲是專門負責尋找沒有被采集過的一些新網頁;定期爬蟲是負責采集那些更新比較快,并且內容比較多的網站,然后把這些網頁的網址進行保存,定期的去進行采集,查看網頁中內容是否有更新。但是根據不同的應用和系統的結構以及實現技術,又把網絡爬蟲分為增量式網絡爬蟲、聚焦網絡爬蟲、深層網絡爬蟲、和通用網絡爬蟲。增量式網絡爬蟲指的是在更新的時候只更新改變的地方,而沒有改變的地方則不更新,所以網絡爬蟲僅僅采集內容發生變化的網頁或者新產生的網頁;聚焦網絡爬蟲是按照預先定義好的主題有選擇地驚醒網頁爬取,采集目標那些與主題相關的頁面,使用網絡爬蟲大大節省采集數據所需的帶寬和服務器資源,適用于特定人群;深層網絡爬蟲是需要調教一定的關鍵詞之后才能獲取的頁面;通用網絡爬蟲主要應用在大型的搜索引擎中,一般采集的目標是全網的資源,目標的數據比較龐大。

二、網絡爬蟲在web信息檢索中和數據挖掘中的應用

1.網絡爬蟲在web信息檢索中的應用

網絡爬蟲在網頁信息檢索中的應用主要是將爬蟲分為三種模塊實現的:網頁采集模塊,索引模塊和搜索模塊。這里的采集模塊實際上包含兩個部分。第一個部分是單純網頁采集模塊,它負責搜索網頁,是整個系統的關鍵部分,這將直接影響數據采集的效果。第二個是信息分析和過濾模塊,它負責將網頁中的信息進行自動歸類,然后根據解析提取出網頁的主要數據,包括標題、節選、發布時間、鏈接地址等,將所有的噪音信息剔除,最后將提取出的信息展示給用戶。索引模塊是為HTML 頁面來創建索引。在下載的過程中,不可避免地會遇到重復的鏈接,如何消除這些重復的鏈接,是個很復雜的問題。URL 的去重可以說是爬蟲系統中最重要的一部分,直接影響數據搜索和采集的效率和效果,索引模塊主要就是為了去除重復鏈接的。搜索模塊則是系統與用戶交互的模塊,系統根據用戶輸入的查詢語句,負責在數據庫和索引文件上搜索出相應數據并按照一定的排序反饋給用戶。網絡爬蟲的設計流程中,核心部分是獲得網頁中的?URL列表、創建下載的客戶端、獲取并存儲得到的網頁結果。

2.網絡爬蟲在數據挖掘中的應用

互聯網是實時變化的,具有很強的動態性。網頁更新策略主要是決定何時更新之前已經下載過的頁面。常見的更新策略有以下三種:1)歷史參考策略:根據頁面以往的歷史更新數據,預測該頁面未來何時會發生變化。一般來說,是通過泊松過程進行建模進行預測。2)用戶體驗策略:盡管搜索引擎針對于某個查詢條件能夠返回數量巨大的結果,但是用戶往往只關注前幾頁結果。因此,抓取系統可以優先更新那些現實在查詢結果前幾頁中的網頁,而后再更新那些后面的網頁。這種更新策略也是需要用到歷史信息的。用戶體驗策略保留網頁的多個歷史版本,并且根據過去每次內容變化對搜索質量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據。3)聚類抽樣策略:之前兩種更新策略都需要網頁的歷史信息。這樣會有兩個問題:1、系統要是為每個系統保存多個版本的歷史信息,無疑增加了很多的系統負擔;2、另一方面是如果新的網頁完全沒有歷史信息,這樣就無法確定更新策略。這種策略認為,網頁具有很多屬性,類似屬性的網頁,可以認為其更新頻率也是類似的。要計算某一個類別網頁的更新頻率,只需要對這一類網頁抽樣,以他們的更新周期作為整個類別的更新周期。一般來說,網絡爬蟲的系統需要面對的是整個互聯網上數以億計的網頁。單個數據采集和搜索的程序不可能完成這樣的任務。往往需要多個搜索程序一起來處理。一般來說網絡爬蟲的系統往往是一個分布式的三層結構。最下一層是分布在不同地理位置的數據中心,在每個數據中心里有若干臺抓取服務器,而每臺抓取服務器上可能部署了若干套爬蟲程序。這就構成了一個基本的分布式抓取系統,這樣使得數據處理更加方便。

三、總結

網絡爬蟲不同于黑客,網絡爬蟲所做的事情是利于人們發展的,使用網絡爬蟲可以發現網絡中隱藏的有價值的信息,提高篩選和索引率,為用戶提供好服務。隨著計算機技術和互聯網技術的不斷發展,未來網絡爬蟲會朝著精準化、個性化和智能化的方向不斷發展,給人們提供需要的信息,方便人們的工作和生活。

參考文獻

[1]楊文剛,韓海濤.大數據背景下基于主題網絡爬蟲的檔案信息采集[J].蘭臺世界(旬刊),2015(20):20-21.

[2] 陳維.網絡環境下的信息檢索與數據挖掘技術[J].現代情報,2009(5).

猜你喜歡
信息檢索數據挖掘
基于同態加密支持模糊查詢的高效隱私信息檢索協議
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 亚洲人精品亚洲人成在线| 久久a级片| 波多野结衣一区二区三区四区视频| 在线观看91精品国产剧情免费| 五月天在线网站| 无码日韩精品91超碰| 国产精品专区第一页在线观看| 亚洲A∨无码精品午夜在线观看| 久久国产乱子| 暴力调教一区二区三区| 国产电话自拍伊人| 亚洲中文精品久久久久久不卡| 日韩在线观看网站| 日韩精品中文字幕一区三区| 五月天婷婷网亚洲综合在线| 亚洲首页在线观看| 情侣午夜国产在线一区无码| 色综合成人| 欧美日韩国产在线人成app| 久久青草精品一区二区三区| 亚洲综合婷婷激情| 一本综合久久| 青青操国产| 一级成人a做片免费| 成人福利在线免费观看| 97久久精品人人做人人爽| 成人a免费α片在线视频网站| 成人福利视频网| 国产精品漂亮美女在线观看| 最新国产网站| 亚洲视频影院| 青青青国产精品国产精品美女| 伊人五月丁香综合AⅤ| 黄片在线永久| 日韩国产欧美精品在线| 国产成人精彩在线视频50| 国产手机在线小视频免费观看| 在线播放精品一区二区啪视频 | 亚洲人成网站在线播放2019| 无套av在线| 日本高清免费不卡视频| 亚洲成a人片在线观看88| 蜜桃视频一区二区三区| 亚洲成人一区二区三区| 亚洲欧洲日韩综合色天使| 亚洲视频一区在线| 就去色综合| 国产成人禁片在线观看| 色婷婷国产精品视频| 亚洲一级毛片在线播放| 18黑白丝水手服自慰喷水网站| 欧亚日韩Av| 精品视频免费在线| 国产亚洲精品va在线| 欧美一级视频免费| 国产一区在线视频观看| 欧美午夜在线视频| 国产男女XX00免费观看| a级毛片毛片免费观看久潮| 亚洲成网777777国产精品| 欧美伦理一区| 亚洲AⅤ波多系列中文字幕| 国产综合网站| 欧美成人看片一区二区三区| 久久这里只有精品国产99| 狠狠ⅴ日韩v欧美v天堂| 欧美精品在线看| 国产九九精品视频| 国产成人艳妇AA视频在线| 国产精品内射视频| 国产欧美日韩综合一区在线播放| 欧美午夜视频在线| 一本久道久久综合多人| 亚洲国产一区在线观看| 内射人妻无码色AV天堂| 精品国产美女福到在线不卡f| 波多野结衣一区二区三区四区视频| 思思99思思久久最新精品| 114级毛片免费观看| 极品av一区二区| 精品国产91爱| 69国产精品视频免费|