999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲原理的Web內容挖掘技術分析

2013-04-29 00:44:03何翼陳文娟蒲天銀
計算機時代 2013年7期

何翼 陳文娟 蒲天銀

摘 要: 目前Web數據挖掘技術已得到廣泛應用,通過對Web挖掘分類和挖掘基本理論的分析,提出網絡爬蟲原理內容挖掘方法,深入分析這種方法的原理和工作流程。爬蟲原理的應用可滿足特定用戶的需求,實現高效、快捷、針對性強的查詢。

關鍵詞: Web挖掘分析; 網絡爬蟲; 原理分析

中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2013)07-01-02

0 引言

隨著Internet的日益普及,電子商務正以其成本低廉、方便、不受時空限制等突出優點而逐步在全球流行。同時經濟模式也發生了變化,從傳統的實體商店到Internet上的電子交易,改變了銷售商和顧客的關系。現在,網上顧客的流動性很大,他們更多關注商品的使用價值和價格,而不像以前更多關注品牌和地理因素。因此,電子銷售商一個主要的挑戰是盡可能多地了解到客戶的興趣愛好和價值取向,以保證在電子商務時代的競爭力。通過Web日志挖掘,可以發現顧客的購買偏好;發現忠實客戶,為他們提供個性化的服務,延長客戶的駐留時間;發現潛在用戶,為他們提供個性化頁面,變潛在用戶為忠實客戶,擴大市場占有率;分析客戶未來可能發生的行為,進行有針對性的電子商務營銷活動,提高廣告的投資回報率。所以從長遠看對基于Web數據挖掘的研究很有必要。

1 Web數據挖掘概述

Web數據挖掘是數據挖掘技術的重要應用,它是指在大量訓練樣本的基礎上,得到數據對象間的內在特性,并以此為依據在網絡資源中進行有目的的信息提取[1]。

1.1 Web數據挖掘流程

Web數據挖掘總體上講來,可以由五個流程來完成,如圖1所示。

⑴ Web查找資源:根據所提供的目標Web文檔內容,采用一定的技術方法獲得相應的數據,形成挖掘的數據源。需要說明的是,這部分資源不僅局限于在線Web文檔資源,還包括與其相關的電子郵件、電子文檔、新聞組,或者網站的日志數據資源,甚至還可包括通過Web形成的交易數據庫中的數據資源。如何對這些資源進行融合是一個極為重要的問題。

⑵ 信息選擇和預處理:通過查詢獲得的數據源,從中篩選出有用的信息,并將其按一定的類型進行歸集。

⑶ 模式發現:針對歸集得到的有用信息,將其應用于某一具體的站點或多個相應的站點,并進行自動模式發現。

⑷ 模式分析:對模式發現階段得到的一些模式進行分析,驗證、解釋每一步驟間產生的模式的關聯關系。這一階段的工作可以由機器自動完成,也可以與分析人員進行交互來完成,主要依據模式發現規模來確定。

⑸ 信息整理:對經過模式分析得到的信息進行進一步挖掘整理,將其應用于Web商務中。

1.2 Web數據挖掘分類

Web挖掘技術研究至今,已有一些不同的方法,一般根據對Web數據的感興趣程度不同,可將Web數據挖掘分為Web內容挖掘、Web結構挖掘、Web用法挖掘三類。

⑴ Web內容挖掘:Web內容挖掘指從Web內容中發現有用信息[2]。Web上的信息由各種類型的數據源組成,包括WWW、FTP、Telnet等,比如數字圖書館、政府信息服務、電子商務數據,以及其他可以通過Web訪問的數據庫。

⑵ Web結構挖掘:從廣義上講,Web的結構包含三個內容:一是不同網頁間的超鏈接;二是網頁內部的網絡地址字符串中的目錄路徑結構信息;三是網頁內部內容可以用HTML、XML表示成的樹形結構信息[3]。

⑶ Web用法挖掘:即Web使用紀錄挖掘技術[4],在新興的電子商務領域有重要意義,它通過挖掘相關的Web日志紀錄,來發現用戶訪問Web頁面的模式;通過分析日志紀錄中的規律,可以識別用戶的喜好與滿意度,這些分析數據可以幫助我們提高站點的服務質量,同時發現未來潛在用戶。

2 爬蟲原理

爬蟲是一個用來分解Web中超文本結構的工具,而網絡爬蟲則可以認為是一個自動提取網頁的程序,它為搜索引擎從萬維網下載網頁,是搜索引擎的重要組成部分。一個商業網站的Web頁面是以超鏈接的關系存在的,這就組成了類似一張張的網。

網絡爬蟲是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,同時找到在網頁中的其他鏈接地址,通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,最終把這個網站所有的網頁都抓取完為止[5]。

假設把整個互聯網當成一張網,那么網絡爬蟲就可以用這個原理在這張網上把互聯網上所有的網頁信息都抓取下來。具體可按如下步驟。

Step1:從一個或若干初始網頁的網頁地址開始,獲得初始網頁上的網頁地址;

Step2:不斷從當前頁面上抽取新的地址放入隊列,直到滿足系統的一定條件才停止。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的地址隊列;

Step3:根據一定的搜索策略從隊列中選擇下一步要抓取的網頁地址;

Setp4:不斷重復步驟2-3,直到達到系統的某個條件發出停止指令,不再往下訪問;

Setp5:將所有被爬蟲抓取的網頁存貯,并進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導;

Setp6:任務完成。

3 基于爬蟲內容挖掘分析

3.1 內容挖掘過程

同Web挖掘總體過程一樣,內容挖掘過程由數據獲得、數據分析、數據保存、內容挖掘四個過程組成[6],具體介紹如下。

⑴ 數據的獲得:利用爬蟲原理對Web相應數據進行查找,從需要的信息起始頁開始運行爬蟲程序取得數據信息,得到與商務相關的大多數Web頁面上的信息。這部分資源不僅局限于在線Web文檔資源,同時還有與其相關的電子郵件、電子文檔、新聞組,或者網站的日志數據資源。

⑵ 數據的分析:對Web相關數據進行分析,在對鏈接頁面進行搜索的過程中,經常需要判斷信息的屬性或分析信息的價值。這一階段的數據非常多,必須在前一階段進行分類,同時對有些數據要進行必要的處理,不必要的必須將其刪除,否則影響分析進程,比如一些廣告信息等并不是我們所需要的數據。

⑶ 數據的保存:通過前一過程的分析,需要把經過分析得到有效的數據最終保存到一定數據庫(就目前針對海量數據來講,一般選擇如SQL Server2008等)當中,目的是為了下一步最終的挖掘作準備工作。

⑷ 數據挖掘:利用一定的挖掘技術對數據進行深入分析,最終獲取有效的信息,同時對信息模式進行相應的分類,并對這些分類模式進行驗證。

3.2 網絡爬蟲挖掘技術實現

本爬蟲技術采用非遞歸方式來實現爬行過程。在實現過程中要構建等待隊列、運行隊列、完成隊列、錯誤隊列四個隊列,需經過三個流程[7]。

這四個隊列如下:

⑴ 等待隊列是爬蟲初始網頁地址和爬蟲程序新發現的網頁地址的集合;

⑵ 運行隊列是爬蟲程序正在處理的網頁地址的集合;

⑶ 完成隊列是已經被爬行完成的網頁地址的集合;

⑷ 錯誤隊列是爬蟲程序在解析頁面出錯或讀取數據超時網頁地址的集合。

網絡爬蟲程序在執行時,同一時刻一個網頁地址只能在一個隊列中,我們把它稱為一個網頁地址狀態。程序按狀態圖從一個狀態變換到一個狀態,如圖2所示。

通過圖2過程圖可以看出,一個網頁地址從被待處理到此網頁地址處理完畢要經歷四個網頁地址狀態過程。首先是在等待隊列中,網頁地址等待被自動機進行處理,新發現的網頁地址被加入到這個隊列中;當自動機開始處理某個網頁的網頁地址時,這個網頁地址就被送到運行隊列中進行處理;在處理過程中,可能有兩種情況出現,即這個網頁是否存在問題,要根據這個問題作出相應的處理,如果自動機在抓獲某個網頁時有問題,那么這個網頁的地址將被送到錯誤隊列,錯誤隊列中的地址不能被移入到其他隊列中;如果自動機成功地獲取某個網頁,那么這個網頁的地址將被送到完成隊列,完成隊列中的地址也不能被移入到其他隊列中。

需要注意的是,等待隊列中的地址向運行隊列移交過程中,需要有一個判斷,這個判斷是確定這個網頁是否被訪問過,若訪問過則不能重復爬行;當運行隊列中一個網頁地址處理完成后,等待隊列中地址按照先進先出的原則被加入到該隊列,同時隊列中相應的地址被刪除。

4 結束語

電子商務正在企業和商貿領域中占據著越來越多的市場份額,Web挖掘支持網絡應用,具有很強的平臺適應能力,它的適用性和可移植性強。現在世界上的主要數據庫廠商紛紛開始把數據挖掘功能集成到自己的產品中。作為電子商務成功的重要因素,它必將成為一種關鍵技術。

本文介紹了Web挖掘的基本流程,引入了基于圖形的爬蟲技術挖掘方法,闡述了挖掘步驟,能有效挖掘Web有價值的數據,完成挖掘任務。但由于這種技術基于圖形形式,當面對海量數據時,對圖形的掃描仍然存在一定的困難,這些問題尚需深入分析研究。

參考文獻:

[1] 蔡遒花,張支山.Web使用模式及其在電子商務領域的應用[J].科技管理研究,2005.11:126-127

[2] 陳美榮,楊莉.基于電子商務網站的Web內容挖掘[J].電子商務,2008.2:149

[3] 王玉珍.基于電子商務的Web挖掘技術研究[J].北京電子科學院學報,2005.4:22-25

[4] 吳海珍,鄭群明.Web記錄挖掘及其在旅游電子商務中的應用[J].電腦學習,2005.5:41-42

[5] 周建梁.聚焦爬蟲原理及關鍵技術研究[J].科技資訊,2008.22:26

[6] 李霞.Web內容挖掘在企業電子商務網站的應用研究[J].網絡財富,2010.5:130

[7] 胡晟.基于網絡爬蟲的Web挖掘應用[J].軟件,2012.7:145-147

主站蜘蛛池模板: 国产美女无遮挡免费视频网站| 熟女日韩精品2区| 国产精品第| 激情综合网激情综合| 精品自窥自偷在线看| 欧美第二区| 国产成人亚洲精品蜜芽影院| 91无码人妻精品一区| 亚洲视频一区| 亚洲高清国产拍精品26u| 国产一区二区三区免费观看| 秋霞午夜国产精品成人片| 久久黄色一级片| 女人18毛片一级毛片在线| 黄色网址免费在线| 91在线播放国产| 日韩av无码精品专区| 精品国产一区二区三区在线观看 | 亚洲三级影院| 国产精品30p| 好久久免费视频高清| 99精品在线看| 性网站在线观看| 韩国自拍偷自拍亚洲精品| 国产Av无码精品色午夜| julia中文字幕久久亚洲| 污网站免费在线观看| 国产日韩av在线播放| 欧美午夜网站| 国产成人精品免费av| 成年人久久黄色网站| 国产精品白浆无码流出在线看| 国产91精选在线观看| 日本黄色不卡视频| 国产美女主播一级成人毛片| 97青青青国产在线播放| 国产幂在线无码精品| 亚洲一区二区成人| 亚洲精品卡2卡3卡4卡5卡区| JIZZ亚洲国产| 欧美不卡视频一区发布| 伊伊人成亚洲综合人网7777 | 婷婷色婷婷| 久久亚洲高清国产| 亚洲最新在线| 中文字幕免费播放| 亚洲国产中文精品va在线播放 | 亚洲中文字幕在线精品一区| 国产va在线观看免费| 极品尤物av美乳在线观看| 国产成人成人一区二区| 久久综合久久鬼| 在线欧美a| 国产欧美高清| 夜夜操狠狠操| 婷婷色一二三区波多野衣| 中国一级特黄视频| 亚洲美女一区| 欧美日韩国产成人在线观看| 国产在线第二页| 日韩免费无码人妻系列| 视频一区亚洲| 日韩天堂视频| 精品亚洲麻豆1区2区3区| 日韩精品免费一线在线观看| 国产黄色免费看| av在线无码浏览| 九九九久久国产精品| 国产成人超碰无码| 国产亚洲欧美另类一区二区| 国产成人一区在线播放| 免费在线一区| 在线综合亚洲欧美网站| 美女扒开下面流白浆在线试听| 久久黄色小视频| 91最新精品视频发布页| 欧美日本二区| 亚洲精品视频免费| 黄色国产在线| 国产人妖视频一区在线观看| 日本五区在线不卡精品| 亚洲成a人片|