Web數(shù)據(jù)挖掘綜述

2016-10-24 05:03:35三峽電力職業(yè)學(xué)院電力工程學(xué)院熊富琴

電子世界 2016年18期

關(guān)鍵詞：數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息

三峽電力職業(yè)學(xué)院電力工程學(xué)院　熊富琴

Web數(shù)據(jù)挖掘綜述

三峽電力職業(yè)學(xué)院電力工程學(xué)院熊富琴

本文對(duì)Web數(shù)據(jù)挖掘進(jìn)行了詳細(xì)的綜述。首先探討了Web上面數(shù)據(jù)特征提取方法，從Web內(nèi)容挖掘、結(jié)構(gòu)挖掘、使用挖掘三個(gè)角度介紹了相應(yīng)的技術(shù)。由于Web的異構(gòu)性，使得Web數(shù)據(jù)挖掘稱為一個(gè)難點(diǎn)，必須綜合數(shù)據(jù)挖掘的各種技術(shù)，才能得以實(shí)現(xiàn)。然后本文介紹了一個(gè)關(guān)于電子商務(wù)數(shù)據(jù)挖掘應(yīng)用的實(shí)例并強(qiáng)調(diào)了Web數(shù)據(jù)挖掘的重要意義。最后總結(jié)和現(xiàn)存的問題，并對(duì)未來的研究熱點(diǎn)進(jìn)行展望。

Web數(shù)據(jù)挖掘；挖掘流程；網(wǎng)頁(yè)；Web內(nèi)容挖掘；Web日志挖掘

1　前言

隨著互聯(lián)網(wǎng)絡(luò)蓬勃發(fā)展，計(jì)算機(jī)已經(jīng)稱為人們生活中無法缺少的工具，由此人人都在想互聯(lián)網(wǎng)上增加信息，Web上的數(shù)據(jù)日益增多，從企業(yè)角度和普通用戶角度，怎樣更好的訪問互聯(lián)網(wǎng)，怎樣更好的讓互聯(lián)網(wǎng)為人們服務(wù)，稱為網(wǎng)絡(luò)發(fā)展下一個(gè)重要課題，本文探討了Web數(shù)據(jù)挖掘技術(shù)，它是勝過數(shù)據(jù)庫(kù)技術(shù)的一種更高效獲取信息的技術(shù)。

2　Web數(shù)據(jù)特征提取的方法

2.1Web數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘是指使用算法抽取信息和模式，是從數(shù)據(jù)中發(fā)現(xiàn)有用的信息和模式的過程的一個(gè)步驟。Web數(shù)據(jù)挖掘就是挖掘與萬(wàn)維網(wǎng)有關(guān)的數(shù)據(jù)，既可以是網(wǎng)頁(yè)包含的數(shù)據(jù)也可以是Web操作所產(chǎn)生的數(shù)據(jù)。

2.2Web挖掘流程

Web上的信息是異構(gòu)的或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的，所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的數(shù)據(jù)處理流程包括：（1）查找資源；（2）信息清理和預(yù)處理；（3）模式發(fā)現(xiàn)；（4）模式分析。

2.3Web數(shù)據(jù)挖掘活動(dòng)分類［1］

Web數(shù)據(jù)挖掘活動(dòng)可分為三種：Web內(nèi)容挖掘，Web結(jié)構(gòu)挖掘和Web使用挖掘。

（1）Web內(nèi)容挖掘

網(wǎng)頁(yè)使用HTML語(yǔ)言定義，因此是異構(gòu)的，無法使用數(shù)據(jù)庫(kù)的查詢方法，查詢變得異常困難，而XML用于描述結(jié)構(gòu)化的文檔，容易進(jìn)行挖掘操作。基本的Web內(nèi)容挖掘是一種文本挖掘。文本挖掘的功能可以用一個(gè)層狀結(jié)構(gòu)表示，最簡(jiǎn)單的位于最上一層，最下一層對(duì)應(yīng)最復(fù)雜功能。目前已有研究把自然語(yǔ)言處理技術(shù)用于文本挖掘，以發(fā)現(xiàn)文本中隱含的語(yǔ)義。

（2）Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是為Web的組織建立一個(gè)模型，模型用來對(duì)網(wǎng)頁(yè)進(jìn)行分類或者為網(wǎng)頁(yè)建立相似性度量。同樣用于提高搜索引擎的效率，通過度量網(wǎng)頁(yè)的重要性，以及為傳統(tǒng)搜索引擎使用關(guān)鍵字搜索的結(jié)果進(jìn)行優(yōu)先級(jí)排序。PageRank算法用于提高搜索引擎的效果和效率，網(wǎng)頁(yè)的PageRank值通過指向它的網(wǎng)頁(yè)計(jì)算。

（3）Web使用挖掘

Web使用挖掘的研究對(duì)象是Web使用數(shù)據(jù)或者Web日志，Web日志是一列網(wǎng)頁(yè)訪問數(shù)據(jù)。Web日志有時(shí)被稱為點(diǎn)擊數(shù)據(jù)流，當(dāng)從服務(wù)器角度分析時(shí)，挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息，挖掘的結(jié)果可以幫組改善網(wǎng)站的設(shè)計(jì)。Web使用日式的格式需要進(jìn)行格式轉(zhuǎn)換和清洗才能用于挖掘程序，稱之為預(yù)處理。然后使用若干種數(shù)據(jù)結(jié)構(gòu)來記錄識(shí)別出的模式，例如trie就是一種樹結(jié)構(gòu)。通過對(duì)存儲(chǔ)模式進(jìn)行模式發(fā)現(xiàn)并歸類，最后將發(fā)現(xiàn)的模式拿來分析以確定其如何使用，例如刪除用戶不感興趣的模式。舉例說明，對(duì)電子商務(wù)網(wǎng)站的顧客和非顧客用戶的瀏覽模式進(jìn)行比較，網(wǎng)站的訪問者被分為短期訪問者、調(diào)查者和顧客，通過預(yù)處理首先過濾掉短息訪問者，使用概念層次把網(wǎng)頁(yè)內(nèi)容進(jìn)行抽象，在將Web日志分為顧客和非顧客的，然后按照次數(shù)分析每部分日志以尋找模式，最后對(duì)每部分找到的模式作相似性比較，如果兩個(gè)模式的序列最開始至少n個(gè)網(wǎng)頁(yè)相同，那么這兩個(gè)模式相似，否則不相似。如果發(fā)現(xiàn)非顧客的模式，并且沒有相似的顧客模式，表明網(wǎng)站的鏈接結(jié)構(gòu)或者網(wǎng)頁(yè)的內(nèi)容設(shè)計(jì)需要更新。

圖1　Web挖掘分類

3　Web數(shù)據(jù)挖掘應(yīng)用實(shí)例

隨著互聯(lián)網(wǎng)的規(guī)模壯大，許多企業(yè)都建立了自己的電子商務(wù)網(wǎng)站。通過Web數(shù)據(jù)挖掘，及時(shí)了解企業(yè)的整體運(yùn)營(yíng)情況，針對(duì)問題快速做出反應(yīng)；收集市場(chǎng)信息，及時(shí)反饋給高層決策者和研究開發(fā)等有關(guān)部門，進(jìn)行高效、準(zhǔn)確的市場(chǎng)決策。對(duì)銷售記錄、顧客信息的挖掘與分析，掌握最新的信息以獲得更多的市場(chǎng)，甚至可以根據(jù)顧客的查找興趣、查找頻率、查找時(shí)間動(dòng)態(tài)地調(diào)整頁(yè)面結(jié)構(gòu)，改進(jìn)服務(wù)，給客戶個(gè)性化的界面，開發(fā)有鎖定性的電子商務(wù)，以更好地滿足查找者的需要。根據(jù)數(shù)據(jù)挖掘流程，建立以下模型［2］，如圖2所示。

圖2　基于數(shù)據(jù)挖掘的電子商務(wù)模型

4　Web數(shù)據(jù)挖掘的意義

保存在計(jì)算機(jī)硬盤和數(shù)據(jù)庫(kù)中的數(shù)據(jù)正在飛速的增長(zhǎng)，否則也不會(huì)有海量存儲(chǔ)問題的提出了。同時(shí)，這些數(shù)據(jù)是否值得繼續(xù)存儲(chǔ)，怎樣從現(xiàn)有數(shù)據(jù)中獲取更有價(jià)值的信息，成為計(jì)算機(jī)使用者的面臨的問題和期望實(shí)現(xiàn)的目標(biāo)。只要人們一直使用計(jì)算機(jī)，那么數(shù)據(jù)就會(huì)一直不斷的增長(zhǎng)，數(shù)據(jù)庫(kù)管理系統(tǒng)中的查詢即使再優(yōu)化，它始終面臨由于數(shù)據(jù)量太大而效率異常低的問題。人們希望能夠更加高效的使用數(shù)據(jù)，數(shù)據(jù)挖掘就是能夠解決這些問題的技術(shù)。

5　Web數(shù)據(jù)挖掘現(xiàn)存的問題

數(shù)據(jù)挖掘當(dāng)前的研究進(jìn)展類似于早期數(shù)據(jù)庫(kù)的發(fā)展情況。由于可以將數(shù)據(jù)定義抽象化并且通過較少的必需的核心原語(yǔ)來存取數(shù)據(jù)，數(shù)據(jù)庫(kù)管理系統(tǒng)獲得了成功，對(duì)于數(shù)據(jù)挖掘任務(wù)也要進(jìn)行這個(gè)抽象過程，并且分別處理每個(gè)任務(wù)。然后到目前為止數(shù)據(jù)挖掘工作都只是專注于特定的算法來實(shí)現(xiàn)每個(gè)單獨(dú)的數(shù)據(jù)挖掘任務(wù)，并沒有將數(shù)據(jù)挖掘任務(wù)進(jìn)行抽象化。

6　Web數(shù)據(jù)挖掘的研究熱點(diǎn)

在未來一段時(shí)間內(nèi)，Web挖掘中的以下方面可能成為研究和應(yīng)用熱點(diǎn)［3］。

（1）高性能Web搜索引擎。

（2）Web數(shù)據(jù)的特征描述與監(jiān)控。

（3）Web數(shù)據(jù)的獲取與集成。

（4）Web數(shù)據(jù)流的挖掘。

（5）安全與非法訪問檢測(cè)。

（6）個(gè)性化與安全的隱私。

（8）Web挖掘的算法改進(jìn)與質(zhì)量的評(píng)估。

（9）Web挖掘在社會(huì)領(lǐng)域的應(yīng)用。

7　小結(jié)

本文從Web數(shù)據(jù)特征提取的方法入手，詳細(xì)介紹了Web數(shù)據(jù)挖掘技術(shù)的相關(guān)理論，數(shù)據(jù)挖掘流程、數(shù)據(jù)挖掘任務(wù)分類、數(shù)據(jù)挖掘相關(guān)算法等，并引用了一個(gè)在電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的實(shí)例對(duì)數(shù)據(jù)挖掘的重要性進(jìn)行了驗(yàn)證，然后探討了Web數(shù)據(jù)挖掘的意義和現(xiàn)存的問題，最后就當(dāng)前社會(huì)應(yīng)用問題對(duì)未來Web數(shù)據(jù)挖掘的研究熱點(diǎn)進(jìn)行了總結(jié)。

［1］Margaret H.Dunham.Data Mining［M］.北京：清華大學(xué)出版社.

［2］程苗.電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘方案設(shè)計(jì)［J］.計(jì)算機(jī)科學(xué)，2007（8）：34.

［3］胡學(xué)鋼.Web數(shù)據(jù)挖掘研究綜述［J］.計(jì)算機(jī)應(yīng)用研究，2007（6）：24.

［4］R.Kosla and H.Blockeel.Web mining research a survey［J］.SIG KDD Explorations，vol.2，pp.1-15，July 2000.

［5］YANG Xin，LIU Heng.A Data Mining Based on Intrusion Detection System Model［J］.Computer Science，2003，30（1）：124-127.

［6］李娟，董軍.Web數(shù)據(jù)挖掘技術(shù)綜述［J］.南京職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2008，8（2）.

熊富琴（1982—），女，湖北鄖縣人，三峽電力職業(yè)學(xué)院講師，主要研究方向：計(jì)算機(jī)應(yīng)用技術(shù)。

Web數(shù)據(jù)挖掘綜述

1 前言

2 Web數(shù)據(jù)特征提取的方法

3 Web數(shù)據(jù)挖掘應(yīng)用實(shí)例

4 Web數(shù)據(jù)挖掘的意義

5 Web數(shù)據(jù)挖掘現(xiàn)存的問題

6 Web數(shù)據(jù)挖掘的研究熱點(diǎn)

7 小結(jié)

1　前言

2　Web數(shù)據(jù)特征提取的方法

3　Web數(shù)據(jù)挖掘應(yīng)用實(shí)例

4　Web數(shù)據(jù)挖掘的意義

5　Web數(shù)據(jù)挖掘現(xiàn)存的問題

6　Web數(shù)據(jù)挖掘的研究熱點(diǎn)

7　小結(jié)