三峽電力職業(yè)學(xué)院電力工程學(xué)院 熊富琴
Web數(shù)據(jù)挖掘綜述
三峽電力職業(yè)學(xué)院電力工程學(xué)院熊富琴
本文對(duì)Web數(shù)據(jù)挖掘進(jìn)行了詳細(xì)的綜述。首先探討了Web上面數(shù)據(jù)特征提取方法,從Web內(nèi)容挖掘、結(jié)構(gòu)挖掘、使用挖掘三個(gè)角度介紹了相應(yīng)的技術(shù)。由于Web的異構(gòu)性,使得Web數(shù)據(jù)挖掘稱為一個(gè)難點(diǎn),必須綜合數(shù)據(jù)挖掘的各種技術(shù),才能得以實(shí)現(xiàn)。然后本文介紹了一個(gè)關(guān)于電子商務(wù)數(shù)據(jù)挖掘應(yīng)用的實(shí)例并強(qiáng)調(diào)了Web數(shù)據(jù)挖掘的重要意義。最后總結(jié)和現(xiàn)存的問題,并對(duì)未來的研究熱點(diǎn)進(jìn)行展望。
Web數(shù)據(jù)挖掘;挖掘流程;網(wǎng)頁(yè);Web內(nèi)容挖掘;Web日志挖掘
隨著互聯(lián)網(wǎng)絡(luò)蓬勃發(fā)展,計(jì)算機(jī)已經(jīng)稱為人們生活中無法缺少的工具,由此人人都在想互聯(lián)網(wǎng)上增加信息,Web上的數(shù)據(jù)日益增多,從企業(yè)角度和普通用戶角度,怎樣更好的訪問互聯(lián)網(wǎng),怎樣更好的讓互聯(lián)網(wǎng)為人們服務(wù),稱為網(wǎng)絡(luò)發(fā)展下一個(gè)重要課題,本文探討了Web數(shù)據(jù)挖掘技術(shù),它是勝過數(shù)據(jù)庫(kù)技術(shù)的一種更高效獲取信息的技術(shù)。
2.1Web數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是指使用算法抽取信息和模式,是從數(shù)據(jù)中發(fā)現(xiàn)有用的信息和模式的過程的一個(gè)步驟。Web數(shù)據(jù)挖掘就是挖掘與萬(wàn)維網(wǎng)有關(guān)的數(shù)據(jù),既可以是網(wǎng)頁(yè)包含的數(shù)據(jù)也可以是Web操作所產(chǎn)生的數(shù)據(jù)。
2.2Web挖掘流程
Web上的信息是異構(gòu)的或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的數(shù)據(jù)處理流程包括:(1)查找資源;(2)信息清理和預(yù)處理;(3)模式發(fā)現(xiàn);(4)模式分析。
2.3Web數(shù)據(jù)挖掘活動(dòng)分類[1]
Web數(shù)據(jù)挖掘活動(dòng)可分為三種:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用挖掘。
(1)Web內(nèi)容挖掘
網(wǎng)頁(yè)使用HTML語(yǔ)言定義,因此是異構(gòu)的,無法使用數(shù)據(jù)庫(kù)的查詢方法,查詢變得異常困難,而XML用于描述結(jié)構(gòu)化的文檔,容易進(jìn)行挖掘操作。基本的Web內(nèi)容挖掘是一種文本挖掘。文本挖掘的功能可以用一個(gè)層狀結(jié)構(gòu)表示,最簡(jiǎn)單的位于最上一層,最下一層對(duì)應(yīng)最復(fù)雜功能。目前已有研究把自然語(yǔ)言處理技術(shù)用于文本挖掘,以發(fā)現(xiàn)文本中隱含的語(yǔ)義。
(2)Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是為Web的組織建立一個(gè)模型,模型用來對(duì)網(wǎng)頁(yè)進(jìn)行分類或者為網(wǎng)頁(yè)建立相似性度量。同樣用于提高搜索引擎的效率,通過度量網(wǎng)頁(yè)的重要性,以及為傳統(tǒng)搜索引擎使用關(guān)鍵字搜索的結(jié)果進(jìn)行優(yōu)先級(jí)排序。PageRank算法用于提高搜索引擎的效果和效率,網(wǎng)頁(yè)的PageRank值通過指向它的網(wǎng)頁(yè)計(jì)算。
(3)Web使用挖掘
Web使用挖掘的研究對(duì)象是Web使用數(shù)據(jù)或者Web日志,Web日志是一列網(wǎng)頁(yè)訪問數(shù)據(jù)。Web日志有時(shí)被稱為點(diǎn)擊數(shù)據(jù)流,當(dāng)從服務(wù)器角度分析時(shí),挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息,挖掘的結(jié)果可以幫組改善網(wǎng)站的設(shè)計(jì)。Web使用日式的格式需要進(jìn)行格式轉(zhuǎn)換和清洗才能用于挖掘程序,稱之為預(yù)處理。然后使用若干種數(shù)據(jù)結(jié)構(gòu)來記錄識(shí)別出的模式,例如trie就是一種樹結(jié)構(gòu)。通過對(duì)存儲(chǔ)模式進(jìn)行模式發(fā)現(xiàn)并歸類,最后將發(fā)現(xiàn)的模式拿來分析以確定其如何使用,例如刪除用戶不感興趣的模式。舉例說明,對(duì)電子商務(wù)網(wǎng)站的顧客和非顧客用戶的瀏覽模式進(jìn)行比較,網(wǎng)站的訪問者被分為短期訪問者、調(diào)查者和顧客,通過預(yù)處理首先過濾掉短息訪問者,使用概念層次把網(wǎng)頁(yè)內(nèi)容進(jìn)行抽象,在將Web日志分為顧客和非顧客的,然后按照次數(shù)分析每部分日志以尋找模式,最后對(duì)每部分找到的模式作相似性比較,如果兩個(gè)模式的序列最開始至少n個(gè)網(wǎng)頁(yè)相同,那么這兩個(gè)模式相似,否則不相似。如果發(fā)現(xiàn)非顧客的模式,并且沒有相似的顧客模式,表明網(wǎng)站的鏈接結(jié)構(gòu)或者網(wǎng)頁(yè)的內(nèi)容設(shè)計(jì)需要更新。

圖1 Web挖掘分類
隨著互聯(lián)網(wǎng)的規(guī)模壯大,許多企業(yè)都建立了自己的電子商務(wù)網(wǎng)站。通過Web數(shù)據(jù)挖掘,及時(shí)了解企業(yè)的整體運(yùn)營(yíng)情況,針對(duì)問題快速做出反應(yīng);收集市場(chǎng)信息,及時(shí)反饋給高層決策者和研究開發(fā)等有關(guān)部門,進(jìn)行高效、準(zhǔn)確的市場(chǎng)決策。對(duì)銷售記錄、顧客信息的挖掘與分析,掌握最新的信息以獲得更多的市場(chǎng),甚至可以根據(jù)顧客的查找興趣、查找頻率、查找時(shí)間動(dòng)態(tài)地調(diào)整頁(yè)面結(jié)構(gòu),改進(jìn)服務(wù),給客戶個(gè)性化的界面,開發(fā)有鎖定性的電子商務(wù),以更好地滿足查找者的需要。根據(jù)數(shù)據(jù)挖掘流程,建立以下模型[2],如圖2所示。

圖2 基于數(shù)據(jù)挖掘的電子商務(wù)模型
保存在計(jì)算機(jī)硬盤和數(shù)據(jù)庫(kù)中的數(shù)據(jù)正在飛速的增長(zhǎng),否則也不會(huì)有海量存儲(chǔ)問題的提出了。同時(shí),這些數(shù)據(jù)是否值得繼續(xù)存儲(chǔ),怎樣從現(xiàn)有數(shù)據(jù)中獲取更有價(jià)值的信息,成為計(jì)算機(jī)使用者的面臨的問題和期望實(shí)現(xiàn)的目標(biāo)。只要人們一直使用計(jì)算機(jī),那么數(shù)據(jù)就會(huì)一直不斷的增長(zhǎng),數(shù)據(jù)庫(kù)管理系統(tǒng)中的查詢即使再優(yōu)化,它始終面臨由于數(shù)據(jù)量太大而效率異常低的問題。人們希望能夠更加高效的使用數(shù)據(jù),數(shù)據(jù)挖掘就是能夠解決這些問題的技術(shù)。
數(shù)據(jù)挖掘當(dāng)前的研究進(jìn)展類似于早期數(shù)據(jù)庫(kù)的發(fā)展情況。由于可以將數(shù)據(jù)定義抽象化并且通過較少的必需的核心原語(yǔ)來存取數(shù)據(jù),數(shù)據(jù)庫(kù)管理系統(tǒng)獲得了成功,對(duì)于數(shù)據(jù)挖掘任務(wù)也要進(jìn)行這個(gè)抽象過程,并且分別處理每個(gè)任務(wù)。然后到目前為止數(shù)據(jù)挖掘工作都只是專注于特定的算法來實(shí)現(xiàn)每個(gè)單獨(dú)的數(shù)據(jù)挖掘任務(wù),并沒有將數(shù)據(jù)挖掘任務(wù)進(jìn)行抽象化。
在未來一段時(shí)間內(nèi),Web挖掘中的以下方面可能成為研究和應(yīng)用熱點(diǎn)[3]。
(1)高性能Web搜索引擎。
(2)Web數(shù)據(jù)的特征描述與監(jiān)控。
(3)Web數(shù)據(jù)的獲取與集成。
(4)Web數(shù)據(jù)流的挖掘。
(5)安全與非法訪問檢測(cè)。
(6)個(gè)性化與安全的隱私。
(8)Web挖掘的算法改進(jìn)與質(zhì)量的評(píng)估。
(9)Web挖掘在社會(huì)領(lǐng)域的應(yīng)用。
本文從Web數(shù)據(jù)特征提取的方法入手,詳細(xì)介紹了Web數(shù)據(jù)挖掘技術(shù)的相關(guān)理論,數(shù)據(jù)挖掘流程、數(shù)據(jù)挖掘任務(wù)分類、數(shù)據(jù)挖掘相關(guān)算法等,并引用了一個(gè)在電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的實(shí)例對(duì)數(shù)據(jù)挖掘的重要性進(jìn)行了驗(yàn)證,然后探討了Web數(shù)據(jù)挖掘的意義和現(xiàn)存的問題,最后就當(dāng)前社會(huì)應(yīng)用問題對(duì)未來Web數(shù)據(jù)挖掘的研究熱點(diǎn)進(jìn)行了總結(jié)。
[1]Margaret H.Dunham.Data Mining[M].北京:清華大學(xué)出版社.
[2]程苗.電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘方案設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2007(8):34.
[3]胡學(xué)鋼.Web數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(6):24.
[4]R.Kosla and H.Blockeel.Web mining research a survey[J].SIG KDD Explorations,vol.2,pp.1-15,July 2000.
[5]YANG Xin,LIU Heng.A Data Mining Based on Intrusion Detection System Model[J].Computer Science,2003,30(1):124-127.
[6]李娟,董軍.Web數(shù)據(jù)挖掘技術(shù)綜述[J].南京職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008,8(2).
熊富琴(1982—),女,湖北鄖縣人,三峽電力職業(yè)學(xué)院講師,主要研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。