摘要:相對于有效的數據倉庫和數據挖掘而言, Web面對的是一個廣泛形形色色的用戶群體和在Web上的信息只有很小的一部分是相關的或有用等等的一些問題。解決這些問題的一個途徑就是將傳統的數據挖掘技術和Web結合起來,進行Web數據挖掘。本文從XML與web數據挖掘兩項技術相結合入手進行研究,提出了一個基于XML的Web數據挖掘系統模型。運用XML解決Web數據挖掘中的數據抽取,最后對該方法進行了實例應用說明。證明本模型能夠幫助人們更有效地從web上獲取知識。
關鍵詞:數據挖掘;XML;關聯規則; DTD
[中圖分類號]:G250.74[文獻標識碼]:A
[文章編號]:1002-2139(2011)-20-0236-01
2000年以后,國內外把XML和數據挖掘結合起來的研究逐漸增多。由于XML廣泛應用于Web上,對基于XML的Web數據挖掘的研究越來越受到重視。WEB數據挖掘具有半結構化的數據結構、異構數據庫環境以及解決半結構化的數據源問題等特點[1],而XML(eXtensible Markup Language)的出現為解決WEB數據挖掘難點提供了很好的解決方法[2]。
1、理論基礎
1.1XML
XML的全稱為可擴展標記語言,是由互聯網協會(W3C)于1998年提出和設計的,由標準通用標一記語言SGML中派生而來的。XML正在逐步成為第一代Web數據描述和數據交換的標準[3]。XML包含3個要素:DTD(文檔類型定義)或XMLSchema、XSL(可擴展樣式表語言)和XLL(可擴展鏈接語)。其中,DTD規定了XML文件的邏輯結構;XSL用來描述文檔如何顯示,使得數據與其表現形式相互獨立;XLL功能更加強大,使用XLL可以多方向鏈接,而且鏈接不再局限于頁面層級[4]。通過DTD使XML文檔結構化,這樣很容易驗證文檔數據的合法性,容易提取文檔中的數據[5]。
1.2數據挖掘
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,簡單地說,提取隱含在其中的、人們感興趣的、潛在有用的信息和知識的過程[7]。數據挖掘是從大量數據中提取或“挖掘”知識。
人們把數據看做是形成知識的源泉,通過對數據進行組織、分析、處理,然后應用數據挖掘技術得到人們感興趣的知識。原始數據可以來自于關系數據庫、數據倉庫、事務數據庫、空間數據庫、面向對象數據庫,也可以來自于文本數據源、多媒體數據,以及分布在Web上的異構數據源。可以使用不同的方法發現知識,如數學的和非數學的方法,演絳的和歸納的方法等。因此,數據挖掘是一門匯聚了不同領域的交叉學科,包括數據庫技術、統計學、機器學習、高性能計算、模式識別、數據可視化、信息檢索、圖像與信號處理和空間數據分析等。數據挖掘技術把人們對數據的低層應用,如簡單查詢等,提升到從數據中挖掘知識,對所得知識進行高層運用。因此,它是一種具有強大實際作用和前途的學科。
1.3Web數據挖掘
Web挖掘是一項綜合技術,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域。不同研究者從自身的領域出發,對Web挖掘的含義有著不同的理解,項目開發也各有其側重點。我們從更為一般的角度出發,對Web挖掘作如下定義[8]:Web挖掘是指從大量Web文檔的集合C中發現隱含的模式P。如果將C看作輸入,將P看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射£:C-P。
Web挖掘從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似。但是,Web挖掘與傳統的數據挖掘相比有許多獨特之處。首先Web挖掘的對象是大量、異質、分布的Web文檔。其次,Web在邏輯上是一個由文檔節點和超鏈接構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于Web結構的。此外,由于Web文檔本身是半結構化或無結構的,且缺乏機器可理解的語義。而傳統數據挖掘的對象局限于數據庫中的結構化數據,并利用關系表格等存儲結構來發現知識,因此有些數據挖掘技術并不適用于Web挖掘,即使可用也需要建立在對Web文檔進行預處理的基礎之上。
2、基于XML的Web數據挖掘技術
面向Web的數據挖掘是一項復雜的技術,由于Web數據挖掘比單個數據倉庫的挖掘要復雜得多,因而面向Web的數據挖掘成了一個難以解決的問題。而XML的出現為解決Web數據挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數據,從而能描述搜集的Web頁中的數據記錄。同時,由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個工業標準,XML為組織、軟件開發者、Web站點和終端使用者提供了許多有利條件。
3、基于XML的web數據挖掘的系統結構
基于XML的web數據挖掘的系統在總體上分為三層。底層是XML數據集成層,用XML作為工具將相關數據進行集成、整合、抽取,形成一個有一定結構信息的原始XML數據集,作為中間層數據預處理層的數據來源;在中間層中對XML數據集進行數據選擇、清理和規范化,產生結構化程度更高的具有豐富語義的XML數據集,作為頂層即數據挖掘應用層的數據源;在數據挖掘應用層中有一些具體的數據挖掘應用需要將結果通過報表、即時查詢、統計圖等形式向決策人員展示。
4、結論
隨著Internet的迅速發展,越來越多的數據庫和信息系統不斷加入網絡,使得網絡上存在大量的數據,面對如此復雜的Web數據,如何從復雜的網絡數據中發掘所需信息已經成為人們所關注的一個重要問題。由于XML具有可擴展性、結構化和有效性等特性,建立了一種傳輸結構化數據的方法,使用戶能夠對Web信息實施精確查詢與模型抽取,因此將XML與Web數據挖掘相結合進行研究逐漸成為了數據挖掘領域內的一個新熱點。
參考文獻:
[1]曼麗春,朱宏.WEB數據挖掘研究與探討[J].西南民族大學學報:自然科學版,2005,31(2):305.
[2]王玉珍.WEB數據挖掘技術與XML[J].信息技術,2005(10):142-143.
[3]Bray T,Pao1iJ,Sperberg-MeQueenCM.ExtensibleMarkupLanguage(XML)1.0, W3C,recommendation[EB/OL].http://www.w3.org/TR/1998/REC-xml-19980210.8.December,1997.
[4]LaurentSS.XML基礎與應用〔M〕.云舟工作室譯.北京:中國水利水電出版社,2002.
[5]何月順,劉光萍等.XML與面向Web的數據挖掘技術的應用研究.江西農業大學學報,2004;(6)
[6]Jussi Myllymak. Effective Web Data Extraction with Standard XML Technolo-gies. http://www.research.ibm.com/people/j/jussipapers/ANDES/ANDES.pdf