[摘 要] Web數據挖掘已經成為當前廣泛研究的課題。目前許多網站都是用HTML構建的,給Web數據挖掘帶來了諸多困難,XML的出現為Web數據挖掘帶來了便利。本文介紹了Web數據挖掘的概念和遇到的困難,分析了XML在Web數據挖掘中的應用。
[關鍵詞] Web數據挖掘 XML 半結構化數據
數據挖掘是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。Web上有大量的數據信息,怎樣對這些數據進行挖掘以實現復雜的應用,已成為現今數據庫技術的研究熱點。
一、Web數據挖掘的概念
Web數據挖掘是一項涉及Web技術、數據庫、機器學習、數據挖掘、統計學、計算機語言學等多學科的綜合技術,不同的研究人員從不同的角度出發,對Web數據挖掘有著不同的理解。研究搜索引擎的人著重于Web頁面的文本數據的分析;而設計Web站點結構的人,則著重于用戶對Web站點訪問模式的研究。具體來說,Web數據挖掘是指通過一定的算法,從大量的、不完全的隨機的Web數據中抽取模式、提取知識的過程,其實質是一種從數據庫中學習的方法,可以彌補數據檢索的不足。
二、Web數據挖掘面臨的困難
從數據準備階段來看,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多,主要體現在以下兩個方面:
1.異構數據庫環境。從數據庫研究的角度出發,Web網站上的信息也可以看作一個大而復雜的數據庫。Web上的每個站點就是一個數據源,每個數據源都是異構的,而且每個站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。要利用這些數據進行數據挖掘,首先,要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決web上的數據查詢問題,因為如果不能有效地得到所需的數據,對這些數據進行分析、集成,處理就無從談起。
2.半結構化的數據結構。Web上的數據與傳統的數據庫中的不同,傳統的數據庫都有一定的數據模型,可以根據模型來描述特定的數據。而Web上的數據非常復雜,沒有特定的模型,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,使其成為一種非完全結構化的數據,這也被稱為半結構化數據。半結構化是Web上數據的最大特點 。
三、XML在Web數據挖掘中的應用
XML是一種標記語言,具有簡單、開放、高效可擴充和標準國際化等特點。它可被看作一種半結構化的數據模型,能很容易地與關系數據庫中的屬性一一對應,實施精確的查詢與模型抽取,方便地實現數據挖掘。XML在Web數據挖掘中的應用分析如下:
1.實現異構數據集成管理。XML是一種半結構化的數據模型。用戶可以很容易地將其和關系數據庫中的屬性一一對應,實施精確地記錄、查詢與模型抽取。因此,XML解決了每一個站點之間信息和組織都不一樣的問題,使不同站點上的非結構性數據可以很容易地規范到一個既定數據庫上。軟件代理商可以在中間層的服務器上,對從后端數據庫和其他應用獲取的數據進行集成。
2.將負載處理從web服務器轉到web客戶端。一般來說,數據處理階段是數據挖掘的重要環節,Web挖掘也不例外,大量的數據預處理工作都需要服務器端完成。按照傳統的C/S模式來開發,客戶向服務器發出不同的請求,服務器分別予以響應,這不僅加重服務器本身的負荷,而且網絡管理員還需事先調查各種不同的用戶需求開發出相應的程序。假如用戶的需求繁雜而多變,將所有業務邏輯集中在服務器端顯然不合適。因為服務器端編程人員可能來不及滿足眾多的應用需求,也無法適應需求的變化,雙方都很被動。而XML將數據處理的主動權交給了客戶,服務器端所要做的工作只是盡可能準確、完善地將數據封裝成XML文件后發送給客戶??蛻舳烁鶕约旱男枨筮x擇和制作不同的應用程序以解析所接收的數據,并對數據進行編輯和處理。XML自帶的解釋執行系統在接收到數據的同時也理解了數據的邏輯結構和含義,因而使分布式計算成為可能。
3.促進數據交換。在Web數據挖掘過程中,用戶經常需要在不同結構的數據源之間進行業務數據傳遞?;赬ML的數據是自我描述的,數據不需要內部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理。XML格式的數據發送給客戶后,客戶可以用應用軟件方便地解析數據,以及對數據進行編輯和再處理,使用者可以用不同的方法處理數據,而不僅僅是顯示它,XML文檔對象模式(DOM)允許用腳本或其他編程語言處理Web數據,數據計算不需要回到服務器就能進行??傊谶@類應用中XML解決了數據的統一接口問題。但是,與其他的數據傳遞標準不同的是XML并沒有定義文件中具體數據規范,而是在數據中附加標志來表達數據的邏輯結構和含義,這使得XML成為一種程序能自動理解的規范。
4.根據用戶需求裁減信息內容。傳統HTML主要描述數據的外觀,而XML可以描述數據的類別。由于數據顯示與內容分開,XML允許為數據指定不同顯示方式,使數據更合理地表現出來。XML還可以對所取得的信息進行裁減和編輯以適應不同的用戶需求:它采用簡單靈活的格式分離使用者觀察數據的界面,將同樣的數據以不同瀏覽形式提供給不同用戶。與其他數據傳遞標準不同的是,XML并沒有定義數據文件中數據出現的具體規范,而是在數據中附加標志來表達數據的邏輯結構和含義,這使XML成為一種程序能自動理解的規范。
四、結束語
由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。隨著XML作為在Web上交換數據的一種標準方式廣泛普及,Web數據挖掘將會變得高效與輕松。
參考文獻:
[1]Han Jiawei, Micheline K:數據挖掘概念與技術[M].北京:機械工業出版社,2001,290~294
[2]王澤彬 金 飛 李 夏 王 冠:Web數據挖掘技術及實現. 哈爾濱工業大學學報,2005.Vol.37.No.10