摘 要 在數據挖掘系統中引用web服務,使復雜的算法庫開發簡單化,為動態管理算法庫帶來了便利?;趙eb的數據挖掘系統使任何語言都能夠將數據挖掘算法封裝到web中,與程序設計的語言分離,最大化的實現了算法設計的自由性。因此,基于web的數據挖掘系統具有非常重要的作用。
關鍵詞 web 數據挖掘 系統 設計
中圖分類號:TP311.13 文獻標識碼:A
Web數據挖掘由于其優良的特性,被廣泛的應用于電子商務和企業的決策中。目前,企業管理客戶的主要方式就是通過web管理,企業針對客戶的訪問情況和訪問歷史,為不同的客戶提供不同的個性化服務。Web還可以用作企業與客戶間的交流工具,企業通過web實時與客戶進行互動,以及時了解客戶的喜好。Web由于具有較低的成本,在企業的推廣中應用也很廣泛。企業面臨的最大問題是如何從web大量的信息庫中提取有利于企業發展的信息。
1數據挖掘系統的概述
Web數據挖掘是指用數據挖掘的方法對用戶訪問信息、web頁面內容、電子商務交易信息、用戶注冊信息、站點拓撲結構等方面的數據進行挖掘和分析,并找出有用的信息的過程。人們可以利用web挖掘發現有用的信息、為客戶提供個性化的服務、改善站點的設計等等,web挖掘的方法可以分為結構挖掘、內容挖掘、使用挖掘三種方式。其中,web結構挖掘指的是從web的鏈接關系和組織結構中對知識進行推導的過程。Web中包含的有用的信息不僅僅是頁面上的內容,其結構中也包含著大量有用的信息,需要對其結構進行推導才能發現。Web內容挖掘指的是對web頁面的內容進行挖掘以找到有用的信息。Web使用挖掘指的是對客戶在web服務器上進行訪問的記錄通過web日志等方法進行挖掘。
2web數據挖掘系統的設計
Web數據挖掘表現出顯著的優勢,因此,基于web的數據挖掘系統設計也必然能夠更好滿足企業推廣一個用需求,而在設計數據挖掘系統的過程中也應當充分考慮每一個步驟,以確保設計的合理性。
3數據收集
Web數據挖掘需要挖掘的數據主要分兩方面,即用戶的活動使用信息以及web頁面上包含的頁面拓撲結構和文檔。用戶的活動使用信息主要表現為用戶在企業網站的數據庫的在線注冊、交易信息、電子郵件查詢、響應數據和活動信息,通常是記錄的形式。Web頁面上包含的頁面拓撲結構和文檔主要表現為web服務器的Cookies、日志文件和Error Logs。通常web服務器的日志文件中包括用戶瀏覽網頁的順序和鏈接的點擊順序,例如用戶使用的時間和日期、請求的類型和狀態、主機的地址以及發送的字節數等。數據的收集過程就是從web服務器日志文件中提取有用的信息并對客戶的活動信息進行分析的過程,產生的數據最終用來構建數據倉庫。
4數據處理
點擊流是數據挖掘的重要信息,但由于其數據繁多,對數據挖掘工作者也是一種挑戰。使點擊流的數據進入數據庫主要通過幾個方面的數據統計,即客戶端、應用服務器、數據倉庫、web服務器四個方面??蛻舳耸侵赣脩敉ㄟ^智能工具或瀏覽器等各種方式瀏覽企業的頁面所產生的點擊數據,構建數據庫的過程就是對web服務器的數據進行預處理并轉移到數據倉庫和程序服務器中的數據分析過程。由于數據的量較大,要在大量的數據中提取有用的信息十分困難,因此,對數據進行預處理非常重要。對數據預處理的方法有字符大小寫的轉換和類型轉換等,通過這些工具完成數據的轉換,實現數據的預處理。數據處理的過程需要注意的問題有:首先,數據倉庫必須采用大規模的并行處理機,以滿足大量用戶的需求。其次,數據轉移的速率要高,可通過提高集成度或使用一些數據移動軟件的方法提高數據的轉移速率。
5挖掘模式
企業開發數據挖掘系統的主要目的就是應用數據挖掘的算法對數據倉庫的數據集進行分析和挖掘,提取出有用的信息和模式為企業的決策提供依據。因此,選擇一種有效的挖掘模式具有重要的意義,下面有幾種可供選擇的模式,第一,對用戶的訪問記錄利用路徑分析的方法進行分析。路徑分析利用的是web的日志文件中用戶的訪問記錄,并把用戶的訪問路徑按時間的先后進行排序。第二,對頻繁的頁面集利用關聯規則分析的方法進行分析,如對于兩本不同的書A和B中的頁面1和2,利用關聯規則分析的方法得出(1,2)是頻繁頁面集,當用戶瀏覽書A的頁面1時,將書B的頁面2加以緩存,從而提高web的緩存性能。第三,對相似的客戶和頁面利用聚類分析的方法進行分析。聚類分析包括客戶聚類和頁面聚類,主要分析具有相似性的客戶,對其相似的愛好提供個性化的服務。第四,對可能存在的潛在客戶利用分類和預測的方法進行挖掘。分類和預測方法是指通過對客戶的購買商品和訪問特征對客戶加以分類,從而為潛在的客戶開展促銷活動并對銷售情況進行預測。
6結束語
Web數據挖掘系統是目前較熱門的研究課題,具有廣闊的應用和發展空間,市場潛力巨大。基于web的數據挖掘系統與傳統的數據挖掘系統相比具有能夠使數據、接口和算法分離的優點,簡化了算法庫的開發。web數據挖掘系統主要研究的內容包括數據的預處理、收集和技術的開發。目前我國的數據挖掘技術與發達國家相比還有一定差距,仍需不斷的發展和完善。
參考文獻
[1] 李新金.Web使用挖掘在網絡學習平臺中的應用研究[J].浙江師范大學.2012,05(6):18.
[2] 劉天壘.基于Web的農業數據挖掘系統的研究與實現[J].中國農業科學院.2012,10(4):11.