[摘要] 電子商務和數據挖掘受到了人們極大的關注。如何將數據挖掘應用于電子商務,成為企業共同關注的問題。本文中介紹了web挖掘的概念,并以Web日志挖掘為例,闡述了web挖掘在電子商務中的挖掘方法,最后介紹了數據挖掘技術在電子商務中的應用。
[關鍵詞] 數據挖掘 Web挖掘 電子商務 網絡日志
數據挖掘是一門新型的綜合性的技術,它涉及統計學、數據庫、機器學習和人工智能等多方面學科。電子商務是指單個個人或企業單位通過網絡,采用數字化方式進行網上商務數據交換和開展網上商務業務活動的一種新型商業模式,目前國內外已有得到廣泛的應用,像網上購物、網上銀行、網絡結算等等。電子商務以其投資低廉、方便有效、安全可靠、不受時空限制等優點正在全球流行。為了使這種現代商業手段更有效的發揮其潛能,人們正試圖把數據挖掘技術應用于電子商務,這即所謂的Web挖掘,這將極大地推動電子商務的發展。
一、電子商務與數據挖掘的完美結合
隨著電子商務的發展,商業Web網站的競爭日趨激烈。面對大量的電子商務信息,找出用戶感興趣的信息加以組織利用,提高客戶滿意度,從而改進Web站點的設計、改善企業與客戶的關系成為電子商務發展必須要解決的問題。對于企業而言,數據挖掘有助于發現業務發展的趨勢,幫助企業做出正確的決策,使企業處于更有利的競爭位置。在電子商務中進行成功的數據挖掘是基于如下幾點考慮的:
1.電子商務為數據挖掘提供海量的數據。
2.電子商務為數據挖掘提供了大量“干凈的數據”。我們可以通過設計良好的站點,直接從網上獲得跟數據挖掘有關的數據,而無需從歷史數據庫系統中通過分析、計算、預處理等步驟進行數據集成。
3.電子商務為數據挖掘提供豐富的記錄信息,像日志記錄信息,用戶登錄和注冊的客戶信息、Cookies等。
4.在電子商務中進行數據挖掘,其研究成果容易轉化,即研究成果可以很好的應用于實際中。在電子商務中這些都很容易做到,只需要改變一下站點的設計、改變一下超鏈接的次序、改變一下彈出廣告策略等等。
5.在電子商務中進行數據挖掘,易衡量投資收益。
二、電子商務中的Web數據挖掘方法
電子商務中可以挖掘的數據源包括以下幾種:服務器端的網頁數據及日志文件、代理服務器端數據、用戶登記信息。下面我們就以電子商務中Web日志挖掘為例,詳細介紹電子商務中的數據挖掘過程。
1.典型Web日志的結構。下圖給出Web日志:
從上面的日志文件可以看出日志記錄會記錄客戶端的IP地址、訪問發生的時間、訪問請求的頁面、web服務器對于該請求返回的狀態信息、返回給客戶端內容的大小、該請求的引用地址、客戶瀏覽器類型等信息。進行Web Usage Mining主要是對Web服務日志,ErrorLogs錯誤日志,Cookies等進行挖掘。
2.基于日志的用戶訪問模式挖掘。Web日志挖掘分為三個步驟:數據預處理、模式發現、模式分析。
數據預處理可以使挖掘更有效、更容易,預處理得到結果的好壞會直接影響數據挖掘的質量,包括數據清洗、用戶識別、路徑補充、事件識別。
模式發現,是指利用各種算法和工具對已經預處理過的數據進行挖掘,得到各種模式集。模式發現中常用的方法有關聯規則分析、分類和預測、聚類分析、統計分析、序列模式分析等等。
關聯分析描述一組數據項之間某種潛在關聯關系的規則。常用的算法有Apriori算法或其變形算法,頻繁模式樹(FP-樹)算法等。
分類和預測功能可以用來提取描述重要數據類的模型,并使用模型預測來判定未知數據的類標號,從而預測未來的數據趨勢。常用的算法有判定歸納樹、貝葉斯分類、K-最近鄰分類等。
聚類是將對象的集合分組成為由類似的對象組成的多個類的過程,它是一種無指導的過程。
統計分析主要是通過計算出現率、求平均、求中值等,統計最常訪問的頁面,每頁平均訪問的時間,瀏覽路徑的平均長度等,以獲得用戶訪問站點的基本信息。
模式分析,在挖掘出一系列的用戶訪問模式和規則后,還需要進一步觀察發現的規則、模式和統計值,從中過濾掉不感興趣的規則和模式。之后要確定是發布模型,還是對數據挖掘過程進行進一步調整,產生新的模式。
三、Web數據挖掘在電子商務中的應用
數據挖掘的應用將極大地提高企業獲取信息的能力,使企業信息資源的價值得到充分地體現。它有利于促進企業開拓市場,優化企業資源,提高企業經營效率和管理水平,為企業資源計劃(ERP)、客戶關系管理(CRM)、產品數據管理(PDM)和商業信用評估等提供有效的技術途徑。將數據挖掘引入電子商務,能自動預測客戶的消費趨勢、市場走向,指導企業建設個性化智能網站,向客戶提供個性化的服務,實現更大的商業利潤。
參考文獻:
[1]Jiawei Han,Micheline Kamber著 范明等譯.數據挖掘概念與技術[M].機械工業出版社,2001年8月1日.1~6
[2]孫巍:電子商務中的WEB數據挖掘與XML[J].計算機系統與應用.2006年第9期.25~28
[3]張蓉:Web挖掘技術研究[J].計算機工程.第32卷第15期,2006年8月.4~6
[4]姜美玉盧利平:基于WEB日志挖掘的網站個性化服務研究[J].圖書館學刊.2006年第5期.137~138