[摘 要] 本文針對國內中小型電子商務網站服務器數據較少的特點以及數據的物理意義,采用了一種將數據導入Excel數據庫并利用連環聚類的方法來處理Web數據的方法,為中小型電子商務網站的決策分析提供了一種較為簡單的方法。
[關鍵詞] 聚類 Web日志挖掘 電子商務
一、引言
國內的中小型電子商務網站發展還很不健全,其瀏覽的用戶不多、日志數據相對較少、從事后臺數據分析的人員很少或沒有。如何避免像大型電子商務網站一樣采用大量算法來對數據進行預處理,而又能對日志數據進行挖掘,從而分析用戶需求、向用戶進行個性化推薦、改進網頁設計是目前中小型電子商務開發商急需考慮的一個問題。
二、Web日志挖掘過程分析
Web日志挖掘通過分析和研究Web日志記錄中的規律識別電子商務的潛在用戶,提高對最終用戶信息服務的質量并改進Web服務系統的性能和結構。
1.利用Excel數據庫進行Web日志預處理。Web日志文件記錄中存儲的是用戶訪問站點信息的原始記錄,在使用算法或工具對其分析之前,必須進行預處理。預處理過程是Web日志挖掘質量保證的關鍵,因為處理后的數據好壞、全面與否直接影響到數據挖掘的結果,進而對電子商務開發商的決策造成直接影響。特別是中小型電子商務網站,其數據相對較少,因此數據處理的準確性極為重要。
中小型電子商務網站由于瀏覽和交易人數少,可將數據直接導入Excel數據庫,在Excel中進行數據凈化、用戶識別。同時,由于網站設計人員的知識架構、技術層次以及對所要設計的網站內容的了解程度的限制,很難建立一個完全反映網站邏輯信息、無重復內容網頁的網站,必須進行一定程度的合并,從而將其分成能反映網站邏輯信息的同質類別。
2.連環聚類法在Web日志挖掘中的應用。聚類分析成功地應用于眾多領域,在此主要是利用K-Means快速聚類算法對數據進行聚類分析,以識別用戶樣本不同的行為段。由于此算法的聚類結果有一定的缺陷,本文采取了連環聚類的方法來對樣本數據進行聚類以彌補快速聚類算法的不足。
對于電子商務網站來說,一般都存在外部客戶瀏覽網頁的數據和內部管理人員瀏覽網頁的數據兩類。因此,首先對Web日志數據進行劃分,分為內部系統和外部登錄兩部分樣本數據可以減少日志挖掘的工作量,同時,分別對外部登錄數據和內部系統數據進行聚類分析也有助于增加聚類結果的可靠性。其次,對數據進行連環聚類,也即對某些聚類效果不明顯的聚類結果進行再次聚類,可以增加聚類結果的清晰度。
(1)外部登錄數據連環聚類。快速聚類分析是對用戶指定類別的大樣本資料的逐步聚類分析。其缺陷在于不能像層次聚類那樣對不同聚類類數產生一系列的聚類解,且聚類結果錯誤率較高。根據快速聚類分析存在的缺陷,可對外部登錄樣本數據進行兩個階段的聚類分析。
第一階段聚類是首先根據數據矩陣的特點,將聚類數暫定為幾類,經反復幾次聚類,最終確定下聚類數。接著將聚類結果導入Excel數據庫進行分析,可以發現,有些類別的數據極少,在聚類中,此類數據的誤導性極大,因此必須將其隔離;而對于一些表現出了相當不同的行為特點的類別,可以將其保留,待第二階段聚類結束后,與其結果一并歸入Excel數據庫進行分析;對于第三種由于類內差異較大,但是數據又比較多且較重要的類別,接著對其數據進行第二階段聚類,進而獲得更為明確的聚類結果。將兩階段的聚類結果導入Excel數據庫分析整合,可以得到一個較為明確的聚類結果。如:
某一類用戶僅僅在網站上瀏覽了幾個網頁,一般稱為偶然用戶。對于這類用戶,顯然不可能從中得到一個有用的、潛在的訪問模式來,因為他們對網站的訪問具有很大的偶然性,對具體網頁的訪問也有著很大的隨機性,所以如果從這些用戶的訪問條目中來提取用戶的訪問模式顯然是不具有典型性和代表性的,而這種訪問模式對電子商務的具體應用也就不具有任何指導性。另一類用戶主要瀏覽某一網頁組,對這一網頁組瀏覽次數較多,而對其他網頁很少涉及,幾乎不瀏覽,可以判定此類用戶是該網站某一類網頁的長期用戶。第三類用戶為多主題行為的用戶,即經常瀏覽網站上的各個網頁組。與好奇用戶(出于對網頁內容的好奇而對每個網頁組的網頁都有瀏覽,但瀏覽次數不多且不重復)不同,多主題行為用戶的瀏覽次數較多,因此可能就帶有一定的商業傾向,電子商務開發商可以對該類用戶特征加以分析,進行運用。
當然用戶類別可能不止此幾種,但都可以根據他們的瀏覽內容得出結果并用于電子商務決策。將直接聚類結果與連環聚類結果比較,可以證明連環聚類較好的彌補了快速聚類算法的缺陷,是比較有效的。
(2)內部系統數據聚類。內部系統的登錄人員主要是網站內部工作人員,目的是對網站進行管理。如:如果聚類后分析發現某報障系統網頁組的登陸率極高,那么,就能夠盡快找出故障所在,及時排除故障,提高網站運營效率。
對于一個電子商務網站,通過外部登錄數據連環聚類得到相似性用戶訪問的聚類簇,能夠為電子商務開發商提供詳細的用戶反饋,幫助他們根據實際用戶的瀏覽情況,調整網站的網頁鏈接結構和網頁內容,對網站進行優化,從而延長用戶的駐留時間、挽留老用戶、吸引新用戶,并增加用戶的購買率,以此獲得電子商務網站的成功運行;而通過內部系統數據聚類,也可以明確網站運營的缺陷在哪里,從而加以改進。
三、結論
對于國內中小型電子商務網站來說,Web日志挖掘結果對電子商務網站的發展起著至關重要的作用。基于Excel數據庫和連環聚類的Web日志挖掘法具有成本小、簡單、易操作等特點,對規模不大、資金實力不強的網站發展具有重大的意義。
參考文獻:
[1]譚春輝:電子商務管理與Web數據挖掘技術的契合探析[J].情報雜志,2006,(12):9~12
[2]凌傳繁:Web挖掘技術在電子商務中的應用[J].情報雜志,2006,(1):93~95