[摘 要] 隨著Internet的發展,個性化信息服務已經被廣泛應用到很多領域.本文闡述了電子商務個性化服務的數據挖掘方法,并對電子商務個性化服務的實現進行了探討。
[關鍵詞] 數據挖掘 Web訪問信息挖掘 個性化服務 電子商務
一、引 言
隨著internet技術的發展,個性化信息服務已經被廣泛應用到很多領域:如個性化導航、個性化網站等。尤其是在電子商務領域,對用戶進行個性化服務,已經成為許多電子商務企業追求的目標。
WEB訪問信息挖掘就是對用戶訪問WEB時在服務方留下的訪問記錄進行挖掘,即對用戶訪問WEB站點的存取方式進行挖掘。挖掘對象是在服務器上的包括server log data等在內的日志文件記錄。
二、電子商務個性化服務的數據挖掘方法
訪問信息挖掘是在電子商務上進行知識發現,最關鍵的是進行客戶訪問信息的挖掘,得到客戶的瀏覽行為和訪問模式,從而發現客戶的興趣、愛好等有用的市場信息,最常用的挖掘方法有:
1.路徑分析
常用于判定在一個web站點中最頻繁訪問的路徑。如:80%的用戶在存取/company/prodcut1時是經過/company/new。通過客戶訪問的路徑分析,可以改進頁面和網站目錄結構的設計,使用戶直奔所需,減少客戶的流失率。
2.關聯規則挖掘
使用關聯規則挖掘可以從WEB訪問事務集中,找到一般性的關聯知識。如:30%的客戶在訪問/company/prodcut1也訪問了/company/prodcut2。利用這些相關性,可更好地組織WEB空間,實施有效的營銷策略。
3.序列模式發現
序列模式發現就是在時間戳有序的事務集中,找到那些“一些項跟隨另一些項”的內部事務模式,即挖掘出交易集之間有時間序列關系的模式。如:在company/prodcut1上進行訂購的用戶中有60%的在一個月內也訂購了company/prodcut2。序列模式發現能夠預測客戶的訪問模式,了解客戶的興趣及需求所在,采取有針對性的廣告服務,以滿足訪問者的特定要求。
4.分類
分類就是為具有某些公共屬性的特定群體建立概要特征,這些特征可以用來對新增到數據庫里的數據項進行分類。如學生用戶一般感興趣的頁面是company/prodcut1。分類能夠使商家根據訪問網站的人口統計學信息和用戶的訪問模式得出訪問某一商業網站的用戶輪廓特征。對用戶分類后,就可以發現未來的潛在客戶并開展有針對性的商務活動。
5.聚類分析
聚類分析可以從服務器訪問信息數據中聚集出具有相似特性的客戶組,即把有相似特性的用戶、數據項集合到一起。如自動給一個待定的顧客聚類發送銷售郵件。通過這些舉措使商務活動能夠在一定程度上滿足客戶的要求,實現目標營銷。
三、電子商務個性化服務的實現
1.Web訪問信息挖掘基本步驟
Web訪問信息挖掘的基本步驟為:數據收集,數據預處理,模式識別,模式分析。
數據收集就是要記錄用戶訪問行為,主要方式有在服務器端進行數據收集、在客戶端進行數據收集、在代理端進行數據收集等。原始數據需要經過預處理后才能有效實施挖掘算法,數據預處理的質量與Web挖掘的效率和結果緊密相關,其內容包括:數據凈化、用戶識別、會話識別、事務識別、路徑補充等。然后要對預處理后的數據進行模式識別,即實施挖掘算法。模式分析的目的是根據實際應用,通過觀察和選擇,把發現的統計結果、規則和模型轉換為知識,經過篩選后用來指導實際的電子商務行為。常用的手段有:信息過濾、可視化、聯機分析處理等。
2.電子商務個性化系統結構
電子商務個性化系統如下圖所示。
通過上圖可知,電子商務個性化系統一般分為兩個部分:
離線部分:用于挖掘用戶的特性信息。
在線部分:用于識別用戶,推薦個性化服務。
Web訪問信息挖掘是離線處理的,而當用戶訪問該網站時通過在線推薦引擎進行在線服務。挖掘算法和推薦策略可以根據不同類型站點的要求來具體選擇,挖掘結果和推薦集通過推薦引擎反饋給用戶。電子商務網站的會員用戶通過會員標識登錄網站以后,其訪問信息將會被記錄到服務器端。這些數據將在經過預處理后,在專用的數據挖掘模塊中,通過具體的挖掘算法和推薦策略來進行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據用戶的會員標識,向挖掘模塊抽取對應用戶的挖掘結果和推薦集,將其可視化地反饋給用戶,達到個性化服務的目的。
四、結束語
隨著互聯網的普及和電子商務的發展,電子商務系統在為用戶提供越來越多選擇的同時,利用WEB訪問信息挖掘技術,必然對電子商務網站提供個性化服務產生積極的影響。
參考文獻:
[1]毛國君 段立娟:數據挖掘原理與算法[M].清華大學出版社,2005.7
[2]馮是聰 單松魏 張志剛:基于Web挖掘的個性化技術研究.計算機工程與設計, 2004 Vol.25 No.1