牛朋飛
喜科(上海)軟件系統有限公司成都 郵編 200000
Web數據挖掘技術在電子商務中的應用
牛朋飛
喜科(上海)軟件系統有限公司成都 郵編 200000
隨著電子商務的應用日益廣泛,電子商務系統中積累著大量的信息和數據,這些數據正在呈現爆炸式的增長,給電子商務的應用帶來了一定的挑戰。而Web數據挖掘技術可以發現有價值的知識和信息,滿足電子商務未來的發展趨勢。本文在協同過濾算法的基礎,構建基于Web的電子商務個性化推薦系統。
電子商務,Web數據挖掘,推薦系統,協同過濾算法
隨著國內外電子商務的發展,電子商務網站越來越多,行業競爭越來越激烈,電子商務網站必須加強客戶關系管理,改善經營理念,服務好客戶,才能獲得更多的客戶資源。電子商務企業要面對的客戶群和市場都變得巨大而復雜,并且隨著電子商務的應用日益廣泛,電子商務系統中積累了大量的信息和數據,這些數據正在呈現爆炸式的增長,給電子商務的應用帶來了一定的挑戰。因此,電子商務網站必須研究客戶的興趣和愛好,對客戶進行分類管理,針對不同的客戶群推薦不同的商品。對于企業而言,Web數據挖掘有助于發現業務發展的趨勢,幫助企業做出正確的決策,使企業處于更有利的競爭位置。
數據挖掘就是從大量的、不完全的未知數據中提取隱含在其中的對人們分析有用的有價值信息、模式和趨勢,然后以易于理解的可視化形式表達出來,其目的是為了提高市場決策能力、檢測異常模式、控制可預見風險、在經驗模型基礎上預測未來趨勢等,從而為企業提供決策依據。目前,對Web數據挖掘的研究主要集中在兩個方面:一是從資源查找的方面來看,即從用戶的角度出發,研究怎樣提高信息質量和幫助用戶過濾信息;第二種是從數據庫的觀點進行Web內容挖掘,主要是嘗試建立Web站點的數據模型并加以集成,以支持復雜查詢,而不只是簡單的基于關鍵詞的搜索。
Web數據挖掘在電子商務管理中的應用是一個將信息、數據轉化為商業知識的過程。具體包括以下步驟:
(1)確定電子商務管理的應用主題,建立數據挖掘模型。在電子商務環境下,數據挖掘的目標包括兩個方面:一是通過數據挖掘去驗證假設是否成立;二是從與產品、客戶相關的數據中發現對電子商務管理起關鍵作用的新的有價值的知識。
(2)圍繞電子商務主題收集數據源,并對數據進行清理、轉換、集成等技術處理,裝載進人數據倉庫。
(3)對數據進行預處理,包括對數據進行格式化操作,并將所有數據導人到特制的數據集市中。
(4)選取合適的數據挖掘方法,構建數據挖掘模型,從目標數據中提取有價值的電子商務管理知識,包括電子商務運營規則、模式、模型和報表等。對結果進行分析和驗證,調整數據挖掘模型,從而保證結果的可靠性和實用性。
(5)挖掘結果評估與知識表示。將電子商務管理知識集成到電子商務管理中心,融合專家知識與領域規則,為電子商務管理活動提供決策支持。
協同過濾推薦是目前應用最廣泛、效率最高一種推薦技術,協同過濾技術的關鍵是如何定義用戶間的相似性以及如何根據這個相似性來選擇目標用戶群。本文采用基于用戶的協同過濾推薦。它的工作原理是根據其他相似度最高的N個用戶觀點產生對目標用戶的推薦列表。它基于這樣一個理論假設:如果用戶對一些項的評分比較相似,則他們對其它項的評分也比較相似。基于用戶的協同過濾推薦使用統計技術搜索目標用戶的若干最近鄰居,然后根據最近鄰居對項的評分預測目標用戶對未評分項的評分,選擇預測評分最高的前若干項作為推薦結果反饋給用戶。
基于用戶的協同過濾推薦算法的核心就是通過最近鄰居的評分產生最后的薦結果,當前用戶對未評分項的評分通過最近鄰居對該項評分的加權平均值逼近。用戶評分數據可以用一個M*N階矩陣A(M,N)表示,其中M行代表M個用戶,
N列代表N個項目,元素A(i,j)表示用戶i對項目j的評估數值。這個評估值的內容可根據需要設定,可以表示為用戶是否訂購某種商品,或者表示用戶是否瀏覽了Web文檔等。基于用戶的協同過濾推薦算法包括以下步驟:
(1)建立用戶模型:通過對用戶信息的采集,獲得推薦算法所需要的信息,包括用戶的基本特征信息、評分信息、用戶行為信息和購買記錄等。對用戶己經瀏覽的頁面進行建模,從而可以有效度量用戶之間的相似性。
(2)尋找最近鄰居:主要完成對目標用戶最近鄰居的查找。方法是通過計算目標用戶與其他用戶間的相似度,得到與目標用戶最相似的“最近鄰居”集。相似性的評價方法包括向量相似性、有約束的皮爾森相關系數和皮爾森相關系數法。
(3)推薦產生:通過分析目標用戶和其鄰居的數據信息,預測用戶的興趣,根據興趣度評分高低產生相應的推薦頁面集。
3.1 系統總體結構
基于協同過濾的電子商務推薦系統包括在線部分和離線部分。在線部分主要由推薦引擎、Web服務器和用戶瀏覽器構成,主要完成的是在線的頁面推薦工作;離線部分的主要工作是利用在線部分提供的數據,使用協同過濾算法形成相應的推薦規則。系統的總體結構如圖1所示。

圖1 基于協同過濾的電子商務推薦系統
推薦引擎是在線部分中的重要過程,其主要的任務是為當前用戶尋找與其興趣度最為類似的頁面集合。推薦引擎首先分析用戶的當前會話,識別出用戶的當前會話后,得到用戶當前訪問頁面集合。推薦引擎將該用戶的當前訪問頁面集合送到協作過濾器中進行聚類,得到推薦頁面集。推薦引擎將用戶的請求發送給Web服務器,當Web服務器返回頁面后,推薦引擎把相應的推薦集附加到Web服務器所給頁面底部,發送給用戶進行頁面集合推薦。
3.2 在線部分實現
當客戶在線瀏覽時,在線部分能為客戶提供推薦服務,其功能主要是通過推薦引擎。在它受到調用后,就開始為當前用戶尋找計算與他興趣點相符合的物品推薦集,在這個推薦集的尋找過程中,會以用戶數據庫、物品數據庫、會話期對象、購物車等作為推薦的基準和依據。在線部分的結構如圖2所示。

圖2 在線部分結構圖
用戶訪問網站時先將網頁請求發送到Web服務器,Web服務器將用戶的請求數據提交到推薦引擎模塊。推薦引擎首先分析用戶的當前會話,在識別出用戶的當前會話后,得到用戶的當前訪問頁面集合;接著推薦引擎利用離線模塊生成的模式庫和Web數據庫進行計算,生成推薦結果集,并將結果集返回給Web服務器,由Web服務器通過Http協議將結果返回到客戶,展現在瀏覽器中。這樣,就實現了整個推薦過程。
3.3 離線部分實現
離線部分主要為推薦引擎的工作提供支持,包括數據預處理和Web挖掘等模塊組成。數據預處理主要對Web使用數據,Web內容數據和Web結構數據進行各種處理,從而為后續的數據挖掘提供可以直接處理的數據源。離線部分結構如圖3所示。

圖3 離線部分結構圖
通過事務聚類分析獲取用戶的使用特征,通過內容聚類分析獲取頁面內容特征,通過結構聚類分析獲取頁面結構特征。由于數據預處理和Web挖掘的時間開銷比較大,不能滿足個性化推薦服務的實時性要求,所以必須將這兩個操作離線進行,挖掘結果可以供在線部分的推薦引擎直接引用。在線部分的推薦引擎根據當前的用戶會話結合Web挖掘結果為當前用戶提供高效的個性化推薦服務。個性化推薦服務的表現形式可以為推薦的超鏈接列表,推薦的商品列表,推薦的廣告列表,經裁剪的文本或圖像列表等。
Web數據挖掘能夠在網絡海量的異構的信息資源中尋找蘊涵的有價值的知識。近年來,隨著電子商務的迅速發展,Web數據挖掘在電子商務領域的應用更加廣泛。它能根據用戶的購買行為和記錄,自動預測客戶的消費趨勢、市場走向,幫助商家調整市場策略,進行正確的決策,促進電子商務的發展。
[1]王衛鋒.電子商務中基于web的數據挖掘技術應用[J].河南科技.2014年17期.
[2]王承.Web數據挖掘在電子商務中的應用[J].職業.2014年第17期.
[3]馬小龍.基于協作過濾算法的電子商務個性化推薦系統的研究[J].微型機與應用.2014年15期
[4]于桂賓.基于WEB的數據挖掘技術及其應用[J].承德石油高等專科學校學報.2014年第05期.