◆李常福
(鄭州市中心醫院 河南 450000)
基于Web數據挖掘技術的個性化推薦系統研究
◆李常福
(鄭州市中心醫院 河南 450000)
考慮目前電子商務網站快速發展及應用趨勢,結合水果網絡購買平臺實例。基于Web數據挖掘技術構建個性化推薦系統,整個個性化推薦系統的實現及設計過程可為Web數據挖掘技術在電子商務中的應用提供參考。
Web數據挖掘;個性化;推薦系統
基于Web的數據挖掘技術就是數據挖掘技術的一個分支,離不開數據挖掘的基本理念、原理及方法。只是將數據挖掘的應用領域縮小到了Web數據這一范疇之內,通過對Web相關數據的統計,發現其核心信息,目前已在電子商務得到了深入的應用。在購物網站中,有效運用Web數據挖掘,提取Web日志中的有用信息,找出用戶感興趣的商品及所需的服務,構建個性化推薦系統,進而為用戶提供個性化的商品推薦服務,這種基于Web數據挖掘技術的個性化推薦系統不僅在一定程度上提高購物網站的銷售業績,同時也促進了Web數據挖掘技術的應用。因此,以Web數據挖掘技術為背景,研究個性化推薦系統,具有重要的意義。為了充分說明Web數據挖掘個性化推薦系統的構建、實現與應用過程,文章主要以某水果網絡購買平臺的設計與實現為例進行分析。
在網絡購物平臺的應用過程中,Web數據挖掘的主要研究對象是用戶與網站交互時服務器段所產生的日志記錄文件。它主要包括Web服務器用戶訪問日志、代理服務器日志、客戶端日志等。文章主要針對服務器段產生的用戶訪問日志進行數據挖掘處理。基于Web數據挖掘的水果網絡購買平臺充分考慮了數據挖掘與分析的需要,系統架構設計采用MVC架構,綜合利用SpringMVC、Spring、Hibernate等開源框架。采取Model View Controller分層思想進行系統架構的構建,并通過搭建MySQL數據集群完成系統內數據的存儲。
水果網絡購買平臺是一個具備各項功能的電子商務系統,不僅需要為相關用戶提供登陸服務、水果選擇服務,還需要為系統的管理者提供客戶訂單處理、相關公告發布以及網站正常運行等服務。為了實現這些服務功能,該系統的總體設計如下。
2.1 推薦系統總體設計
基于水果網絡購買平臺的實際需求結合Web數據挖掘技術本身的特點,采用Web日志挖掘技術對系統中用戶訪問日志記錄文件進行Web數據挖掘,借助Hadoop平臺對系統中的用戶訪問日志記錄文件進行統計分析,找到瀏覽用戶的行為模式,挖掘用戶可能感興趣的商品,并作出合理的推薦,對統計分析結果匯總,為系統決策者決策提供理論依據。為了完成上述過程,水果網絡購買平臺Web日志挖掘推薦系統功能模塊主要包括Web日志數據預處理、數據匯總展示、個性化商品推薦三個組成部分,詳細設計內容以下進一步闡述。
2.2 推薦系統詳細設計
2.2.1 數據預處理模塊設計
數據預處理是進行數據挖掘的基礎,特別是基于Web的數據挖掘,數據預處理則是重中之重。Web日志文件廣泛的存在于各類Web應用中,只要用戶與Web應用產生交互,在服務器后臺就會生成日志文件。然而在這些海量的日志記錄中存在著很多無用記錄和錯誤記錄。在數據預處理的數據清洗階段就要將這些無用、錯誤記錄刪除,提供低緯度、低冗余的數據源供其它階段使用,如圖3所示。通過初步的數據清洗,得到的日志記錄數據維度已大量減少,可應用到下階段的工作中去。已清洗日志記錄包括請求用戶IP、請求時間戳、請求方法、請求文檔URL、被請求文檔URL、HTTP版本信息、請求返回碼和代理服務器信息,已清洗的日志記錄將會保存在系統數據庫visit_log表中,這個過程就是圖1的屬性提取過程,是針對本系統的特殊設計。

圖1 數據預處理流程
2.2.2 數據匯總展示模塊設計
數據統計匯總模塊主要是將數據庫中visit_log統計分析匯總,然后展現給系統管理人員,以供決策需要,流程如圖2所示。首先從MySql數據庫集群中讀取visit_log中的日志記錄,然后通過調用相應的MapReduce任務處理日志記錄。通過對visit_log中的日志記錄進行統計便可得到PV頁面訪問量,IP統計是針對訪問過該系統所有IP地址進行的統計匯總。

圖2 數據匯總流程
2.2.3 個性化商品推薦模塊設計
個性化商品推薦模塊負責根據用戶的瀏覽記錄推薦該用戶可能感興趣的商品。當用戶向網站系統發起請求時,服務器接收用戶請求得到用戶IP地址,然后根據IP地址去數據庫集群中進行匹配,如果匹配到某條記錄,通過獲取該記錄中的請求URL值,根據請求URL值可以判斷出該用戶瀏覽過哪件商品。如果匹配到多條記錄說明數據庫中保存了多次用戶瀏覽記錄,根據請求URL可以判斷出該用戶瀏覽過哪些商品,根據這些商品信息可以構建出該用戶的商品偏好矩陣,同理可以通過MapReduce任務得到當前系統所有瀏覽用戶的商品偏好矩陣。得到這兩個矩陣以后便可以將這兩個矩陣作為協同過濾Mapreduce任務的出入,作業執行完畢時即可輸出該用戶的推薦信息列表,選取排名靠前的商品推薦給用戶即可,進而完成整個個性化推薦過程,該模塊的詳細流程設計如圖3所示。

圖3 個性化推薦模塊流程
從上述分析可以看出,基于Web數據挖掘技術的個性化推薦系統整體實現思路和過程并不是很復雜,但有些關鍵技術需要進行深入研究和不斷深化;一是Web日志文件用戶識別方法,主要是為了杜絕誤識別現象的發生;二是協同過濾推薦算法,通過對推薦算法的優化可提高推薦效果;三是Web服務器的性能,可通過構建可擴展的Web服務器集群來解決單機性能的限制,這些將是個性化推薦系統構建和應用過程中需要進一步細化、深入研究的關鍵問題。
[1]李彬,劉莉莉.基于MapReduce的Web日志挖掘[J].計算機工程與應用,2012.