


摘 要: 為了解決電子購物者和商家直接的商品快速、準確匹配問題,進行基于加權關聯規則挖掘算法的電子商務商品推薦系統研究。首先指出了經典Apriori算法的缺點和不足,并提出一種新的加權模糊關聯挖掘模型算法,以保證頻繁項集的向下封閉性;通過對電子商務推薦系統的結構化設計、數據預處理模塊設計、推薦模塊設計,完成了推薦系統的工作流程測試;最后選取命中率作為不同推薦模型的評價標準,通過五折交叉試驗法對實際采集數據進行了對比分析,試驗結果表明關聯規則集的Top?N產品命中率要明顯高于興趣推薦和暢銷推薦法。
關鍵詞: 加權關聯規則; 挖掘算法; 電子商務; 推薦系統
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)15?0133?04
Abstract: To solve the direct commodity rapid and accurate matching problem between electronic shoppers and merchants, the e?commerce commodity recommendation system based on mining algorithm of weighted association rules is researched. Ai?ming at the insufficiency of the classic Apriori algorithm, a new weighted fuzzy association rules mining algorithm is put forward to ensure the downward closure of frequent item sets. The work flow of the recommendation system was tested through the structural design of e?commerce recommendation system, data preprocessing module design and recommendation module design. The hit rate is selected as the evaluation standard of different recommendation models. The contrastive analysis for the practical collected data was conducted with the half?off cross test method. The experimental results show that the hit rate of Top?N products in association rule set is significantly higher than that of the interest recommendation method and best selling recommendation method
Keywords: weighted association rule; mining algorithm; electronic commerce; recommendation system
0 引 言
隨著電子商務業的快速發展,互聯網購物用戶規模已經突破兩億人次。而在龐大的互聯網購物中,購物者和服務者都面臨一個問題:用戶和商家彼此間無法明確所喜愛的商品;海量商品無法快速、準確的和客戶愛好相匹配;篩選商品時間過長等。這些問題都極大地阻礙了電子商務業的發展。為了解決這些問題,本文利用數學上的相關知識,進行了基于加權關聯規則挖掘算法的電子商務商品推薦系統研究。
1 數據挖掘和關聯規則
1.1 數據挖掘
數據挖掘從廣義上理解,就是在海量數據中通過某種算法、處理模式找到具有潛在作用、有效價值、新穎性強的數據處理過程。數據挖掘模式可分為關聯模式、序列模式、分類模式、回歸模式、時間序列模式、聚類模式六種。而關聯模式由于具有應用范圍廣、實用性強的特點, 因而在現代電子商務領域中得到了極大發展,關聯模式也成為了數據挖掘中最為重要的研究領域[1?3]。
經過多年的研究分析,當前對數據挖掘的主要方法包括概念描述、關聯分析、類知識挖掘、預測型知識挖掘等。雖然數據挖掘的方法有很多種,但要想徹底應用到電子商務中存在以下幾個難點:數據類型存在多樣性;算法效率和可伸縮性差;數據挖掘系統交互性差;數據安全性和私有性差[4?5]。這些難點都阻礙了數據挖掘在現實商業中的應用。
1.2 經典關聯規則挖掘算法
在實際算法應用中,關聯規則挖掘算法有很多種,其中最為經典的就是Apriori算法。該算法具有單維、單層、布爾型的特點。該算法的頻繁項集產生步驟如下:開始→定義min_sup和min_conf→掃描數據庫得到項集→K=2→由Apriori算法得到[Ck→]成功結束,否則重新由Apriori算法得到[Ck。]
該算法在當前的電子商務應用中,主要存在的問題有[6]:掃描數據庫次數太多;運算時間隨頻繁項長度增大而增長;每個階段的[Ck]太大;不能更新、不能直接處理數值型數據;數據庫中的關聯規則挖掘不能直接應用。這些問題都導致了Apriori算法在電子商務應用中出現了諸多問題。為此,在下文中提出了基于加權模糊關聯規范挖掘算法的改進。
2 基于加權模糊關聯規范挖掘算法的改進
2.1 加權模糊關聯規范模型
(1) 布爾型加權關聯規則模型
布爾型加權關聯規則模型由事務集[T,]項目集[I,]項目權值集[W]等組成。在具體計算時,可根據元素屬性、布爾屬性項目集的支持度等進行加權計算。
(2) 加權模糊關聯模型規則
加權模糊關聯模型由事務集[T,]項目集[I,]模糊集[L]等組成。其中,模糊集的隸屬度函數為[Ffk,]值域為(0,1)。根據模糊項目集[X]的事物權重FITW,加權模糊支持度WFS二者的比值,可計算出加權模糊關聯規則[X→Y]的加權模糊置信度。具體計算過程如下:WFC(X→Y)=[WFS (X?Y)WFS (X)。]
(3) 頻繁項集的向下封閉性
向下封閉性是Apriori算法的特點,它可以通過K?項頻繁項集產生最大頻繁項集。然而在加權關聯規則挖掘中,由于項目被給予了權值屬性和支持度屬性,因此頻繁項集內的子集不再能判定其是否頻繁。
2.2 加權模糊關聯規范挖掘算法NFWARM
加權模糊關聯規范挖掘算法NFWARM的基本執行思路如下[7?8]:算法掃描數據庫得到[C]值,并對其賦予加權模糊支持度屬性;通過特定函數計算出候選項目集,并對不頻繁子集進行刪除、剪枝;循環計算候選項目集的支持度,直到所有候選集為空。這樣便得到了頻繁項集[F=F?FK。]
加權模糊關聯規范挖掘算法NFWARM仍然采用逐層搜索迭代的方法來計算得到頻繁項集,這一點和Apriori算法是相同的。通過相關定理可以證明,該算法在處理加權時可以實現頻繁項集的向下封閉性。
2.3 試驗及結果分析
為檢測加權模糊關聯規范挖掘算法NFWARM的先進性,本文進行了相關的數據測試。首先通過IBM數據生成器隨機生成一萬個事務數和屬性。其中,每個事務內有20個項目,每個屬性在(0,1)內進行權重分配,而每個數值屬性又重新分配了五個模糊集。之后通過隸屬函數將原始數據庫轉換為模糊數據庫。BWARM曲線和NFWARM曲線分別表示傳統布爾型加權關聯規則算法和改進算法的執行結果,具體變化情況見圖1。
從圖1中可以看出,隨著最小加權模糊支持度的增加,NFWARM算法得到的頻繁項集合和頻繁規則的數目在減小,而BWARM算法產生的頻繁項集較NFWARM算法要少很多。這些數據變化都顯示出改進型NFWARM算法的優越性。
3 電子商務商品推薦系統的設計與實現
3.1 推薦系統結構設計
(1) 系統開發工具和平臺
本次電子商務商品推薦系統的開發工具為MyEclipse 7.0,JDK 1.6;操作系統采用Windows XP;應用服務器采用Tomcat 6.0;后臺數據庫為SQLSever 2005。
(2) 電子商務平臺背景
本次開發的電子商務推薦平臺主要是一家以銷售女裝為主的電子商鋪。隨著電子商業業務的推廣,該店銷售額得到了極大的提升。然而在銷售額上升的同時,也出現了衣服種類多、客戶群體難以短時間內成功匹配合適服裝的問題。因此該店銷售額遇到了瓶頸,急需開發一款高質量的電子商務商品推薦系統。
(3) 結構設計
電子商務商品推薦系統需要通過兩個重要模塊實現,即數據采集系統和數據預處理系統。數據采集系統主要提供服裝信息,而數據預處理系統負責處理客戶的交易數據,并將其轉換為關聯規則挖掘算法需要的數據格式。整個系統的核心部分就是利用加權關聯規則挖掘算法搭建客戶交易歷史數據和客戶購買需求之間的平臺。整個電子商務商品推薦平臺的工作流程如圖2所示。
3.2 數據預處理模塊設計
(1) 數據準備。將商鋪網址、服裝信息、商品數據、交易信息等原始數據錄入到Excel文件中作為原始數據庫。其中,客戶購買歷史信息和商品信息是整個系統最為核心的數據庫。
(2) 數據分類。Excel文件中保存的原始數據龐雜、多變,需要對這些原始數據進行分類,以便于數據挖掘工作的進行。其分類方法為:將商品信息向上抽象一層,作為第一層概念層數據的挖掘對象;繼續將商品信息往上再次抽象,本次數據只用符號表示。
(3) 數據預處理。利用概念層思想將商品進行分類,同時通過數據的完整性、一致性檢查及時對上架、下架貨品信息進行數據處理。
(4) 歷史交易數據生成。利用SQL腳本語言編寫事務數據,將預處理后的歷史交易數據轉換為聯合規則算法挖掘的事務數據。此時,需將交易時間作為客戶數據挖掘的變量條件。
3.3 推薦模塊設計
推薦模塊設計時,要求客戶首先登陸電子商務商品推薦平臺注冊成為會員,之后根據客戶有無購買商品記錄,將推薦模塊分為以下兩種情況:
(1) 無客戶購買商品記錄
針對這種情況,推薦使用最為流行的Top?N銷售策略進行模塊設計。設計流程如下:會員注冊→暢銷商品推薦/自主購買意愿→拒絕,繼續推薦下一層暢銷商品/選擇自主商品→購買。
(2) 有客戶購買商品記錄
針對這種情況,需要系統根據該會員信息調取其在該平臺的購買記錄,快速準確地計算出該客戶可能喜歡購買的商品并進行推薦。設計流程如下:會員登錄→自動調閱購買歷史信息→根據關聯規則集分析客戶愛好→推薦匹配商品→購買。
3.4 系統實現與測試
(1) 基于用戶歷史交易記錄。客戶登錄電子商務商品推薦系統后,可通過點擊“購買歷史記錄”來查詢購買信息,系統后臺會自動演化規則集;之后根據規則集匹配系統內的服裝信息,并將其優先推薦給客戶。
(2) 基于用戶購物籃信息。客戶登錄電子商務商品推薦系統后,根據瀏覽信息中產生的購物籃信息,系統后臺會自動演化規則集,之后根據規則集匹配系統內的服裝信息,并將其優先推薦給客戶,見圖3。
(3) 基于用戶無購買記錄。針對無購買記錄的客戶,系統會根據Top?N銷售策略,將當前最為暢銷的服裝推薦給客戶。
4 推薦系統結果分析
4.1 試驗數據
為保證試驗測試的準確性,本次試驗共采集了2015年度5個月份內的服裝交易記錄。其中包括500多種商品的基本信息和16 000多個淘寶ID客戶信息。涉及的商品包括女裝、T恤、背心、裙子等。
同時,在試驗之前分析了用戶購買習慣。其中只購買一件商品的用戶數量為9 300多個;買兩件及以上且款式不同的為5 600多個,款式相同的為1 500多個。經過數據預處理模塊分析后,符合關聯規則挖掘的交易量為5 985。
4.2 試驗評價標準及方案
本次試驗選擇的評價標準是命中率。該指標可以較為準確地反映系統推薦商品是否會被客戶購買。
試驗方案采用五折交叉法進行測試,具體方案為:將數據分為計算數據和測試數據兩部分,計算數據由算法自動計算,測試數據由客戶真實購買記錄統計;將數據分為5份,其中4份為訓練集、1份為檢測集;每做一次測試后,將5份數據重新交叉組合,進行下一次測試,共測試5次。
4.3 試驗結果及分析
根據試驗結果,對前5 000個用戶的購買信息進行了統計分析,得到了5個數據區間的結果。本次試驗對基于關聯規則集的Top?N產品、基于用戶興趣相關的Top?N產品、推薦最暢銷的Top?N產品數據進行了命中率分析,其對比結果見圖4。
三種推薦策略的平均命中率分別為:推薦最暢銷的Top?N產品0.319,基于用戶興趣相關的Top?N產品0.514,關聯規則集的Top?N產品0.552。從這三個數據的對比中可以看出,基于加權關聯規則挖掘算法的電子商務推薦模型是有效的,其命中率較其他兩種都有明顯提高。
5 結 論
本文通過概述數據挖掘和關聯規則的基本信息,指出了經典Apriori算法的缺點和不足,并提出一種新的加權模糊關聯挖掘模型算法,以保證頻繁項集的向下封閉性;通過對電子商務推薦系統的結構化設計、數據預處理模塊設計、推薦模塊設計,完成了推薦系統的工作流程測試;最后選取命中率作為不同推薦模型的評價標準,通過五折交叉試驗法對實際采集數據進行了對比分析,試驗結果表明關聯規則集的Top?N產品命中率要明顯高于興趣推薦和暢銷推薦法,充分顯示了基于加權關聯規則挖掘算法推薦系統的優越性。
參考文獻
[1] 鄧愛林.電子商務推薦系統關鍵技術研究[D].上海:復旦大學,2003.
[2] 王梟雄.基于關聯規則的軟件開發推薦技術研究[D].西安:西安電子科技大學,2013.
[3] 劉聞超.加權模糊關聯規則挖掘算法研究及應用[D].鎮江:江蘇大學,2010.
[4] 馬剛.關聯規則挖掘在電子商務中的研究與應用[D].上海:上海交通大學,2008.
[5] 張劍凱.關聯規則在移動電子商務推薦系統中的應用研究[D].蘭州:蘭州交通大學,2014.
[6] 張榮.基于關聯規則的用戶興趣模型的研究與應用[D].武漢:武漢理工大學,2013.
[7] 范永健.基于數據挖掘的電子商務推薦系統模型研究[D].邯鄲:河北工程大學,2009.
[8] 王穎.基于關聯規則的電子商務個性化推薦模型研究[D].大連:東北財經大學,2012.