王崢 郭士串

摘 要:“網絡團購”是一種越來越流行的電子商務模式,吸引了大量的商家和消費者,團購網站的商品展示方式和團購產品的推薦是很多團購網站迫切要解決的問題,傳統的推薦算法多是使用與傳統電子商務類似的協同過濾實現。文章提出了一種基于Apriori-BP算法的團購推薦模型,通過自定義數據清洗方法,使用Apriori算法和BP神經網絡對商品進行評分和推薦,最后使用線上CTR和ROI對推薦結果進行評價和驗證,顯著提高了團購推薦商品的準確性。
關鍵詞:團購;神經網絡;關聯規則
近年來,隨著電子商務應用模式與支付技術的日益成熟,一種新型消費模式—“網絡團購”已經興起。團購又稱為組織購物或者集體購物,是指消費者通過聚集自己的消費需求因而達到了消費數量的要求而降價的一種動態制定商品價格的消費模式。最早的團購網站是2008年在美國成立,之后這種新型的消費模式在全世界范圍內快速地掀起了一場發展的熱潮。隨后,Groupon的商業模式傳入中國,這種新型的電子商務模式迅速在全國大中小城市出現,并很快被國內消費者接受,團購網站在國內的發展速度驚人,有26.2%的網民使用了團購網站的服務。團購已經成為電子商務繼B2B,B2C,C2C后發展出來的又一全新的商務模式,與傳統的電子商務相比有許多不同之處。
個性化推薦能使電子商務系統更好地服務用戶、節約用戶的搜索時間、幫助用戶發現新的潛在需求,是當前乃至未來很長一段時間內需要研究的重要課題。隨著團購電子商務模式的應用和發展,在競爭越來越激烈的市場環境下,將個性化推薦與團購電子商務模式相結合成了必然的趨勢。
1 研究現狀
傳統的推薦技術主要有基于商品內容信息的過濾以及協同過濾兩種主要的方法。由于基于內容信息的過濾受商品信息內容的限制導致這種方法存在局限性,協同過濾技術成為了當前主流的使用較多的推薦技術,但是協同過濾方法需要依賴于用戶興趣信息,當用戶興趣信息匱乏時,該方法是不適用的。目前的研究方向主要集中在推薦系統的理論與技術方面,文獻[1]和[2]提出的一種協同過濾的推薦算法主要是基于項目評分預測的技術來實現。文獻[3]提出了用戶意圖識別和知識服務等相關技術。各種數據挖掘技術如關聯規則挖掘、聚類挖掘等技術也被應用到推薦系統的研究與應用中,文獻[4]提出了一種構建用戶偏好的方法,主要用到了神經網絡和遺傳K-means的算法。
本文根據團購的業務特點,將基于團購業務的個性化推薦模型分為數據清洗、關聯團單挖掘和商品推薦結果排序3部分。數據清洗模塊對用戶數據中的噪聲數據和作弊數據進行識別并過濾;關聯團單挖掘模塊用于挖掘可進行組合消費的關聯團單;商品推薦結果排序模塊主要依賴BP神經網絡實現團單按序推薦。本文提出的算法不僅通過數據清洗明顯改進了數據質量,而且使用BP神經網絡對關聯算法推薦的結果進行排序,使得最終推薦的效果得到了顯著的提升。
2 算法簡介
本文涉及的主要算法包括關聯規則算法和BP神經網絡算法兩類,以下分別對兩種算法進行介紹并闡述選擇的原因。
2.1 關聯規則算法
關聯規則是形如AàB的推薦方法,其中A和B分別是關聯規則的先導和后繼。目前比較流行的關聯規則推薦算法可分為寬度優先算法、深度優先算法、數據集劃分算法、采樣算法和增量更新算法5類。其中寬度優先算法中的Apriori算法和深度優先算法中的FP-growth算法是目前使用最廣的兩類算法,但是FP-growth算法在處理很大的且很稀疏的數據庫時,在挖掘處理和遞歸運算中存在一定的劣勢,因此,本文采用Apriori算法進行規則推薦。
2.2 BP神經網絡算法
誤差反向傳播(Back-Propagation)算法是Rumelhart和McClelland在1985年提出的一種神經網絡算法,其基本原理是利用輸出后的誤差來估計輸出層的直接前導層的誤差,再利用前導層的誤差來估計更前一層的誤差,如此一層一層地反傳直到獲得所有層的誤差估計,通過不斷的循環迭代,直到誤差最終收斂到滿足預先設置的條件或迭代次數超過一定值后完成算法的實現。本文采用的BP神經網絡算法共3層,分別為輸入層、隱藏層和輸出層,因為最終要對商品進行推薦,因此,在輸出層外加了一個softmax層進行概率計算。具體的模型結構如圖1所示。
3 基于Apriori-BP的團購推薦模型
Apriori-BP團購推薦模型主要分為3個部分,分別為數據清洗、關聯團單挖掘和商品按序推薦,以下分別對這幾個模塊進行闡述。
數據清洗模塊主要對所有用戶數據中的噪聲數據和作弊數據進行識別并過濾剔除。大數據具有速度、精度、多樣、數量等眾多維度,大維度的數據中不可避免地存在著較多粗糙、不合時宜甚至是作弊的數據,在團購系統中商家刷單和黃牛刷票的數據比較普遍,這些作弊數據會給個性化推薦尤其是關聯團單挖掘造成嚴重的影響,為保證個性推薦的效果,必須對作弊數據進行清洗剔除[5]。
作弊用戶的消費行為一般具有以下兩個特點:(1)用戶天成單量較大;(2)用戶消費團單類目較為單一。本文采用閾值過濾法對用戶作弊行為進行過濾,首先對用戶在一個時間窗口(如消費時間間隔為30 min)內的相鄰兩次消費行為按照團單進行聚合,形成一次消費行為,該次消費行為信息包括驗單的團單與團單張數,然后按天級別對用戶的消費行為次數進行統計,如果超過某閾值5次,判定該用戶該天存在作弊行為,之后對用戶存在作弊行為的天數進行統計計數,如果存在作弊行為的天數超過閾值1,則判定該用戶為作弊用戶,一個用戶一旦被判定為作弊用戶,為了防止該用戶的消費行為對整個關聯規則挖掘算法造成影響,直接將該用戶的所有數據進行過濾。
關聯團單挖掘模塊主要根據用戶的組合消費行為,挖掘可進行組合消費的關聯團單。關聯團單是整個組合消費團單推薦的數據基礎,關聯團單數據也可看作是群體性的推薦數據[6]。關聯規則挖掘工作的一項重要的關鍵任務是從大量的數據集當中分析出所有滿足所設定的最小支持度和最小貢獻度的頻繁項集,這也是關聯規則挖掘算法的主要任務。
使用Apriori算法遞歸地挖掘出所有的一階頻繁項集與二階頻繁項集,利用最小支持度閾值和最小貢獻度閾值找到所有符合要求的團購網站團單的強關聯規則,本文中最小支持度閾值設定為0.5,最小貢獻度閾值設為0.35。剩余的弱關聯再結合其他弱關聯間接得到強關聯規則,從而得到所有存在關聯條件的團單組合,具體實現過程如圖2所示。
對挖掘得出的存在關聯條件的團單組合使用BP神經網絡進行分析,對各廠商名下的團單組合中的各類產品計算得分,選擇得分高的進行推薦。其中樣本通過用戶的日常瀏覽、點擊、下單行為數據進行構建,首先通過BP神經網絡的前兩層全連接層訓練得出各類產品的得分,整個模型框架使用Tensorflow搭建,其中損失函數選擇交叉熵,使用隨機梯度下降技術防止模型過擬合并降低計算量,在隱藏層使用取值為0.5的隨機失活以實現集成學習的功能和降低輸入特征之間的關聯性,設置最大訓練次數為1 000次,loss的收斂值為0.005,梯度更新的步長為0.01,并隨著迭代的進行逐步降低,平均每迭代100次降低0.001,隱藏層激活函數使用relu函數。最后對計算出的得分使用Softmax進行歸一化,最終得到各類產品的概率得分。
Apriori-BP團購推薦算法相較于以往的關聯規則挖掘算法,在關聯團單挖掘過程中增加了相同團單和過期團單的過濾,而且在計算支持度和貢獻度之前還對店鋪是否相同進行了分類,這使得數據在計算之前就實現了有效性的過濾,不僅降低了計算量,而且增加了推薦結果的準確性和有效性。在最后的排序算法層面使用了BP神經網絡進行推薦產品得分計算,其中使用0.5的dropout不僅降低了計算量,加快了模型的計算速度,而且實現了類似于集成學習的功能,對提升模型的泛化能力有很大的幫助,隱藏層的激活函數選擇近年來使用比較頻繁的relu替代了以往使用較多的tanh函數和sigmoid函數,有效預防了梯度消失。
4 性能評價
文中使用的樣本數據共64 929條,原始數據共約80 G,經數據清洗后有效數據為55.8 G,清洗掉的數據包括無效數據和作弊數據,其中作弊數據的團單類目多集中于“電影”“旅游”“體檢”等類目。
將數據分為4組進行訓練,平均一組數據大約16 000條,每一組的運行時間分別在50 min左右,最終數據過濾的準確率在93%左右,具體清洗準確率如表1所示。
對清洗后的數據使用關聯規則算法和BP神經網絡算法進行挖掘分析,對分析出的結果使用點擊率(Click Through Rate,CTR)和點擊后下單率(ROI)兩個指標進行評價,通過觀察CTR和ROI的提升情況對參數和指標進行微調,對挖掘分析出的部分結果進行篩選得到最終的推薦商品,模型最終推薦的商品對提升線上CTR和線上ROI均有顯著的效果,其中CTR相對提升了29.15%,ROI相對提升了17.35%,相較于傳統算法分別提升了4.70%和2.35%(見圖3)。
5 結語
本文提出了一種基于Apriori-BP算法的團購推薦模型,根據團購的業務特點,研究了推薦領域比較常用的關聯規則算法,過濾了無效數據和作弊數據,降低了運算量,提高了關聯團單挖掘的有效性,并針對關聯團單使用了BP神經網絡進行概率計算,針對神經網絡使用的各類方法不僅增加了模型的泛化能力,還提升了運算速度和準確性,最后在數據集上使用兩個線上指標對本文算法和傳統算法進行比較,證實了本模型在改進團購推薦上的有效性。
[參考文獻]
[1]薛福亮.電子商務協同過濾推薦質量影響因素及其改進機制研究[D].天津:天津大學,2012.
[2]SHEN S,HU B,CHEN W Z,et al.Personalized click model through collaborative filtering[C].Beijing:the Fifth ACM International Conference on Web Search and Data Mining,2012:323-332.
[3]羅成,劉奕群,張敏,等.基于用戶意圖識別的查詢推薦研究[J].中文信息學報,2014(1):101-106.
[4]KUO R J,LIAO J L,TU C.Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J].Decision Support Systems,2005(1):353-373.
[5]蔣勛,劉喜文.大數據環境下面向知識服務的數據清洗研究[J].圖書與情報,2013(9):621-628.
[6]李愛寶.基于組合消費行為分析的團購推薦系統的設計與實現[D].哈爾濱:哈爾濱工業大學,2015.
Abstract:“Online group purchase” is an increasingly popular e-commerce mode, attracting a large number of merchants and consumers. The merchandise display method of group purchase websites and the recommendation of group purchase products are urgent problems to be solved by many group purchase websites. Most of the recommended algorithms use collaborative filtering similar to traditional e-commerce. This paper proposes a group purchase recommendation model based on Apriori-BP algorithm. Through the custom data cleaning method, the Apriori algorithm and BP neural network are used to score and recommend the products. Finally, the online CTR and ROI are used to evaluate and verify the recommendation results, significantly improved the accuracy of the group purchase recommended products.
Key words:group purchase; neural network; association rules