張春生,圖 雅,翁 慧,李 艷
(1.內蒙古民族大學 計算機科學與技術學院,內蒙古 通遼 028043;2.內蒙古民族大學 化學化工學院,內蒙古 通遼 028043)
基于電子商務同類商品的推薦算法研究
張春生1,圖 雅1,翁 慧2,李 艷1
(1.內蒙古民族大學 計算機科學與技術學院,內蒙古 通遼 028043;2.內蒙古民族大學 化學化工學院,內蒙古 通遼 028043)
個性化推薦算法是電子商務系統的研究熱點。文中給出一種基于同類商品的推薦算法,使用戶在購買商品時,快速得到性價比高的同類產品,提高系統的服務能力。算法針對同類產品,將供應商名稱、商品價格、購買人數、收貨人數、用戶評論5個參數作為推薦指標,在充分論證的基礎上,確定了各個指標的權重,在此基礎上進行了數據建模。為驗證該模型的正確性,抓取了2014年2月1日淘寶網(SAMSUNG/三星 s7898)的產品列表,根據銷售情況,選取前67個商家的銷售情況進行實驗。結果表明該模型客觀、有效。目前,關于個性化的推薦算法較多,但針對于同類商品的推薦算法的研究成果相對較少,該推薦算法的實施可減少用戶查找滿意商品的難度,提高系統的服務水平。
電子商務;同類商品;推薦算法;研究
隨著電子商務的蓬勃發展,給用戶的日常生活帶來了巨大影響,同時也帶來了“信息超載”問題,從而降低了信息的利用效率,這在很大程度上影響了消費者的購物體驗和滿意度。為解決這些難題,電子商務企業推出了個性化的推薦系統,它是一種以網上購物環境為前提,為消費者推薦符合其興趣愛好的商品為目的的系統,使消費者無需從海量信息中尋找自己想要的信息[1-6]。目前,已有的幾個大型電子商務企業推出的推薦系統其推薦策略有很大不同,且對這些推薦策略沒有一個統一的分類標準。
1990年對推薦系統的研究才當作一個相對獨立的課題被學者們提出。1995年,由美國學者展示了WebWatchet、LIRA、Letizia這三大系統。2000年,我國正式開始了個性化推薦系統的研究,并逐步從理論走向實踐。2009年7月國內首個推薦系統科研團隊—北京百分點信息科技有限公司成立。2011年9月,百度世界大會2011上,李彥宏將推薦引擎與云計算、搜索引擎并列為未來互聯網重要的戰略規劃以及發展方向。百度新首頁將逐步實現個性化,智能地推薦出用戶喜歡的網站和常用的APP。
在文獻[7-9]中,作者給出了推薦系統的形式化定義。他是將推薦給用戶的對象集合用S表示,所有用戶集合用C表示。將對象S對用戶C的推薦度用效用函數u()表示,即u可以表示為C×S→R(R表示為指定范圍中的全序非負實數)。尋找到最大的推薦度R所對應的那些對象S正是推薦系統需要研究的問題。
根據國內外研究者對推薦策略的研究,學者們普遍認可的推薦策略可分為以下幾類:協同過濾、基于內容的推薦、混合推薦、基于用戶—產品二部圖網絡結構的推薦[10-11]。
(1)協同過濾推薦。
協同過濾推薦策略最早被提出,且在推薦系統中應用研究最為廣泛。其基本思想是利用目標用戶C的歷史信息,找到與C相似的其他用戶Ci,利用Ci對其他產品的評價來預測C對特定產品的喜好程度[12-13]。
(2)基于內容的推薦。
基于內容的推薦是根據用戶選擇過的對象,推薦其他具有類似屬性的對象。
(3)基于網絡結構的算法。
此算法不關心用戶和產品的具體內容,只是將他們視為抽象的節點,有關算法的計算信息全部隱藏在他們之間的選擇關系中。
(4)混合推薦算法。
混合推薦的目的為通過組合各種推薦方法彌補各自推薦技術的不足,根據實際的數據研究發現混合后的推薦系統具有較好的推薦效果。
然而,從目前的研究成果來看,主要是根據用戶個人的歷史行為或與其相似用戶的行為或與其消費的商品相似的商品等作為條件,推薦感興趣的商品,對于用戶查找的明確的同類產品,如何給出可信的、具有最優性價比的產品方面的研究還很少。文中從用戶購買的同類商品出發,客觀地給出各種評價指標,按商品供應者的可信性、性價比等方面給出推薦序列,供用戶來選擇。
對于同類產品的推薦,與以上談到的算法不同,用戶購買目標已經明確,不用考慮個體因素、用戶興趣,而重點放在如何選擇信譽可靠、物美價廉的產品上面。因此,只從產品本身的特征出發,通過對產品本身特征的評價,對同類產品排行,推薦給用戶選擇。
在用戶選擇目標明確的前提下,如何客觀、科學地向用戶推薦產品,關鍵在于對商品特征的選擇。商品特征選擇的好壞直接影響到推薦算法的科學性、真實性、合理性。在充分分析和評估的基礎上,通過分析商品的所有特征,最后從供應商、商品價格、購買人數、收貨人數、用戶評論5個方面對推薦商品建模,給出推薦指標,供用戶選擇。
1.1 供應商可信度評價
供應商的信譽好壞直接影響用戶的購買行為。企業的規模、企業的信譽等在一定程度上反映了用戶對企業的信任程度。
文中把供應商分為3類:知名企業、一般企業、個體經營。分別給予不同的分值,根據經驗并通過合理的測試,由專家給出3種類型企業的權值,代表用戶對企業的信任程度。
評價函數為:
(1)
1.2 商品價格評價
商品價格是用戶選擇商品的重要評價指標,根據用戶的消費觀念和消費習慣,用戶往往不會選擇價格過高的同種商品,而價格過低,用戶又懷疑其商品的質量和來源渠道,一般用戶也不選擇,而用戶恰恰喜歡價格適中的產品。價格適中正是用戶的真正需求,而用戶的這個消費習慣正符合正態分布的特點。
對價格的評價函數,文中采用標準正態分布函數:
(2)
其中,pi是價格。
1.3 付款人數
付款人數表示選擇某一商品的用戶數量,也就是用戶下單數量。這里有一個概念,下單數量不等于交易數量,因為還存在著退款行為,但從某種角度來看,它在一定程度上代表了用戶對該商品的認可程度。因此,文中將付款人數作為評價商品質量的一個指標。
(3)
其中,oi是某供應商商品的付款人數。
1.4 收貨人數
收貨人數是最重要的評價指標,它表示用戶購買了某種商品,代表了用戶對該商品的認可程度,雖然用戶可能存在退貨行為,但大多數用戶在收到商品后,在不合適的情況下,選擇換貨的可能性較大,而真正退貨的較少。
(4)
其中,ti是某供應商商品的收貨人數。
1.5 用戶評論
用戶評論也是決定商品好壞的重要指標。用戶的評論包括褒貶兩個方面,精確的算法應該區分這兩種不同的形式,但若區分這兩種形式,就需要進行文本分析,使得算法過于復雜。事實上,對一個商品評論的多少(不分褒貶)也代表了用戶的認可程度,用戶不購買這個商品,不關注這個商品也就不可能對該商品進行評論。為此,文中用評論總數量作為商品的評價指標。
(5)
其中,ri是某供應商商品的評論人數。
1.6 推薦指標
商品是否受用戶的歡迎主要表現為用戶的交易數量,文中體現為收貨人數,但從人們的消費習慣來看,有群體行為的現象,也就是看到大家都買那個商品自己也買那個商品,但這個商品不一定最優。從電子商務角度,不應該完全按這個思路出發,而應該從供應商的信譽和商品價格等方面出發。為此文中給出兩種推薦指標。
商品的總體推薦指標將融合供應商、商品價格、付款人數、收貨人數、用戶評論5個指標,通過加權組合在一起。首先將每個商品離散為一個向量:
xi=(si,pi,oi,ti,ri)
分別代表:商品=(供應商類型,商品價格,付款人數,收貨人數,用戶評論數)。構建5個加權系數,分別代表5個評價指標的權重:ωs,ωp,ωo,ωt,ωr。
(1)商品熱銷前推薦指標。
商品熱銷前,商品的付款人數和收貨人數沒有或很少,不能作為推薦指標;所以,文中只選擇供應商類型、商品價格、用戶評論數作為評價指標,此時的推薦指標為:
f(xi)=wsf(si)+wpf(pi)+wrf(ri)
(6)
(2)商品熱銷后推薦指標。
商品熱銷后,商品的付款人數和收貨人數代表了用戶對商品的認可程度,同時也要考慮用戶的群體心理;所以,此時的推薦指標為:
f(xi)=wsf(si)+wpf(pi)+wof(oi)+wtf(ti)+wrf(ri)
(7)
如圖1所示,同類商品的推薦算法描述如下:
(1)開始,針對某一種商品的銷售,通過網站提供的API或其他手段,從電子商務網站抓取用戶消費數據,其中包括上述5個指標,形成初始數據集Ds。
(2)梳理Ds,按xi=(si,pi,oi,ti,ri)的格式整理數據,形成目標數據集Dd。
(3)對所有供應商進行遍歷,按每個供應商進行計算。

圖1 算法流程
(4)分別計算5個評價指標,并確定5個指標的權重ωs,ωp,ωo,ωt,ωr。
(5)計算商品熱銷前推薦指標:f(xi)=wsf(si)+wpf(pi)+wrf(ri)。
(6)計算商品熱銷后推薦指標:f(xi)=wsf(si)+wpf(pi)+wof(oi)+wtf(ti)+wrf(ri)。
(7)若遍歷完成,轉到(8),否則轉到(4)。
(8)結束。
文中抓取2014年2月1日淘寶網(SAMSUNG/三星s7898)的產品列表(見圖2),根據銷售情況,選取前67個商家的銷售情況進行實驗。
(1)數據預處理。
對供應商信息進行數值化,(知名企業、一般企業、個體經營)分別給予權值(1.0,0.6,0.2)。
對商品價格首先進行標準化處理,使得價格區間標準化為[-1,1],這樣可保證價格的正態分布效果。
對付款人數、收貨人數、用戶評論進行歸一化處理。

圖2 原始數據
為了便于比較和觀察變化趨勢,保證變化曲線的總體走向,打破67個企業的自然順序,文中對實驗數據按收貨人數降序排序。
(2)按付款人數與收貨人數進行比較。
圖3是分別按付款人數和收貨人數計算的推薦指標的比較結果。
從圖中可以看出,付款人數與收貨人數的趨勢走向一致,計算推薦指標時,可選擇其中之一。
(3)商品熱銷后推薦指標。
付款人數與收貨人數的趨勢走向一致,故計算推薦指標時,只采用付款人數。
(ωs,ωp,ωo,ωr)的加權值選擇為(0.1,0.1,0.7,0.1)。
圖4是對文中算法計算的推薦指標和按付款人數計算的推薦指標的比較結果。
從圖中可以看出,文中算法計算的推薦指標與按付款人數計算的推薦指標走向一致。
(4)商品熱銷前推薦指標。
商品熱銷前推薦指標不考慮付款人數與收貨人數2個因素,故文中算法計算推薦指標時采用供應商類型、商品價格、用戶評論數三個因素。
(ωs,ωp,ωr)的加權值選擇為(0.2,0.4,0.4)。
圖5是文中算法計算的推薦指標和按付款人數計算的推薦指標的比較結果。

圖3 付款人數與收貨人數推薦指標比較

圖4 熱銷后推薦指標與付款人數計算的推薦指標比較

圖5 熱銷前推薦指標與付款人數計算的推薦指標比較
從圖中可以看出,商品熱銷前推薦指標的走向與付款人數的走向總體趨勢一致,推薦指標比較合理。
從以上實驗結果可以看出,在認可“付款人數計算的推薦指標”是實際商品銷售指標的前提下,文中算法計算的推薦指標無論是商品熱銷前還是商品熱銷后都與實際商品銷售指標走向一致。因此,文中算法無論是在商品熱銷前還是商品熱銷后都可作為簡單有效的推薦算法對同類商品進行推薦。
商品熱銷前推薦指標的準確性是文中算法的最大特色,它可在商品熱銷前正確指導用戶消費。
文中針對用戶明確選擇的某類產品的推薦研究成果較少的事實,選擇了供應商、商品價格、付款人數、交易人數、用戶評論5個評價指標,在充分分析的基礎上,對推薦指標進行了建模,并給出了商品熱銷前和熱銷后兩種評價指標。實驗結果表明,購買人數與收貨人數的趨勢走向一致,計算推薦指標時,可選擇其中之一。同時付款人數的趨勢走向可作為真正的銷售走向。商品熱銷后推薦指標的走向與付款人數的走向一致。商品熱銷前推薦指標的走向與付款人數的走向總體趨勢一致,尤其是商品熱銷前推薦指標的準確性是文中算法的最大特色,它可在商品熱銷前正確指導用戶消費。
文中建立的推薦指標可用于電子商務網站的同種商品推薦上,具有一定的應用價值。特別是針對于文中支持項目“蒙醫方劑數據挖掘關鍵技術研究”,擬建立一個專門進行蒙藥產品銷售的系統,同時為了使廣大用戶認識和認可蒙藥的獨特療效,可在取得其他廠商同意的基礎上,根據功能與主治信息,尋找同類其他藥物與蒙藥進行同時銷售。通過用戶的購買行為、評論行為等進一步驗證文中算法的合理性,同時也通過用戶對蒙藥的認識和使用,發揮其獨特的作用,為用戶減少疾病的痛苦。
[1] 許海玲,吳 瀟,李曉東,等.互聯網推薦系統比較研究[J].軟件學報,2009,20(2):350-362.
[2] 劉鳳霞,孫家蓉.基于商品分類的電子商務推薦系統設計[J].計算機應用與軟件,2014,31(5):37-41.
[3] 劉建國,周 濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.
[4]LiuRR,JiaCX,ZhouT,etal.Personalrecommendationviamodifiedcollaborativefiltering[J].PhysicaA,2009,388(4):462-468.
[5] 王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(7):66-76.
[6] 王巧榮,趙海燕,曹 健.個性化服務中的用戶建模技術[J].小型微型計算機系統,2011,32(1):39-46.
[7]WengSS,LinBS,ChenWJ.Usingcontextualinformationandmultidimensionalapproachforrecommendation[J].ExpertSystemwithApplications,2009,36(2):1268-1279.
[8]YanDuanwu.Researchonknowledgeserviceorientedintelligentrecommendationsystem[D].Nanjing:NanjingUniversityofScienceandTechnology,2007.
[9]ZhangZ,LuL,LiuJG,etal.Empiricalanalysisonakeywordbasedsemanticsystem[J].TheEuropeanPhysicalJournalB,2008,66(4):557-561.
[10] 鄭 鑫,張韌志.一種基于模糊C均值聚類的協同過濾推薦算法[J].濟南大學學報:自然科學版,2016,30(1):55-59.
[11] 譚文安,沈騰騰,孫 勇.基于偏好相似度的混合信任推薦模型[J].太原理工大學學報,2016,47(1):62-67.
[12] 王全民,王 莉,曹建奇.基于評論挖掘的改進的協同過濾推薦算法[J].計算機技術與發展,2015,25(10):24-28.
[13] 徐新瑞,孟彩霞,周 雯,等.一種基于Spark時效化協同過濾推薦算法[J].計算機技術與發展,2015,25(6):48-55.
Research on Similar Products Recommendation Algorithm Based on Electronic Commerce
ZHANG Chun-sheng1,TU Ya1,WENG Hui2,LI Yan1
(1.College of Computer Science and Technology,Inner Mongolia University for Nationalities,Tongliao 028043,China;2.College of Chemistry & Chemical Engineering,Inner Mongolia University for Nationalities,Tongliao 028043,China)
Personalized recommendation algorithm is a hot issue in the study of the electronic commerce system.A recommendation algorithm based on similar products is presented in this paper,by which users in the purchase of goods can quick get cost-effective products and improve the service ability of the system.This algorithm aims at similar products,the five arguments including supplier name,commodity prices,the number of purchase,receiving the number,user reviews are selected as recommended indexes.On the basis of sufficient demonstration,the weight of each index is determined and data model is established.To test and verify the correctness of the model,a experiment is conducted according to the sales of the first 67 of the dealer of the list in Taobao product (SAMSUNG/SAMSUNG s7898) on February 1,2014.The results show that the model is objective and effective.At present,there are more personalized recommendation algorithms,but the research achievements of recommendation algorithm proposed for the similar goods are relatively small,the implementation of the recommendation algorithm can reduce the difficulty of users finding satisfactory goods,and improve the service level of the system.
electronic commerce;similar products;recommendation algorithm;study
2014-12-03
2015-04-07
時間:2016-05-05
國家自然科學基金資助項目(81460656);內蒙古自然科學基金(2012MS0913);通遼市與內蒙古民族大學合作項目(SXZD2012021)
張春生(1965-),男,教授,研究方向為數據庫技術、數據挖掘、軟件理論及應用。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0814.014.html
TP311
A
1673-629X(2016)05-0017-05
10.3969/j.issn.1673-629X.2016.05.004