張柱 李卿 方賢進(jìn)



摘要:電子商務(wù)的飛速發(fā)展,在為人們提供了更加方便快捷的購物途徑同時,如何給用戶提供更加人性化的推薦服務(wù),是電商贏得市場需要解決的關(guān)鍵問題。以淘寶電子商務(wù)平臺為依托,提出基于用戶模型和商品屬性擴(kuò)散的混合個性化推薦系統(tǒng),研究用戶興趣的時間演化和空間擴(kuò)散方法,綜合運用多種推薦方法,給為用戶提供更加精準(zhǔn)的推薦服務(wù)。實驗證明,該方法具有較明顯的效果,能夠較好地運用于同類電商平臺。
關(guān)鍵詞:UMARS;用戶模型;空間擴(kuò)展;屬性擴(kuò)散;時間更新
中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A
文章編號:1672-1098(2015)01-0055-05
隨著計算機(jī)網(wǎng)絡(luò)通信技術(shù)的發(fā)展,電子商務(wù)作為一種商務(wù)模式得到了迅速推廣,業(yè)已成為人們?nèi)粘Y徫锵M的重要渠道。作為電子商務(wù)平臺的重要營銷手段,個性化推薦系統(tǒng)得到了廣泛的研究和應(yīng)用,并在提高電子商務(wù)網(wǎng)站的交叉銷售能力、提高客戶對電子商務(wù)網(wǎng)站的忠誠度等方面發(fā)揮了積極的作用[1]。然而,已有的推薦系統(tǒng)存在明顯不足,未能較好地承擔(dān)改善用戶體驗的功能。如基于關(guān)聯(lián)規(guī)則的個性化推薦中,規(guī)則無法自動生成,且更新和維護(hù)工作量巨大[2];基于內(nèi)容過濾和協(xié)同過濾的個性化推薦受推薦對象特征提取能力的限制較為嚴(yán)重、冷啟動問題
[3-5]。
目前,學(xué)術(shù)界對個性化推薦的研究已取得了一定的成果。文獻(xiàn)[6]通過表明個人某一方向興趣的各類示例文本,經(jīng)過文本映射和文本結(jié)構(gòu)分析,獲得文本的邏輯表示,將段落作為識別用戶興趣的基本要素,改進(jìn)了用戶興趣模型的結(jié)構(gòu)分析。文獻(xiàn)[7]借助RRS技術(shù)實現(xiàn)用戶興趣資源的整合,并使用本體構(gòu)建用戶興趣模型。文獻(xiàn)[8]在傳統(tǒng)VSM向量中引入了興趣度因子,進(jìn)一步提出了主題興趣度的概念并對主題興趣度的提取方法進(jìn)行了詳細(xì)描述。文獻(xiàn)[9]將混合模糊理論運用于個性化推薦系統(tǒng)中,開發(fā)了FTCPRS推薦系統(tǒng),并在電信服務(wù)推薦中得到了應(yīng)用。文獻(xiàn)[10]將表示信任度的FRPRA模型應(yīng)用到協(xié)同推薦系統(tǒng)中,并與傳統(tǒng)的KNN算法進(jìn)行了比較。上述這些方法雖然在一定程度上緩解了推薦系統(tǒng)的不足,但均未考慮用戶興趣屬性之間的相關(guān)性。
文獻(xiàn)[11]將遺傳算法應(yīng)用到協(xié)同個性化推薦中,試圖通過啟發(fā)式特征術(shù)語的選擇,有效地與其它用戶分享信息選擇經(jīng)驗,優(yōu)化用戶模型,提高信息選擇的質(zhì)量。文獻(xiàn)[12]提出基于蟻群算法實現(xiàn)用戶聚類,以提高協(xié)同過濾推薦系統(tǒng)的最近鄰查詢速度。文獻(xiàn)[13]提出一種基于興趣相關(guān)性的本體用戶模型更新算法,用戶更新IS-A關(guān)系下的用戶興趣值,取得了一定的效果。文獻(xiàn)[14]將瀏覽行為和用戶在頁面上的停留時間結(jié)合,提出了基于時間元興趣度度量方法。文獻(xiàn)[15]通過時間遺忘函數(shù)、黏度函數(shù)、用戶特征向量,對協(xié)同過濾算法尋找用戶的最近鄰居集合過程進(jìn)行了改進(jìn),體現(xiàn)了時間效應(yīng)、用戶偏好程度和用戶特征。以上對興趣模型和協(xié)同算法的改進(jìn)均未考慮用戶興趣屬性之間的聯(lián)動性,即用戶的一種興趣發(fā)生變化時可能會引起對另外一種物品的興趣。
本文以淘寶電子商務(wù)平臺的分類為知識,建立分類知識庫,提出一種考慮用戶興趣演化擴(kuò)散和商品屬性特征的混合個性化推薦系統(tǒng)UMARS。根據(jù)用戶購買記錄、瀏覽記錄及行為建立興趣模型,利用用戶興趣的空間擴(kuò)散來更新用戶模型,考慮用戶興趣隨時間的演化特性,同時,采用商品屬性特征匹配的方法篩選推薦商品。實驗證明這種方法能夠有效的表示用戶興趣之間的相互關(guān)系,提高個性化推薦的準(zhǔn)確率。
1用戶興趣模型的建立
11全局知識庫的建立
在UMARS系統(tǒng)中,每個商品或服務(wù)都對應(yīng)到特定的分類中。本文以淘寶電子商務(wù)平臺中的商品分類為依據(jù)對商品進(jìn)行分類,建立全局本體樹。每個商品都被劃分在對應(yīng)的分類中,每個分類都是某個分類的子類,如{數(shù)碼:手機(jī):HTC:HTC one 802w},從右到左依次HTC one 802w是HTC的子類,HTC是手機(jī)的子類,手機(jī)是數(shù)碼的子類,這種父子類別的關(guān)系構(gòu)成本體樹的上下層關(guān)系。全局知識本體樹中,分類的父子類別形成本體樹的父子節(jié)點。每個節(jié)點的描述形式為(N,v,W),其中N是節(jié)點的名稱,W為節(jié)點的特征屬性向量,v為節(jié)點的原始興趣值,其取值為父節(jié)點的原始興趣值進(jìn)行歸一化得到,如公式(1) 所示。
Io(sni)=I′o(sni)/count(sni)(1)
式中:Io(sni)為子節(jié)點sni的原始興趣值,I′o(sni)為節(jié)點sni的父節(jié)點的原始興趣值,count(sni)表示本體樹中層次i的所有節(jié)點總數(shù)。
每個商品都有特征屬性,用于表明自身區(qū)別其他商品的特色。用戶在搜索商品時會給出所需商品的特點要求。因此,本體樹上的每個節(jié)點除具有具體的商品類別外,還擁有表征的屬性W={w1,w2,…,wn},用于區(qū)別同一父類的其他兄弟子類,子類擁有比父類更多的特征屬性。例如父類“手機(jī)數(shù)碼”擁有品牌、價格等屬性,而子類“手機(jī)”除了擁有父類的全部屬性以外,還擁有手機(jī)特色、手機(jī)配置等其他屬性,如圖1所示。提取本體樹中節(jié)點的特征屬性,建立特征向量,未列入特征向量的特征表示該分類不具有該屬性,對應(yīng)取值為0。
圖1全局本體樹及其特征屬性
12興趣度計算
在UMARS系統(tǒng)中,用戶模型的興趣由顯式興趣和隱式興趣組成,顯式興趣來自于用戶以前的購買記錄,隱式興趣主要來自于用戶的瀏覽、收藏等行為。當(dāng)用戶首次購買、瀏覽某商品后,獲得初始興趣點和興趣值,用戶的興趣會隨著時間的推移產(chǎn)生演化。
1) 用戶興趣的表示。
用戶興趣模型是一個本體樹,它是全局知識本體的一個子集。興趣模型中的每個節(jié)點表示用戶的一個興趣點,描述為
I(N)=αI′(N)+βIs(N)(2)
式中: I′(N)為用戶節(jié)點N的興趣值,其初始值為Io(N) ,即用戶在節(jié)點N的原始興趣值,Is(N)表示用戶對節(jié)點N的隱式興趣值。α,β∈R 且α+β=1。
用戶興趣主要來自于購買記錄和用戶的行為。當(dāng)用戶購買或瀏覽商品時,系統(tǒng)記錄該商品類別和商品特征,并在全局本體樹中查找對應(yīng)的節(jié)點,作為用戶的興趣節(jié)點,取出該興趣節(jié)點的特征屬性W,并作為用戶興趣節(jié)點的興趣特征向量的依據(jù)。
2) 行為分析。
用戶興趣的獲得還來自于用戶的行為,稱為隱式興趣。在分析用戶行為的同時,根據(jù)用戶的不同行為來表達(dá)用戶興趣。定義用戶行為的集合及其對應(yīng)的權(quán)值,如表1所示。
表1用戶行為分類及其權(quán)值
動作動作表示權(quán)值
平均瀏覽時間A1p1
重復(fù)訪問同一頁面A2p2
點擊鏈接A3p3
查看購買評價A4p4
收藏頁面A5p5
點擊旺旺鏈接A6p6
訪問關(guān)鍵詞A7p7
上述7種用戶行為代表了用戶對產(chǎn)品可能產(chǎn)生興趣的不同,其權(quán)值表示興趣的差異。在進(jìn)行用戶行為分析時,首先取得頁面產(chǎn)品的描述,然后利用產(chǎn)品標(biāo)識查找在全局本體樹中的位置,從而獲得興趣點N,接著通過公式(3)計算用戶在該興趣節(jié)點上的用戶行為度量f(N)。
f(N)=∑ni=1pi*Ai(3)
式中:∑ni=1pi=1,n為用戶行為的分類數(shù)目。
用戶的行為度量可以衡量不同行為對用戶隱式興趣獲得的貢獻(xiàn),用戶的隱式興趣通過公式(4) 計算得到。
Is(N)=l(N)+1lmax(N)+1 f(N)(4)
式中: l(N)表示用戶行為目標(biāo)對象在用戶興趣模型本體樹中的節(jié)點層次; lmax(N)表示用戶興趣模型本體樹節(jié)點的最深層次; f(N)表示用戶行為度量。
2用戶興趣的更新
21興趣的空間擴(kuò)散
用戶對商品的興趣會在商品的購買過程中遷移并最終確定,這種遷移稱之為用戶興趣的空間擴(kuò)散。例如,用戶A在購買了手機(jī)之后,其感興趣的商品就會由手機(jī)類商品變遷到與手機(jī)相關(guān)的其他商品,如移動電源、手機(jī)硅膠套等。也就是說,用戶興趣的空間擴(kuò)散是與當(dāng)前興趣相關(guān)的。表現(xiàn)在用戶興趣本體模型上,這種擴(kuò)散表現(xiàn)為與當(dāng)前興趣節(jié)點Ni相關(guān)的興趣節(jié)點集合。
由于用戶的興趣點之間是相關(guān)的,這種相關(guān)性在用戶興趣模型中表現(xiàn)為本體樹節(jié)點之間的結(jié)構(gòu)和語義關(guān)系(如節(jié)點距離、節(jié)點間的父子關(guān)系、節(jié)點之間的特征屬性相似關(guān)系等)的相關(guān)性,如圖2所示。已知用戶i對商品Mj具有興趣,由于用戶興趣之間存在相關(guān)性,并且當(dāng)前用戶的興趣因為興趣相關(guān)性擴(kuò)散,從而影響用戶對其他商品的興趣,這種興趣擴(kuò)散可以緩解用戶興趣模型的數(shù)據(jù)疏松問題,用戶興趣擴(kuò)散采用公式(5)~式(6)計算。
fi(N,Mj)=I(N)/(1+exp(-d(N,Mj)*t))(5)
Ir(N)=∑nj=1fi(N,Mj)(6)
式中: fi(N,Mj)表示用戶i的已有興趣Mj對興趣N的影響;Ir(N)用戶在興趣節(jié)點N的關(guān)聯(lián)興趣值。
22商品屬性擴(kuò)散
用戶在電子商務(wù)平臺上瀏覽商品時,往往并沒有欲購買商品的明確目標(biāo),只是提出對商品功能、特點的要求。如用戶B希望自己能購買一個屏幕較大,具有看電影、聽音樂、上網(wǎng)收發(fā)郵件、瀏覽新聞等功能的手持設(shè)備。此時,本系統(tǒng)為精確定位用戶關(guān)注的商品,收集用戶所需要的商品的主要特征,利用用戶搜索的商品特征屬性進(jìn)行擴(kuò)散匹配,為用戶推薦最符合需求的商品。
圖2興趣的空間擴(kuò)散
利用用戶搜索時提交的商品特征屬性,匹配現(xiàn)有商品的特征,通過計算相似度定位感興趣的商品,確定商品的興趣值。設(shè)屬性集合B={b1,b2,…,bn}為用戶搜索的屬性集合,Ai={ai1,ai2,…,aim}為興趣節(jié)點Ni具有的特征屬性集合,可能感興趣的商品即興趣度通過公式(7) 計算。
Ia(N)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)*Ii(N)(7)
本系統(tǒng)中用戶i對興趣節(jié)點N的興趣值可用公式(8)計算得到。
Ii(N)=α1Is(N)+α2Ir(N)+α3Ia(N)(8)
式中:α1,α2,α3∈R,且α1+α2+α3=1。
23興趣的時間更新
人們對某件事物的興趣度大小隨著時間的推移而發(fā)生先快后慢的增長,因此人們采用時間函數(shù)來描述這種變化規(guī)律。 林鴻飛等人采用了基于興
趣聚類的方法來描述用戶興趣的更新和擴(kuò)散,未能考慮用戶興趣擴(kuò)散和時間的關(guān)系。時間窗是解決上述問題的一個較好的方法,用戶的長期興趣是相對較穩(wěn)定的興趣,隨時間的變化較慢,如何劃分長短期興趣是難以克服的問題。更多的研究者選擇采用Logistic模型描述用戶興趣隨時間的變化規(guī)律,因為該模型能夠描述用戶興趣隨時間推移先快后慢的增長規(guī)律,最終趨于穩(wěn)定。本系統(tǒng)也采用Logistic模型來描述時間對用戶興趣度的影響。
用戶對商品N的興趣度隨時間推移的變化規(guī)律可采用公式(9)計算。
Ii(N)=Ii(N)/(1+exp(-(α+βt)))(9)
式中:α,β∈R且α+β=1,取α=β=0.5。
3混合的個性化推薦
UMARS系統(tǒng)包括用戶數(shù)據(jù)采集、用戶模型創(chuàng)建、用戶模型進(jìn)化和推薦模塊四部分組成。用戶數(shù)據(jù)采集模塊負(fù)責(zé)收集用戶的年齡、職業(yè)等基本信息、用戶在網(wǎng)站中的購買記錄以及行為數(shù)據(jù),并對收集到的用戶數(shù)據(jù)進(jìn)行必要的預(yù)處理;用戶模型創(chuàng)建模塊負(fù)責(zé)根據(jù)采集的用戶數(shù)據(jù),為首次登錄系統(tǒng)的用戶創(chuàng)建用戶興趣模型;用戶模型進(jìn)化模塊主要對已有用戶的興趣進(jìn)行時間更新、空間擴(kuò)展和基于商品屬性的興趣擴(kuò)展;推薦模塊主要綜合運用用戶模型的相似度計算以及商品屬性匹配度計算,為用戶推薦精準(zhǔn)的感興趣商品。系統(tǒng)架構(gòu)如圖3所示。endprint
圖3系統(tǒng)結(jié)構(gòu)圖
在UMARS系統(tǒng)中,基于相似用戶推薦是通過用戶模型相似度計算獲得與當(dāng)前用戶具有相同或相似興趣的若干個用戶,采用Top N算法進(jìn)行過濾,然后將相似用戶感興趣的商品推薦給當(dāng)前用戶。用戶模型的相似度計算采用了余弦相似度計算方法。
Sim(i,j)=∑nk=1Iik(N)Ijk(N)∑nk=1I2ik (N)∑nk=1I2jk (N)(10)
式中:Iik(N)、Ijk(N)表示用戶i和j對興趣項目k的興趣度值。
基于商品屬性內(nèi)容推薦,是根據(jù)用戶查詢的內(nèi)容,通過和商品庫中商品的屬性進(jìn)行相似性計算,接著采用Top N方法進(jìn)行過濾,最后將得到的屬性相似的商品推薦給當(dāng)前用戶。屬性相似性計算方法如公式(11)所示。
SimA(B,Ai)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)(11)
式中:B為當(dāng)前用戶搜索的商品屬性向量,Ai為商品庫中第i個商品的屬性向量。
4實驗及分析
41實驗數(shù)據(jù)及評價
通過淘寶網(wǎng)平臺開放的API獲取商品分類和屬性條目以及用戶數(shù)據(jù),選取了2142名用戶交易記錄,每名用戶實際發(fā)生交易均超過10次,共36726條記錄,時間跨度超過5個月。采用熵權(quán)法計算[16]得到用戶七種瀏覽行為的權(quán)值,如表2所示。
表2熵權(quán)法計算行為權(quán)值
動作A1A2A3A4A5A6A7
權(quán)值0.110.130.110.130.190.210.13
UMARS系統(tǒng)根據(jù)用戶的購買記錄、瀏覽行為等計算用戶興趣度,并利用用戶模型的相似度計算和屬性相似度計算,通過Top N方法為用戶提供可供其選擇的商品集,如果用戶選擇并瀏覽該商品集中的商品,則表示系統(tǒng)推薦是準(zhǔn)確的。于是本文采用用戶實際點擊商品數(shù)占推薦商品個數(shù)的比例,即利用推薦命中率PR[17]來檢驗UMARS系統(tǒng)推薦的準(zhǔn)確性,如公式(12)所示。
PR=∑ni=1ClickNumi∑ni=1RecItemsi(12)
式中:i為第i次推薦,ClickNumi代表客戶在第i次推薦中點擊所推薦商品的數(shù)量,RecItemsi表示第i次推薦的商品集中商品的數(shù)量。n為對當(dāng)前用戶推薦的次數(shù)。
42實驗分析
首先,根據(jù)用戶的購買記錄和瀏覽行為得到用戶的興趣本體樹,采用基于相似用戶的協(xié)同推薦和基于商品屬性內(nèi)容匹配的混合推薦方法得到Top N的推薦商品集,然后統(tǒng)計用戶的推薦命中率,得到如圖4所示的推薦命中率曲線。其中MT為文獻(xiàn)用戶顯意識下的多重態(tài)度個性化推薦算法,US為基于用戶模型和屬性擴(kuò)散的混合個性化推薦。
推薦商品數(shù)/個
圖4算法的命中比比較
本系統(tǒng)利用商品的類屬和商品的屬性進(jìn)行推薦,同時,將用戶興趣隨時間和空間的演化運用到推薦當(dāng)中,命中率呈現(xiàn)較為快速的增長。但隨著商品的增多,命中率呈現(xiàn)下降趨勢,當(dāng)商品數(shù)量超過500后增長趨勢下降較為明顯。這是因為隨著商品數(shù)量的增多,商品的屬性數(shù)量增速明顯,符合屬性的商品數(shù)量隨之增多,從而導(dǎo)致命中率增速下降。
5結(jié)束語
本文以淘寶電子商務(wù)平臺為依托,提出基于用戶模型和商品屬性擴(kuò)散的混合個性化推薦系統(tǒng),通過將用戶興趣進(jìn)行時間演化和空間擴(kuò)散的方法,簡化了推薦系統(tǒng)的實現(xiàn)。同時,通過商品屬性匹配的技術(shù)更加精準(zhǔn)的為用戶提供推薦服務(wù)。最后實驗驗證了該方法在提高了推薦系統(tǒng)效率和推薦命中率等方面具有較為明顯的效果。
參考文獻(xiàn):
[1]余力,劉魯. 電子商務(wù)個性化推薦研究[J].計算機(jī)集成制造系統(tǒng), 2004,10(10):1 306-1 313.
[2]劉華. 基于關(guān)聯(lián)規(guī)則的個性化推薦系統(tǒng)研究與應(yīng)用[D].上海: 華東師范大學(xué), 2011.
[3]曾春,邢春曉,周立柱. 基于內(nèi)容過濾的個性化搜索算法[J].軟件學(xué)報,2003, 14(5):999-1 004.
[4]莊景明,王明文,葉茂盛. 基于內(nèi)容過濾的農(nóng)業(yè)信息推薦系統(tǒng)[J].計算機(jī)工程,2012, 38(11):38-41.endprint