陳雪婷
(貴州師范大學,貴州 貴陽 550025)
在電子商務領域中,基于協(xié)同過濾的推薦算法核心概念是:對于相似用戶而言,在興趣愛好上同樣存在一定的相似性。可以嘗試通過對目標用戶興趣相似用戶進行搜尋的方式,根據(jù)最鄰近用戶的評分對目標用戶相對于某項目商品的評分制進行預測,并將預測評分最高的部分商品面向目標用戶進行推薦。在當前技術條件支持下,大量國內(nèi)外研究學者嘗試對協(xié)同過濾推薦算法的應用思路與操作步驟就那些改進與優(yōu)化,提出了包括基于神經(jīng)網(wǎng)絡、基于矩陣降維以及基于聚類的協(xié)同過濾操作方法。以下嘗試將分層聚類準則引入電子商務領域的協(xié)同過濾個性化推薦算法中,對該算法操作思路進行研究與分析,并通過對實驗數(shù)據(jù)的應用驗證該算法應用于電子商務領域的可行性與可靠性。
當前技術條件支持下,電子商務領域中基于分層聚類原則的協(xié)同過濾推薦算法的將數(shù)據(jù)集劃分為層次數(shù),所涉及到的常見形式包括兩大類,第一類為凝聚,第二類為分裂。其中,前者是指在數(shù)據(jù)集中,每個數(shù)據(jù)均可遵循從下至上基本原則合并形成相似類,直至滿足一定條件完成合并為止;后者則是指在數(shù)據(jù)集中所涉及到的相關對象均屬于同一個類,在此基礎之上遵循自上而下的原則進行分類,形成若干小類,所有小類均包含一定元素。但在電子商務領域對協(xié)同過濾個性化推薦算法進行實際應用的過程當中發(fā)現(xiàn),傳統(tǒng)意義上基于分層聚類原則的個性化推薦算法存在一定的不足,主要體現(xiàn)在兩個方面:第一,在基于分層聚類原則的個性化推薦算法應用中,沒有通過數(shù)學計算的方式確定個性化推薦所依賴的聚類準則,加之分層過程具有不可逆的特點,這也就意味著一旦對聚類的選取出現(xiàn)誤差,則無法退回上一步驟重新進行選取,且后續(xù)操作中無法進行彌補,最終對推薦效果產(chǎn)生一定程度上的影響;第二,在基于分層聚類原則的個性化推薦算法中,對聚類中心的選擇考慮數(shù)據(jù)集相鄰區(qū)域,導致個性化推薦效果缺乏整體性。
以下以對電影影片的推薦為例,對經(jīng)過改進后的基于分層聚類的協(xié)同過濾個性化推薦算法流程進行簡要闡述:假定對于用戶1#而言,需要系統(tǒng)面向其喜好推薦5部影片,且該用戶當前有10條歷史觀看記錄。該情況下,可以嘗試與其他系統(tǒng)用戶進行對比,將觀看電影數(shù)量相同這一條件作為分層標準,引入聚類概念,即對于2#用戶而言,歷史觀看記錄中有8條與1#用戶相同,對于3#用戶而言,歷史觀看記錄中有6條與1#用戶相同,則可以基于用戶1#構建聚類中心,并基于2#以及3#用戶向外進行分層,以沒有與用戶1#存在相同觀看記錄為停止標準。但此情況下,并不意味著與1#用戶相同觀看記錄以外的其他影片都需要面向其做推薦,在進行影片推薦前還需要滿足圍合數(shù)的概念。在此過程中對最大圍合數(shù)的基本定義為:通過當前所有比對用戶數(shù)量與當前所有比對層數(shù)和相除的方式,將其作為確定數(shù),直至某部影片出現(xiàn)次數(shù)高于確定數(shù),此情況下確定將所對應影片推薦給用戶1#。換句話來說,在分層聚類協(xié)同過濾個性化推薦的過程當中,對于第1層而言,在推薦影片數(shù)量不足5部的情況下則需要轉移至第2層進行比對。對于3#用戶而言,剩余4部影片有一定機會被推薦給用戶1#。在個性化推薦算法中,此情況下還需要引入基數(shù)計算方法,即將第1層影片數(shù)量與第2層影片數(shù)量相加,得到當前比對的所有電影數(shù)量,并與所有層數(shù)相除,所得到的結果進行根號處理,在算值低于3的情況下的,僅對第2層電影數(shù)量進行計算。換言之,此情況下對于3#用戶而言,若剩余4部影片中有3部電影的出現(xiàn)次數(shù)高于前一步驟中所計算的最大圍合數(shù)結果,則將這3部影片推薦給1#用戶。在尚未推薦完畢的情況下,其他步驟按照相同方法進行處理。
各相關行業(yè)領域對協(xié)同過濾技術的應用一直備受業(yè)內(nèi)人士的關注與重視。但由于協(xié)同過濾算法自身存在一定的局限性,即在數(shù)據(jù)信息相對稀疏且冷啟動的情況下會對個性化推薦效果產(chǎn)生一定程度上的影響。因此,相關人員開始嘗試基于分層聚類準則,對常用分層聚類算法存在的問題進行改進,將優(yōu)化改進后的分層聚類協(xié)同過濾個性化推薦算法應用于電子商務個性化推薦實踐中,實現(xiàn)了基于用戶推薦與基于項目推薦的良性融合,體現(xiàn)了協(xié)同過濾個性化推薦算法的整體性以及組合性特點,并通過對一系列實驗數(shù)據(jù)的應用證實,經(jīng)改進分層聚類準則優(yōu)化后的協(xié)同過濾電子商務個性化推薦算法能夠更加精確的把握相似性,達到顯著提升推薦效果的目的。
以GroupLens 項目組收集MovieLens 為本次實驗基礎數(shù)據(jù),用于對改進分層聚類準則條件下協(xié)同過濾個性化推薦算法質量水平的驗證實驗?;A數(shù)據(jù)共100000條,納入研究的評分用戶評價電影條數(shù)高于20條。實驗過程中評分標準為MAE,以該參數(shù)代表用戶1#相對于已經(jīng)給出評分向項目的偏差度量,所關聯(lián)的系數(shù)包括項目數(shù)、預測評分、實際評分,MAE 值可用于對評分結果準確性的預測,將該參數(shù)作為標準,在該值偏小的情況下意味著具備良好的推薦效果,在該值偏大的情況下的則意味著個性化推薦效果不理想。
實驗結果如下所示:
在系數(shù)取值0.1的情況下,所對應的MAE值為0.7272;
在系數(shù)取值0.2的情況下,所對應的MAE值為0.7228;
在系數(shù)取值0.3的情況下,所對應的MAE值為0.7199;
在系數(shù)取值0.4的情況下,所對應的MAE值為0.7186;
在系數(shù)取值0.5的情況下,所對應的MAE值為0.7188;
在系數(shù)取值0.6的情況下,所對應的MAE值為0.7205;
在系數(shù)取值0.7的情況下,所對應的MAE值為0.7238;
在系數(shù)取值0.8的情況下,所對應的MAE值為0.7286;在系數(shù)取值0.9的情況下,所對映的MAE值為0.7349。以上數(shù)據(jù)反應了系數(shù)取值相對于MAE 值得影響,結合以上數(shù)據(jù)可見,在系數(shù)取值為0.4的情況下,基于改進分層聚類準則的協(xié)同過濾個性化推薦算法推薦效果達到最佳狀態(tài)。在此基礎之上,與傳統(tǒng)協(xié)同過濾算法以及傳統(tǒng)聚類協(xié)同過濾算法就推薦效果進行對比,對比結果同樣顯示:基于改進分層聚類準則的協(xié)同過濾個性化推薦算法MAE 值始終維持在較低水平,以此種方式驗證經(jīng)改進后的個性化推薦算法具備更為理想的推薦效果。
本文上述分析中基于最大限度降低個性化推薦偏差,提升個性化推薦效果的目的,對基于分層聚類的分層準則進行改進與優(yōu)化,以彌補傳統(tǒng)意義上分層聚類算法在個性化推薦方面存在的不足。經(jīng)改進后的協(xié)同過濾個性化推薦算法實現(xiàn)了對基于用戶推薦以及基于項目推薦兩種模式與思路的融合,以經(jīng)過改進的分層聚類住著呢為基本原則。通過對相關實驗數(shù)據(jù)的分析發(fā)現(xiàn),經(jīng)改進分層聚類住著呢的協(xié)同過濾個性化推薦算法在推薦準確度方面得到了明顯的提升,在MAE 值方面明顯優(yōu)于傳統(tǒng)協(xié)同過濾推薦算法以及聚類準則協(xié)同過濾算法,提示后續(xù)工作中可以嘗試將該算法實踐應用于電子商務推薦系統(tǒng)中,并對推薦效果做進一步觀察。