999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多重相似度和CatBoost的個性化推薦

2023-10-12 01:29:18楊懷珍
計算機工程與設計 2023年9期
關鍵詞:用戶模型

楊懷珍,張 靜,李 雷

(1.桂林電子科技大學 商學院,廣西 桂林 541004;2.桂林理工大學 商學院,廣西 桂林 541004)

0 引 言

推薦系統通過挖掘用戶歷史行為數據如購買記錄、評分信息等進行個性化推薦,從而緩解“信息過載”問題[1,2]。協同過濾算法[3,4]通過分析“用戶-項目”評分矩陣實現推薦。但由于歷史數據存在稀疏性導致其推薦精度低[5],針對該問題,王建芳等[6]聯合用戶間協同相似度、偏好相似度和具有時序的用戶興趣信息預測評分。張潤蓮等[7]將多種相似度加權構造混合相似度并通過K-means聚類分析來提高協同過濾推薦算法的精度。張怡文等[8]通過分析用戶偏好,提出了雙極協同過濾算法。任永功等[9]利用相似物品評分信息對稀疏的用戶評分矩陣進行填充,然后計算近鄰用戶對評分矩陣進一步進行填充。Shi等[10]利用奇異值分解加加模型探討用戶可靠性和受歡迎程度等內部因素對推薦性能的影響。Nahta等[11]在協同過濾算法中嵌入元數據,Liu等[12]K-means聚類分析提取新聞內容特征并考慮新聞的受歡迎程度結合奇異值分解技術以解決協同過濾算法的數據矩陣稀疏問題。Panda等[13]提出了基于規范化的協同過濾算法。這類方法的實時性較差,主要應用在數據量相對較小的場合。

近年來,一些學者[14,15]將機器學習算法與協同過濾算法相結合,提出了基于模型的協同過濾算法。Chen等[16]利用神經網絡解決了單對相互作用問題。李凌等[17]利用隨機森林在不同子區域篩選特征,并由協同過濾算法進行推薦。程明月等[18]利用貝葉斯模型對協同過濾算法進行優化,提升了其預測準確性。神經網絡具有良好的非線性逼近特性,王玉珍等[19]結合協同過濾算法和徑向基神經網絡設計推薦算法。Fu等[20]將受限玻爾茲曼機與協同過濾算法相結合用于設計推薦算法。以上算法通過挖掘歷史數據的深層特征,可緩解數據稀疏性對模型的影響,然而特征提取過程耗時較多且僅采用“用戶-項目”交互數據。

針對以上問題,文中在評分矩陣中融入項目元數據并由大規模信息嵌入網絡(large-scale information network embedding,LINE)求解混合相似矩陣的精確近鄰集,將其輸入CatBoost預測項目評分并利用Top-N推薦項目。采用MovieLens數據集對評估其性能并與結合徑向基神經網絡的協同過濾(collaborative filtering combined with radial basis function neural network,RBF-CF)、結合XGBoost的協同過濾(collaborative filtering combined with extreme gradient boosting,XGB-CF)、基于用戶的協同過濾(user-based collaborative filtering,UCF)和CatBoost進行對比。

1 推薦方法

1.1 協同過濾

協同過濾算法廣泛地應用在各類推薦系統中,其依據用戶或項目的歷史信息實現最終的推薦。整個協同過濾推薦算法主要分為:評分矩陣構建、相似度矩陣構建和項目推薦3個階段,相似度矩陣的構建處于核心地位,其好壞決定了推薦算法的精度。常見的相似度計量函數見表1。

1.2 結合CatBoost的協同過濾算法

CatBoost[21]是以梯度提升決策樹(gradient boosted decision tree,GBDT)框架為核心的集成學習方法,具有參數量少、穩健性強等優點,常用于處理類別型變量。其通過將樣本特征組合達到利用樣本特征間信息的目的并采用排序提升的方法對數據進行處理降低樣品數據中噪聲對模型的影響。此外,該方法可解決模型過擬合的問題,提升其準確性及泛化能力。協同過濾算法能夠依據用戶的歷史數據實現目標用戶感興趣項目的推薦。文中結合多重相似度分析和CatBoost提出了一種全新的推薦算法,其流程如圖1所示。該算法具有較高的推薦精度和較強的穩定性,能夠為用戶準確推薦其感興趣項目。

與傳統協同過濾算法的不同之處在于,該算法首先對項目元數據和評分數據進行哈夫曼編碼,將項目元數據和用戶評分數據利用修正的余弦函數求出對應的相似度矩陣,并將得到的結果進行融合;然后采用LINE提取混合相似矩陣的精確近鄰集并利用Skip-Gram提取其深層特征作為CatBoost的輸入對項目未知評分進行預測。

階段一:編碼及相似性分析

傳統的協同過濾算法直接對原始數據進行處理,會增加算法運行時間。文中采用對項目元數據和評分數據進行哈夫曼編碼,以達到縮減運行時間的目的。

(1)評分數據編碼及相似性分析

假設Ui為用戶i,Ij為項目j,P={xi,j} 為用戶i對項目j的評分,則構成的評分矩陣P見表2。

表2 用戶-項目評分矩陣

(1)

(2)項目元數據編碼及相似性分析

(2)

(3)混合矩陣相似性分析

大規模信息嵌入網絡(large-scale information network embedding,LINE)通過求解描述一階、二階鄰近關系目標函數的解作為節點的近鄰節點,這樣可以緩解稀疏數據對模型性能的影響。在LINE中相似數據結點關系如圖2所示,其主要有以下兩種類型:①直接相連接的結點5和結點7相似,這類結點主要位于網絡頂點,采用1階鄰近關系模型進行衡量;②共享較多數量的鄰近節點5和節點6相似,采用2階鄰近關系模型進行衡量。

圖2 LINE網絡中相似結點

一階鄰近關系模型:以混合相似矩陣Λ中項目為節點構建網絡,任選網絡中節點vi和vj, 則其一階鄰近關系概率為

(3)

(4)

(5)

最終求解目標函數g1的最小值

(6)

二階鄰近關系模型:二階鄰近關系模型主要用于判別共享鄰近節點的相似度。通常,網絡中節點還包含其它節點“上下文”,故首先采用節點vi計算節點vk生成的概率

(7)

(8)

最終求解目標函數g2的最小值

(9)

階段二:特征向量提取

(10)

為求解其精確近鄰集,對上式兩邊取對數,即

(11)

(12)

依據最小化式(12)對中心詞向量進行優化,求解出節點vi的精確集Fvi。

階段三:預測評分并推薦

將Skip-Gram提取的樣本特征向量Fvi送入CatBoost中訓練評分預測模型,其中Fvi={(X1,Y1),(X2,Y2)…(Xn,Yn)},n為樣本個數,Xn表示第n個樣本的m維特征,即Xn={x1,x2,…,xm};Yn為第n個樣本的屬性。在建立預測模型時首先利用數值s替換類別型變量,其中s為

(13)

然后對其弱學習器進行訓練,最終使損失函數的值趨于0。也就是說CatBoost最終是使ht最小,即

(14)

式中:ht為CatBoost中的弱學習器,Ft-1(x) 為上一輪訓練得到的強學習器。經過多次循環迭代最終得到的CatBoost模型為

Ft(x)=Ft-1(x)+ht

(15)

2 模型評價

MovieLens數據集中包含有1682部電影且943個用戶對電影的評分,評分值為0~5之間,此外統計了電影的標題、類型和主演等信息。文中以MovieLens數據集為實例,隨機選取MovieLens數據集中20%的數據作為測試集、80%的數據作為訓練集進行評估實驗,并與RBF-CF、XGB-CF、UCF和CatBoost對比來進一步驗證文中方法的有效性。

2.1 評價指標

文中采用預測精度、平均絕對偏差和運行時間作為評價指標,對各模型的性能進行評估。其中,預測精度用于評估用戶喜歡的項目在推薦項目總數中的占比,其值越大說明模型性能越優,反之模型性能越差;平均絕對偏差用于衡量項目預測評分和項目實際評分的差值,其值越小說明項目預測評分越接近項目真實評分,反之項目預測評分與項目實際評分差距越大。預測精度(Precision)和平均絕對偏差(mean absolute error,MAE)計算公式可表述為

(16)

(17)

2.2 模型參數確定

(1)相似度函數確定

選擇合理的相似度函數可準確求解出評分相似矩陣和項目元數據的相似矩陣,從而提高推薦模型的預測精度、降低平均絕對偏差。利用歐幾里得函數、余弦相似度函數、修正的余弦函數和皮爾遜函數求解的評分相似矩陣和項目元數據相似矩陣的預測精度如圖3所示。從圖中可看出,與歐幾里得函數、余弦函數和皮爾遜函數相比,修正的余弦函數求解的相似矩陣用于模型預測評分具有更高的精度,因此文中采用修正的余弦函數作為求解相似矩陣的衡量標準。

(2)CatBoost中決策樹個數確定

CatBoost選用決策樹作為其弱學習器對項目的評分進行預測,最終利用投票決策的方式求解出項目的預測評分。較少的決策樹數目會降低CatBoost對項目的預測精度,然而較多的決策樹數目則會增加CatBoost的運行時間。表3給出了決策樹數目為50~450時CatBoost的預測精度及運行時間。從表中可看出,當CatBoost中決策樹數目小于300時,隨著決策樹數目的增加CatBoost的預測精度和運行時間均增加且決策樹數目為300時CatBoost的預測精度最高;當CatBoost中決策樹數目超過300后,CatBoost的預測精度并未明顯增加但運行時間卻大幅增加,故而文中將CatBoost中決策樹數目設定為300。

表3 不同決策樹數目下模型的預測精度和運行時間

2.3 實驗結果分析

通過與RBF-CF、XGB-CF、UCF和CatBoost對比,從預測精度、運行時間和平均絕對偏差3個方面對各模型的有效性進行評估。RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF(文中所提算法)在不同近鄰集數目下的預測精度見表4。從表中可看出,隨著近鄰集數目的增加,各模型的預測精度均逐漸增加。此外,在不同近鄰集數目中,CatBoost-CF的預測精度均最高、XGB-CF和RBF-CF的預測精度次之,UCF的預測精度最差。這主要是由于CatBoost-CF模型在評分數據中融入了項目元數據,并且采用修正的余弦相似度函數和LINE求解的項目近鄰集更準確,從而提高了模型的預測性能;XGB-CF中采用集成學習的策略,能夠提升模型的非線性建模能力;RBF-CF中采用神經網絡抽取用戶評分歷史數據的深層特征,可緩解評分數據稀疏性導致的模型預測精度低的問題。

表4 不同近鄰集數目下各算法的預測精度

RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF在不同近鄰集數目下的運行時間見表5。從表中可容易的看出,UCF的運行時間最短,這主要是由于UCF直接采用相似矩陣進行預測評分無需其它操作;CatBoost-CF的運行時間較UCF和CatBoost的運行時間長,這主要是由于CatBoost-CF需要經過LINE網絡求解多階相鄰節點。RBF-CF和XGB-CF的運行時間相當且前者運行時間更長,這主要是由于RBF神經網絡需要多次迭代尋優而XGB中包含多棵決策樹需要多次運算出最優結果。

表5 不同近鄰集數目下各算法的運行時間

為進一步說明CatBoost-CF在各階段的耗時,文中以近鄰集數目為85時進行實驗,其各階段及總運行時間見表6。從表中可看出,CatBoost-CF中階段三耗時最多、階段一耗時次之、階段二耗時最少。這主要是由于CatBoost需要經過多個弱學習器進行項目評分的預測最后再投票決策,而階段一耗時則主要是由于LINE網絡迭代求解多階近鄰節點。

表6 CatBoost-CF在近鄰集為85時各階段的運行時間及總運行時間

模型的穩定性決定了模型預測結果的可靠性,文中以MAE作為RBF-CF、XGB-CF、UCF、CatBoost和CatBoost-CF算法穩定性的衡量標準,各算法在不同近鄰集下的MAE值如圖4所示。從圖中可看出,隨著近鄰數集個數增加各推薦算法的MAE均逐漸降低,這說明隨著訓練集樣本增加,各模型的穩定性也逐漸增強。此外,在不同近鄰集數目下CatBoost-CF的MAE均低于對比方法,XGB-CF次之,UCF的MAE值最高。這主要是評分數據中融入了項目元數據并由修正的余弦相似度函數和LINE精確求解項目的近鄰集,從而增強了CatBoost-CF的穩定性。然而傳統的UCF直接采用評分數據進行預測評分而近鄰集數目越大其越不精確故而穩定性最差。RBF-CF和XGB-CF的MAE值相當且優于UCF,說明集成學習和神經網絡均可以改善模型的穩定性。

圖4 各算法在不同近鄰集下的MAE

3 結束語

文中結合多重相似度分析和CatBoost提出了一種推薦算法,該算法具有較高的推薦精度、較強的穩定性。與傳統推薦算法不同的是,其采用修正的余弦相似度函數和LINE求解項目元數據和評分數據的精確近鄰集并由Skip-Gram挖掘其深層特征輸入CatBoost中預測項目評分最終由Top-N算法推薦項目。最后,采用MovieLens數據集對該算法性能進行評估,結果表明,該算法推薦精度更高、穩定性更強,可緩解數據稀疏性帶來的推薦質量低的問題。但是該算法較對比方法運行時間較長,在后續工作中嘗試將該算法并行化處理以縮短其運行時間。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 免费一级毛片在线观看| 91精品啪在线观看国产60岁| 99久视频| 91在线免费公开视频| 国产精品欧美亚洲韩国日本不卡| 99热在线只有精品| 免费一级大毛片a一观看不卡| 99色亚洲国产精品11p| 丁香五月激情图片| 91久久夜色精品国产网站| 2021天堂在线亚洲精品专区| 国产肉感大码AV无码| 国产新AV天堂| 1024你懂的国产精品| 国产成人一区免费观看| 国产xx在线观看| 91国内在线观看| 日韩在线中文| 3D动漫精品啪啪一区二区下载| 日韩小视频网站hq| 国产波多野结衣中文在线播放| 91精品国产91久久久久久三级| 亚洲乱码精品久久久久..| 91免费国产高清观看| 91在线精品麻豆欧美在线| 国产精品3p视频| 亚洲嫩模喷白浆| 国产在线拍偷自揄拍精品| 欧美专区日韩专区| 免费国产小视频在线观看| 亚洲有码在线播放| 午夜人性色福利无码视频在线观看| julia中文字幕久久亚洲| 全部免费特黄特色大片视频| 精品无码人妻一区二区| 国产精品大白天新婚身材| 亚洲女人在线| 无码网站免费观看| 国产成人精品优优av| 在线播放国产一区| 大陆国产精品视频| 天天躁夜夜躁狠狠躁图片| 久久综合国产乱子免费| 自偷自拍三级全三级视频| 国产成人综合在线观看| 超碰91免费人妻| 午夜久久影院| 中文字幕在线永久在线视频2020| 国产欧美中文字幕| 国产成人一区免费观看 | yy6080理论大片一级久久| 91精品国产91久久久久久三级| 国产区人妖精品人妖精品视频| 国产色偷丝袜婷婷无码麻豆制服| 日韩欧美国产另类| 国产91久久久久久| 欧美狠狠干| 亚洲人成网18禁| 中文字幕av无码不卡免费| 伊人久久大香线蕉aⅴ色| 日韩精品免费在线视频| 国产女人水多毛片18| 日韩国产另类| 91久久天天躁狠狠躁夜夜| 欧美伊人色综合久久天天| 国产成人无码Av在线播放无广告| 亚洲国产精品不卡在线| 日韩在线永久免费播放| 人人看人人鲁狠狠高清| 首页亚洲国产丝袜长腿综合| 91国内在线视频| 思思热在线视频精品| 日韩精品高清自在线| 九九视频免费看| 国产人人乐人人爱| 国产91全国探花系列在线播放| 免费久久一级欧美特大黄| 91在线无码精品秘九色APP| 国产一级妓女av网站| 久久久精品国产SM调教网站| 国产欧美日韩专区发布| 精品国产电影久久九九|