





摘要:隨著推薦系統的發展,長尾問題也逐漸凸顯。基于圖結構的推薦算法通過挖掘用戶與物品之間的間接聯系來解決長尾問題。但是圖的結構決定了推薦的優先度,與用戶間接聯系的長尾物品被推薦的優先度相對較低。圖自監督學習推薦算法(SGL)通過添加圖的隨機擾動,提高了推薦系統的準確性和長尾物品推薦能力。而過多的歷史數據會對推薦的準確性和長尾物品推薦性能造成負面影響。文章在SGL算法的基礎上,將用戶的個性化行為與圖自監督學習相結合,解決在面對交互物品數量較多的用戶時,推薦準確性和長尾物品推薦性能降低的問題。
關鍵詞: 計算機系統結構; 推薦算法; 深度學習; 圖自監督學習; 長尾問題
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2024)31-0031-03
開放科學(資源服務)標識碼(OSID) :
1 問題提出
近年來,推薦系統已成功應用于許多在線服務,如電子商城、音樂推薦、短視頻推薦和廣告推薦等。通過相關算法將用戶與物品更好地聯系起來,這在一定程度上改善了用戶體驗。然而,推薦系統中的數據存在長尾分布,這一問題被稱為推薦系統的長尾問題[1-2]。雖然基于圖結構的推薦系統嘗試向用戶推薦與其間接聯系的物品,但圖的結構決定了推薦的優先度[3],在不改變圖結構的情況下,與用戶間接聯系的物品相對于直接聯系的物品,其被推薦的優先度較低。
圖自監督學習推薦算法(SGL)[4]通過添加圖形擾動,打破原始圖結構,提升與用戶存在間接聯系的物品被推薦的優先度,從而探索用戶對于長尾物品的興趣。然而,該算法仍然遵循基于圖結構推薦的約束條件:“在原始圖中,與用戶直接相連的物品預測值,應大于與用戶間接相連的物品預測值?!币虼?,在面對具有大量歷史交互數據的用戶時,其推薦準確性和長尾物品推薦性能會受到一定程度的影響。
基于此,本文提出了一種用戶自適應圖自監督學習推薦算法(UA-SGL),旨在解決基于圖結構的推薦系統在面對具有較多歷史交互數據的用戶時推薦準確性和長尾物品推薦性能降低的問題。
2 自適應圖自監督學習推薦算法方法
由于SGL算法屬于基于圖結構的推薦算法,本身并未舍棄基于圖結構推薦的約束條件,且在一定程度上已經改善了基于圖結構推薦算法的長尾問題。因此,本文以SGL為例,分析了基于圖結構推薦算法存在的問題及改進思路。主要分析用戶歷史行為與長尾物品興趣挖掘之間的關系,并提出用戶自適應圖自監督學習推薦算法。該算法通過自適應學習不同用戶和數據集的特點,以刪除用戶早期的歷史交互物品信息。
在公開數據集上進行了實驗,結果表明在推薦準確率和長尾物品推薦性能上,UA-SGL算法均優于圖自監督學習推薦系統(SGL) 。
2.1 用戶行為分析
2.1.1 用戶歷史行為分析與長尾興趣挖掘
本文對所有用戶的歷史交互進行了統一比例的刪除,驗證了隨著用戶交互歷史物品數據的減少,推薦系統的長尾推薦性能有所上升。然而,以往的方法是對全體用戶統一減少相同比例的歷史交互數據[5],但在真實推薦場景中,用戶的個性化差異較大。對全體用戶統一減少相同比例的歷史交互物品數據,可能會降低推薦系統的準確性。
因此,如何衡量用戶的個性化行為并據此進行歷史數據刪除,成為本文探索的方向。在同一數據集中,分析不同用戶的長尾偏好率,綜上所述,以上問題可總結為以下兩點:1) 如何衡量用戶個性化行為;2)用戶個性化行為與刪除用戶歷史交互數據之間的關系。
2.1.2 用戶整體行為與長尾興趣挖掘
在之前的實驗中,僅通過統一刪除一定比例的用戶歷史交互數據,即可提升推薦系統的長尾物品推薦率。雖然在Yelp2018 數據集上,推薦精確率(precision) 、召回率(recall) 和歸一化折損累計增益(NDCG) 等指標與SGL 存在差距,但在amazon-book數據集上表現良好,在各項指標上均優于SGL模型。因此,本文試分析模型在不同數據集上效果存在差距的原因。
通過數據分析,筆者認為可能存在以下幾個原因:1) 不同數據集中用戶對于長尾物品或小眾物品的偏好有所不同,對所有用戶實行統一的歷史交互數據舍棄,對偏好熱門物品的用戶來說是有一定損害的。2) amazon-book數據集的用戶物品交互總數和平均用戶物品交互數均遠遠大于Yelp2018,致使每個用戶的物品交互數據對用戶/物品節點向量表征的生成影響較小。而在Yelp中,由于用戶物品交互數量較少,刪除的用戶物品交互數據可能會顯著影響推薦系統的推薦準確性。值得注意的是,在這三個數據集上,用戶對于長尾物品的偏好率基本符合正態分布。
2.2 用戶自適應圖自監督學習推薦方法
根據以上分析,可以明確本文對基于圖結構的推薦算法的優化方向,具體可分為兩個方面:1) 異常用戶篩選。由于基于圖結構的推薦算法在面對交互數量較多的用戶時會出現性能降低,因此,將這些用戶篩選出來,并削減他們的歷史交互物品數量,使其保持在一個合理的范圍,是一個重要的方法。2) 個性化行為保留。不同用戶的行為偏好各不相同,有人是“熱門物品愛好者”,而有人則是“小眾物品偏好者”。由分析可知,保留的歷史交互物品數量與推薦長尾物品率之間呈現反比,因此對于不同偏好的用戶,應采用不同的保留比例。
2.2.1 異常用戶篩選與個性化行為保留方法
1) 異常用戶篩選:參考箱型圖的定義方法,本文將“異常用戶”定義為:其交互數量超過所有用戶交互數量統計值的上四分位數(Q3) 1.5 倍四分位距離(IQR) 的用戶(即箱型圖中的異常值用戶)。
2) 個性化行為保留:駱錦濰、劉杜鋼等人[6-7]提出了匹配傾向得分算法,該算法用于推薦系統中的數據糾偏,以解決數據集偏差的問題。盡管這一方法的思想值得借鑒,本文根據其理念,提出了用戶個性化傾向得分算法。
如公式(2) 所示,ratiou 為OUA-SGL根據“異常”用戶的個性化行為分析保留的歷史物品交互數量。其中pou 的計算方法來源于公式(1) ,Σi ∈ (u,i),i ∈ IpopularityYu,i 為用戶u 歷史交互的物品中,屬于熱門物品的數量,根據“長尾”的定義,此處將交互數量排名前20%的物品定義為熱門物品。Σi ∈ (u,i)Yu,i 為用戶u 與與物品的所有交互數量,pou 即為用戶的“熱門物品偏好”。為“異常”用戶中,對于“熱門物品”偏好最大的那個用戶的“熱門物品”偏好率,mean為所有用戶交互物品數量的均值。Q3為上四分位數,IQR為四分位距離。ratiou即為“異常用戶”的個性化保留物品數量。
2.2.2 用戶自適應圖自監督學習推薦算法
通過實施異常用戶篩選和個性化行為保留的方法,可以開發出用戶自適應的用戶物品二部圖生成優化方法。生成方法的總體流程如圖1所示。
如圖2所示,UA-SGL模型的整體架構示意圖展示了其自適應架構的主要組成部分,具體分為2個部分:1)“ 異常用戶”篩選;2) 個性化行為保留。
3 實驗與結果分析
本文在3個實驗數據集上進行了實驗:Yelp2018[3,7],Amazon-book[7],gowalla[8]。結果如表1所示。
在這3 個公開數據集上進行的實驗中,精確率(precision) 、召回率(recall) 、歸一化折損累計增益(NDCG) 和平均長尾率均有顯著提升,這驗證了本文提出的用戶自適應圖自監督學習推薦算法(UA-SGL)對圖自監督學習推薦系統(SGL) 性能提升的有效性。
4 結論
在互聯網飛速發展的時代,數據信息呈指數性增長,各類音樂、影視和點評類網站及應用層出不窮。在紛繁冗雜的海量信息中,精準找到用戶的興趣和愛好,必將成為今后持續研究的重要課題。長期以來,以圖結構為基礎的推薦算法一方面過于注重對用戶物品交互信息的挖掘,期望通過更多的信息構建更為精準的模型,例如,將用戶屬性、物品屬性特征和物品評分信息等納入圖結構進行綜合分析;另一方面,推薦系統往往僅通過用戶與物品之間的連接信息來挖掘用戶可能感興趣的其他物品,以提高推薦的準確性和效率。為了克服這些問題,本文進一步提出了用戶自適應圖自監督學習推薦算法(UA-SGL) ,并通過實驗設計對其有效性進行了驗證與分析。
參考文獻:
[1] 梁貽樂.面向長尾和冷啟動物品的新穎性推薦方法研究[D].武漢:武漢大學,2021.
[2] 王永貴, 趙曉暄. 結合自監督學習的圖神經網絡會話推薦[J].計算機工程與應用, 2023, 59(3): 244-252.
[3] WU J C,WANG X,FENG F L,et al.Self-supervised graph learn?ing for recommendation[C]//Proceedings of the 44th Interna?tional ACM SIGIR Conference on Research and Development in Information Retrieval.Virtual Event Canada.ACM,2021:726-735.
[4] 韓涵, 黃訓華, ?;刍郏?等. 心電領域中的自監督學習方法綜述[J].計算機科學與探索, 2023, 17(8): 124-129.
[5] 駱錦濰, 于艷華. 基于圖神經網絡和自監督學習的會話推薦算法研究[J].計算機學報, 2022, 41(7): 1619-1647.
[6] 駱錦濰,劉杜鋼,潘微科,等.基于改進的傾向得分估計的無偏推薦模型[J].計算機應用,2021,41(12):3508-3514.
[7] KORNBLITH S, NOROUZI M, LEE H, et al. A simple frame?work for contrastive learning of visual representations[C]//Pro?ceedings of the 37th International Conference on Machine Learning. PMLR, 2020: 1597-1607.
[8] WANG X,HE X N,WANG M,et al.Neural graph collaborative filtering[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Re?trieval.Paris France.ACM,2019:165-174.
【通聯編輯:唐一東】