高迎,劉正
(首都經濟貿易大學,北京 100070)
當今時代是信息網絡時代,因此不同行業產生的數據信息數量已經達到ZB 級別,這為企業帶來了很多挑戰。互聯網用戶數量以一種十分迅猛的趨勢發展,對于各企業來說,龐大的信息數據量為其提出了難題,他們難以很快確定哪些信息與特定的用戶是相關的,即產生了“信息過載”的問題。
各界學者逐漸開始研究個性化推薦這一先進的技術手段以改善這一問題,而其中協同過濾已被廣泛應用在各種類型的企業中。由于該算法僅通過用戶評分信息預測用戶偏好,推薦效果有待提高。圖是一種表達節點及其關系的基本結構,而二部圖以直觀的方式表達了用戶及項目之間的關系,因此學者逐漸將復雜網絡的方法與推薦算法進行結合。隨者相關領域研究的不斷發展,對于網絡結構與推薦算法的研究仍存在許多挑戰需要探索。因此,本文對相關領域的理論、研究現狀和關鍵技術進行總結與分析,希望能幫助其他學者了解該領域的研究進展與發展方向。
推薦算法自出現以來受到各界學者的廣泛關注,在當今學術界關于推薦算法已經有大量的研究。推薦系統利用用戶與項目直接的購買或選擇關系,根據用戶的歷史行為或用戶間的相似關系為目標用戶推薦其感興趣的商品,本文主要對幾種應用較為廣泛的推薦算法進行簡單概述。
協同過濾推薦通常將評分矩陣作為算法輸入,該算法通過檢索相似用戶或項目作為評級預測的基礎。在該算法中,推薦系統以相似度作為衡量的指標找到相似的鄰居,最終預測評分并推薦項目。眾所周知,協同過濾在眾多相關領域表現得很好,但它也有一定的缺陷,由于其主要處理評級矩陣,而評級信息是十分稀疏的,這很大程度上影響著推薦質量。
基于內容的推薦算法通過收集購買信息,依據其中項目的相關信息選擇內容上相似的項目,作為最終結果,其中項目特征信息主要包含其標簽、評論、屬性等。該算法一般只依賴于用戶自身的特征與行為,不進行用戶間相關關系的計算,因此評分數據稀疏對其沒有影響,但該方法僅以項目特征作為基礎,沒有很好地挖掘出用戶之間的關系,影響著推薦精度。
由于以上兩種算法都有其應用的優勢和局限性,因此,研究人員通過一定的方法將幾種方法進行融合,避免其自身的不足,充分發揮其各自的優勢。算法的融合主要通過合并各單一推薦算法的結果和以加權等方式融合幾種推薦算法這兩種形式。混合推薦算法能夠有效改善獨立算法運行時的不足,并將各自的優勢集中起來,以獲得更好的推薦效果。
推薦算法最早由國外學者開始研究,GOLDBERG 等人(1992)在設計郵件過濾系統中第一次采用應用協同過濾推薦算法[1],隨后國際上開始有學者對推薦算法進行深入研究。而國內直到21 世紀才逐漸開始有學者對協同過濾進行深入探索,黃創光等人(2010)的研究內容為數據稀疏對推薦質量的影響研究,所選用的方法是自適應選擇目標用戶的近鄰對象,結果顯示其改進是有效的[2]。近幾年,越來越多的學者對于改進方法提出了自己的見解,鄧存彬等人(2019)則通過將協同過濾和深度學習理論進行結合來擴充算法的特征,提出了一種混合的推薦算法改善了電影推薦系統的現有問題[3]。張紫嫣等人(2021)則綜合余弦相似度和類別偏好的優勢改進相似度的計算,從而使得最近鄰計算更為合理[4]。
在學者對推薦算法進行改進的過程中僅依靠用戶-項目的交互數據進行改進,沒有結合符合其特點的圖結構。研究表明相比傳統的推薦算法,將圖結構與推薦算法進行融合在推薦準確性、多樣性和可擴展性等方面有更好的效果。AGGARWAL 等人(1999)在第五屆數據挖掘及知識發現會議(KDD)上首次將圖論的思想融入推薦算法,經過實證研究明確了圖結構能夠有效解決推薦系統現有的瓶頸[5]。HUANG 等人(2007)首先通過二部圖結構來刻畫用戶與項目之間的關系,并從小世界效益來分析其退推薦系統的性能影響[6]。盛俊等人(2020)針對商品推薦問題,在圖結構上進行基于社區數據挖掘和標簽傳遞的推薦算法,并通過平均絕對差和準確率檢驗了算法的運算效果[7]。
在當前信息過載的時代,隨著信息技術的不斷發展,推動了基于二部圖推薦算法的進一步的發展,并取得了一定的成果。但二者領域的融合在未來還有更多可嘗試的地方,以下總結了該領域未來可能的研究方向。
機器學習能夠通過以往經驗從數據中學習最終作出決策,現有推薦算法具有可解釋性強的優勢,而這是機器學習在應用時的不足,通過利用機器學習算法構建預測模型能夠更加準確地提取用戶與項目的興趣偏好。將現有二部圖推薦算法與機器學習算法相結合,能夠融合二者的優勢,相關的研究方向在未來也是值得進一步深入研究的。
在推薦系統領域,學術界越來越傾向于運用圖結構解決相應問題,而現有的研究主要是通過網絡中節點的關系進行興趣偏好的擴展與改進,而對于圖結構研究的不夠透徹。圖神經網絡是處理二部圖的方法之一。將二部圖推結構作為原始的輸入,通過圖學習方法對原始的用戶項目二部圖進行處理,利用圖中的同質或異質關系建模用戶的偏好和意圖是一個很新穎的研究方向。
近年來,互聯網上的多源異構信息越來越豐富,用戶進行評價項目的意圖與用戶關系、項目特征、用戶評論等都有很大的關系。在二部圖推薦算法中,研究人員通常根據用戶和項目的選擇關系進行用戶興趣的挖掘,而如何將互聯網上的多源信息進行轉換并更好地融入到用戶-項目二部圖中,從而進一步挖掘用戶的興趣偏好,解決推薦算法現有的問題,也是相關領域的重要研究問題。
隨著互聯網的普及以及互聯網上用戶對項目和信息的個性化需求日益膨脹,推薦系統在電子商務網購平臺等各個領域發揮著很重要的作用,推薦系統是否能夠更好地發揮它的作用,將是各個企業很大的競爭力。本文總結了傳統推薦算法的問題,闡述了二部圖推薦算法的研究進展,并提出了未來的研究方向,希望能夠為未來的研究人員在相關領域的嘗試提供幫助。