陳江美,張文德
1.福州大學 經濟與管理學院,福州350108
2.福州大學 信息管理研究所,福州350108
繼在線社交網絡發展和應用之后,移動社交網絡成為新的發展方向,尤其是多樣化的移動位置簽到與共享等功能的不斷普及。在此背景下,社交網絡與位置服務不斷融合,助推了基于位置社交網絡(locationbased social network,LBSN)的興起,如Foursquare和Yelp。LBSN利用用戶的簽到功能,有機地將線上和線下世界結合起來,提供用戶位置定位功能的同時,還實現了位置信息在社交網絡平臺的共享,進而衍生出多樣化的位置服務。推薦系統作為有效處理“信息過載”問題的重要工具,旨在依據用戶的個性化需求為用戶推薦可能感興趣的商品,其在位置服務領域的應用受到廣泛關注。
近年來,將推薦系統應用到位置社交網絡中,出現了諸多基于位置的推薦服務。其中,興趣點(point of interest,POI)推薦受到了眾多學者的關注。興趣點是指用戶簽到的地點,如商場、學校等。興趣點推薦能有效緩解位置信息過載問題,進而提升用戶的個性化體驗,同時有助于商家挖掘潛在的客戶,提高商家的商業效益。為此,興趣點推薦成為基于位置社交網絡中的一項重要服務,是位置社交網絡和推薦系統領域核心的研究方向之一。
LBSN中蘊含著海量信息,興趣點推薦主要利用用戶歷史簽到記錄及輔助信息從大量地點中為用戶推薦心儀的地點。然而,興趣點推薦是一項頗有挑戰性的內容,用戶的偏好受到多種因素的影響,這些影響推薦的因素類型繁多且復雜,傳統的推薦方法難以有效構建用戶的偏好模型,因此有必要充分發掘新的推薦方法,以適應興趣點推薦服務的發展。同時,為了評估推薦算法的有效性,對推薦效果的評估與跟蹤也是興趣點推薦的重要研究內容。
根據以上的目標,本文在了解興趣點推薦的基本概念與框架的基礎上,從興趣點推薦系統的研究中總結了三個核心問題:首先是分析影響興趣點推薦的因素,即明確影響用戶對興趣點偏好的因素有哪些。本文歸納為用戶自身的偏好、地理位置、社交關系、時間信息、內容信息與流行度。其次是探索現有的興趣點推薦算法,即興趣點推薦采用何種方法來建模用戶對興趣點的偏好,以構建合理高效的推薦模型。本文總結分析了基于矩陣分解算法的推薦、基于圖嵌入的推薦與基于深度學習的推薦這三種方法的應用與發展。最后是算法的評價模塊,即評估算法的性能與有效性。本文歸納了目前流行的幾種預測指標及排序指標,并分析其應用情況。
為了更系統地了解興趣點推薦的研究理論、現狀、挑戰和發展趨勢,本文基于上述三個核心問題對國內外近年來相關的研究成果進行了梳理與解讀。首先對興趣點推薦系統的概念、與傳統推薦的區別及基本框架進行了概述;其次在了解理論背景的基礎上,總結歸納了影響興趣點推薦的常見因素,從各個影響因素的角度分析興趣點推薦的現狀;然后闡述對比了現有的興趣點推薦算法,并對代表性的工作進行了深入分析;根據興趣點推薦的現狀,重點對面臨的問題和潛在的方向進行了概述;最后進行總結與展望,為興趣點推薦系統后續的相關研究提供借鑒與參考,從而推動我國個性化推薦服務行業的進一步發展。
移動社交網絡的廣泛普及,涌現了大量的位置服務功能,將推薦系統應用到位置服務,促進了基于位置社交網絡的興趣點推薦系統的發展。興趣點推薦系統一般包含了用戶集合={,,…,u}和興趣點集合={,,…,l},和分別表示用戶和興趣點的個數。其中,每個興趣點附帶坐標屬性,可用<經度,緯度>表示興趣點的坐標位置。用戶對興趣點的簽到記錄表示為L,將用戶的簽到記錄轉換為用戶-興趣點交互矩陣,中的每個元素R表示了用戶對興趣點的簽到次數,簽到次數反映了用戶的偏好。據此,基于位置的社交網絡圖可描繪如圖1所示。

圖1 基于位置的社交網絡圖Fig. 1 Location-based social network
興趣點推薦作為傳統在線推薦(如電影、圖書和新聞推薦系統等)在社交網絡領域的延伸,不僅能幫助用戶維系現實世界中的社交關系,還能為用戶提供個性化的服務。為了進一步理解興趣點推薦系統,以下將對其與傳統推薦系統的區別及基本框架進行分析與總結。
傳統推薦系統主要通過分析用戶與項目間的二元關系,利用評分信息構建用戶對項目的偏好模型,以挖掘用戶感興趣的項目。通常利用={,,…,u}表示用戶集,表示用戶的個數,利用={,,…,i}表示項目集,表示項目的個數。用戶與項目的關系如圖2(a)所示,若用戶對項目進行評分,則以連線的方式表示它們之間的交互。同時,將圖2(a)的交互關系轉化為圖2(b)的用戶-項目評分矩陣,矩陣中的元素為用戶對項目的評分,空值表示用戶未對此項目進行評分。在現實生活中,實際存在著海量的用戶和項目數,而用戶評分的項目個數較有限,因此用戶-項目評分矩陣極其稀疏,面臨嚴重的數據稀疏問題,如何緩解稀疏問題以提高推薦性能是傳統推薦系統的挑戰之一。

圖2 用戶交互數據Fig. 2 Users interaction data
在推薦系統中,推薦算法作為核心的技術,其性能的高低決定了推薦的效果。傳統的推薦方法主要分為協同過濾推薦(collaborative filtering,CF)、基于內容的推薦(content-based)和混合推薦(hybrid),具體分類如圖3 所示。以下對三種推薦方法的內容及應用進行介紹。

圖3 推薦算法分類Fig. 3 Category of recommendation algorithms
(1)協同過濾推薦
協同過濾算法作為推薦系統領域中最基礎的方法,主要利用用戶-項目的歷史評分數據來找出相似用戶或項目。該算法主要分為基于內存的方法和基于模型的方法。基于內存的方法可進一步分為基于用戶的協同過濾和基于項目的協同過濾,如圖3所示。其中,基于用戶的協同過濾認為具有相似偏好的用戶具有相同的興趣,基于項目的協同過濾則認為用戶傾向于喜歡其之前感興趣項目的相似項目,兩者都是基于評分數據的推薦。另外,基于模型的方法主要采用機器學習(如矩陣分解算法、深度學習技術等)和數據挖掘技術(如聚類及分類算法等),通過評分矩陣數據不斷訓練得到模型參數,并建立相關的推薦模型,以預測用戶的興趣偏好。
在最早的推薦工作中,協同過濾算法常用來做評分預測。在興趣點推薦領域,已有的研究主要將情景信息融入協同過濾算法中。文獻[7]將地理和社會信息嵌入基于用戶的協同過濾框架中,預測用戶的潛在偏好。文獻[8]考慮實時推薦問題,將時間納入協同過濾算法中,描述用戶的時間偏好。因此,協同過濾算法由于模型的構建相對簡單且易實現而得到了廣泛應用。但算法本身極易遭受數據稀疏的影響,同時還存在冷啟動問題,若單純采用協同過濾算法,可能導致較低的推薦準確率。
(2)基于內容的推薦
基于內容的推薦方法的基本思想主要是推薦用戶與之前喜歡項目的類似項目。首先分析用戶的顯隱性特征及相關文本信息,挖掘出與用戶偏好有關的標簽及項目的屬性,接著度量項目間的相似性,將用戶偏好的項目與其他項目的相似性排序,向用戶推薦其潛在感興趣的項目。該方法不需要評分記錄,可有效解決協同過濾算法的冷啟動問題,但推薦系統中可用的屬性信息極為有限,具有一定的局限性。
(3)混合推薦
為了克服上述兩種方法的不足,出現了混合推薦策略。該方法主要將多種推薦算法融合,通過引入輔助信息來緩解數據稀疏和冷啟動問題,進而改善推薦的準確率。文獻[10-11]融合了基于協同過濾和基于內容的方法進行推薦。Guo 等人將協同過濾方法結合其他技術實現位置的推薦。Yuan 等人將時間分別融入協同過濾和矩陣分解框架中,采用混合推薦的方式實現興趣點的動態推薦。因此,混合推薦方法被廣泛應用,但算法的復雜性較高,且運行時間較長,目前還需探索新的方法與技術應用到興趣點推薦工作中。
興趣點推薦指在傳統的社交網絡中增加位置信息,以便社交網絡中的用戶能直接共享興趣點信息。與傳統的推薦系統相比,由于LBSN中用戶與興趣點存在的相依性及興趣點本身的獨有屬性(如時序性、粒度屬性等),使得興趣點推薦系統存在諸多異于傳統推薦系統的特點。本文從影響推薦的因素、推薦方法及推薦存在的問題三方面進行分析比較。
(1)從影響推薦的因素考慮,傳統的推薦系統主要利用評分數據進行預測和推薦。興趣點推薦系統的影響因素主要包含用戶簽到數據和多類型的情景信息,如地理、時間、社交和興趣點流行度等,并采用有效的算法構建模型以模擬用戶的決策行為。另外,LBSN中多層級的網絡結構使得用戶的社交關系相較于傳統推薦系統更為復雜,從而影響推薦因素的多樣性。
(2)從推薦方法來看,傳統的推薦只需根據用戶的歷史記錄構建偏好模型,由2.1 節可知,其主要采用協同過濾算法、基于內容的算法和混合推薦算法進行項目的推薦。由于興趣點推薦相較于傳統的推薦新增了位置信息及其附帶的標簽信息,采用傳統的推薦算法可能無法滿足復雜的推薦任務與精準推薦的需求,需要運用新技術解決更復雜的任務。例如,考慮興趣點的標簽信息,需采用深度學習等相關技術來挖掘興趣點更深層次的隱特征,從而為用戶推薦適合其偏好特征的興趣點。因此,興趣點推薦相較于傳統的推薦需要更多技術支撐,才能更有效地完成推薦任務。
(3)從推薦工作存在問題的角度考慮,傳統的推薦主要存在數據稀疏和冷啟動兩大問題。數據稀疏是指用戶-項目評分矩陣多數為空值;冷啟動是指系統如何給新用戶進行推薦的問題。在興趣點推薦工作中,還面臨著序列推薦、動態推薦、個性化推薦和異地推薦等問題。序列推薦的任務是根據當前所在的位置,為用戶推薦下一個可能簽到的地點。在動態推薦問題上,Gao等人最早將時間納入興趣點推薦,利用時間間隙劃分用戶-興趣點簽到矩陣。為了實現個性化推薦,文獻[15-16]采用核密度估計方法描述用戶的地理偏好,進而捕捉用戶的移動行為。在異地推薦上,任星怡等人采用了多種上下文信息建模用戶偏好,從而實現異地推薦。因此,興趣點推薦面臨更多樣化的決策問題。
具體地,本文將傳統推薦系統與興趣點推薦系統的區別進行總結,如表1所示。

表1 傳統推薦與興趣點推薦的區別Table 1 Difference between traditional recommendation and POI recommendation
近年來,學者們主要利用LBSN中用戶的簽到記錄及情景信息模擬用戶的決策行為,從而為用戶推薦其可能感興趣的地點。為了進一步了解興趣點推薦的工作流程,總結得到一個通用的推薦框架如圖4所示。該框架由三部分構成,即數據來源、推薦算法和算法評價。數據來源主要包括LBSN 中用戶和興趣點的基本屬性數據及相關的情景信息(即影響推薦的因素)。為此,本文將主要對影響興趣點推薦的因素進行總結與闡述;推薦算法是推薦工作的核心,算法的性能決定了最終推薦的效果。本文將當前主流的興趣點推薦算法分為矩陣分解算法、基于圖嵌入的方法及基于深度學習的方法;算法評價是推薦的最后一步,利用相關的評價指標可有效評估算法的性能和效率,從而完成推薦任務。

圖4 興趣點推薦系統的基本框架Fig. 4 Framework of POI recommendation system
為此,圍繞興趣點推薦系統的基本框架,本文接下來將對影響興趣點推薦的因素、推薦算法及算法評價指標這三方面的內容展開介紹,并對其代表性工作進行概述與對比。
興趣點推薦通常受到多種因素的影響,其中用戶對興趣點的簽到信息反映了用戶的行為偏好,對于研究興趣點推薦任務具有重大的應用價值。此外,位置社交網絡中的情景信息影響著用戶的決策和推薦的準確率。為此,本文將影響興趣點工作的因素歸納為以下六方面:用戶偏好、地理信息、社交關系、時間信息、內容信息和流行度。在此基礎上,對探究各影響因素的相關工作進行分析與歸納。
用戶的決策行為受自身偏好的影響極為顯著,在興趣點推薦工作中,用戶的偏好可表現為用戶簽到興趣點的次數與評論等。通常將用戶的簽到次數量化為偏好程度,若用戶經常訪問此地點,表明用戶對興趣點的偏好程度越高。Song等人提取用戶的簽到數據并融合地理信息,采用基于用戶的協同過濾算法為用戶推薦興趣點。Zhou等人利用協同過濾算法對用戶偏好進行個性化建模,并綜合考慮了好友重要性與簽到相關性的影響。但上述算法遭受數據稀疏的影響,性能有待進一步地改進。在此基礎上,文獻[20-21]利用矩陣分解算法學習用戶偏好,通過用戶的簽到信息推測出用戶和興趣點的隱特征向量。另外,用戶的評論內容反映了用戶的偏好,若用戶的評論內容為積極態度,如附帶“喜歡”或“滿意”等詞,體現了用戶對此興趣點感興趣。文獻[20]利用聚合LDA(latent Dirichlet allocation)算法學習用戶的評論信息,并將提取到的偏好與興趣點的特征進行匹配。Xiong等人提出概率生成模型實現用戶特征偏好的提取。Xing 等人利用深度學習技術挖掘用戶的評論信息,以學習用戶的偏好。因此,充分利用用戶的簽到次數及評論信息可有效構建偏好模型,但由于用戶決策的復雜性,需要進一步考慮情景信息對用戶行為的影響,以更精準地推薦。
地理位置是興趣點推薦區別于傳統推薦的根本特征。考慮用戶傾向于簽到距離較近的地點,Ye 等人提出冪律分布模型描述用戶簽到特征。Cheng等人考慮用戶偏向在多個中心點范圍內簽到,提出多中心的高斯分布模型。上述的模型采用相同的分布函數捕捉用戶的地理偏好,但每個用戶應當具有獨一無二的簽到分布。據此,Zhang等人采用核密度估計方法為每個用戶分配唯一的概率密度函數。文獻[16]對核密度估計方法進一步擴展,采用二維的坐標改進一維的距離來建模地理偏好,度量用戶對未簽到興趣點的概率:

其中,表示用戶簽到興趣點的總次數;K(-l)表示兩個固定帶寬(,)的標準核函數。
為了實現用戶個性化推薦,文獻[20]對文獻[16]的固定帶寬加以改進,提出自適應帶寬h:

其中,是敏感參數。最終,利用文獻[20]的自適應核密度估計模擬用戶的行為,獲取用戶的預測偏好:

上述研究主要對用戶的地理行為建立統一的模型。近年來,將地理信息與其他影響推薦的因素融合成為趨勢。文獻[21,25-26]將地理與社交信息融合,利用矩陣分解算法求解用戶與興趣點的偏好特征。文獻[27]提出地理-時間交互網絡模型,探索興趣點對之間的聯系,實現下一個興趣點的推薦。因此,探索地理信息的模型已較為成熟,如何進一步融合LBSN中的異構信息是下一步研究的重點。
在位置推薦中,最初是利用協同過濾算法建模社交關系來實現用戶偏好的預測,但利用協同過濾方法時,用戶相似度的度量易受局部異常點影響,且算法極易遭受稀疏問題,為此,矩陣分解方法受到關注。Qian 等人利用概率矩陣分解模型建模三種社交關系。Zhang等人將用戶的標簽、社交和地理信息融入矩陣分解框架中,改善推薦性能。上述算法實質是利用LBSN 中的好友關系預測用戶對興趣點的偏好分數。近年來,信任理論不斷應用于推薦領域,基于信任的推薦已拓展到興趣點推薦中。Zhu等人提出一種信任預測方法,綜合考慮用戶間的信任度與相似度向目標用戶推薦好友,并融合用戶偏好與地理影響。Xu 等人將用戶偏好、社交關系與時空信息融入矩陣分解算法中,通過挖掘用戶的直接信任和間接信任關系捕捉用戶的社交影響。文獻[34-36]利用圖模型來表示用戶的社交關系,圖中相關節點的關系反映了用戶間的交互,該方法取得了較顯著的效果。由此可見,目前的研究主要是利用好友間的相似度和信任度來度量用戶的社交影響,根據好友的喜好預測目標用戶的偏好,未來的工作將需要探索更多高效的方法來捕獲用戶間的社交關系。
用戶對興趣點的簽到時間反映了用戶的時間偏好,考慮用戶的簽到行為受時間信息的影響,會根據時間的變化呈現出周期性和序列性的行為。為了描述用戶的周期性行為,Gao等人考慮時間的差異性和連續性特征,并將此屬性融入矩陣分解框架中,以刻畫用戶的時間特征。文獻[8]將時間信息融入協同過濾算法中,并結合興趣點的時間流行度進行推薦。上述算法主要采用時間間隙將用戶-興趣點簽到矩陣劃分為若干個簽到矩陣,加劇了數據稀疏問題。基于此,Ying等人提出非對稱投影的時間感知嵌入方法刻畫時間特征。文獻[38]利用神經網絡方法提取時間特征向量,能較好應對數據稀疏問題,進而改善推薦性能。在最新的一項研究中,Yin 等人考慮用戶的時空偏好行為,將協同過濾算法與模糊聚類算法結合,有效地實現了興趣點的動態推薦。
序列性簽到行為在興趣點推薦中主要表現為用戶在當前時間簽到對下一個時間簽到地點產生的影響,即衍生出序列推薦問題。序列推薦側重于為目標用戶在一段時間內(如幾個小時)推薦某些地點,是一項重要的推薦任務。文獻[40]整合了時間和地理特征,構建了一個基于圖的潛在表示模型,并結合LSTM(long short-term memory)神經網絡來模擬用戶復雜的移動行為,實現興趣點的動態序列推薦。文獻[41]提出將時空上下文信息輸入到LSTM框架中,融合基于注意力機制模型來提取簽到序列中的簽到記錄,以實現下一個興趣點推薦。為了實現實時推薦,Wang 等人考慮了興趣點的類型與簽到時間,利用基于注意力機制的循環神經網絡學習上下文信息,更好地預測用戶下一個簽到的興趣點。基于此,Wu等人豐富了上下文信息,采用線性組合的方式對用戶的長短期偏好建模。該模型融合了類別信息和簽到時間,利用注意力機制捕捉用戶的長期偏好,并基于興趣點序列和類別序列建立兩個LSTM 模型來模擬用戶的短期偏好。為此,現有的序列推薦工作主要融合時空信息,并應用神經網絡及其拓展技術來實現。
綜上,用戶在時間信息上展現出的周期性與序列性的簽到行為影響著用戶的行為偏好,時間因素對興趣點推薦的研究具有重要作用。
興趣點的內容信息影響著用戶的決策,相關學者逐漸利用興趣點的內容信息來挖掘其附帶的屬性特征,從而更有效率地實現用戶的個性化推薦。Chen等人將興趣點的文本內容嵌入深度學習模型,更深層次地捕捉興趣點的標簽信息。Zhao等人融合了興趣點的情感屬性和地理屬性,利用概率矩陣分解技術挖掘用戶與興趣點的潛在特征。為了充分利用上下文信息,Zhang等人運用社交網絡中的圖像內容和地理信息捕捉用戶的偏好,采用加權矩陣分解算法學習用戶及興趣點的深層特征。上述的工作主要利用矩陣分解和深度學習來提取相關特征,以預測用戶偏好。然而,LBSN 中存在的多是異構數據,這些數據復雜且難以建模,探索更多的特征提取技術來處理異構數據是未來研究的重點。
流行度是指興趣點受用戶歡迎的程度,體現了興趣點推薦系統提供的服務與質量。目前相關的研究普遍將興趣點的流行度作為用戶的先驗知識。Yang等人利用用戶生成的文本和圖像內容預測興趣點的流行度,以緩解興趣點信息的稀疏影響。興趣點流行度具備時間屬性,即實時性問題。Yao等人考慮興趣點的流行度受時間影響,提出將用戶與興趣點間的時間匹配度融入推薦框架中。Yuan 等人采用流行度信息衡量興趣點被簽到的先驗概率,并將其與地理、時間信息融合,實現動態推薦。另外,Si等人深入探索了流行度的影響,將連續簽到時間段的流行度結合地理影響來完成推薦。該模型提出了兩種推薦策略,對待活躍用戶運用二維核密度估計建模地理偏好,對待非活躍用戶運用一維冪律分布模擬地理影響,再分別融合時間流行度特征實現興趣點推薦。上述研究主要將流行度和其他情景信息相結合,說明了流行度信息在推薦工作中的重要地位。
上述對影響興趣點推薦的因素進行了闡述,并總結了相關代表性工作。表2 分析了幾種重要模型考慮的影響因素,并歸納了算法的優點與局限性。文獻[14,28]只考慮了單一信息的影響,因此推薦準確率較低。文獻[17]融合了多種信息到矩陣分解算法中,可有效緩解數據稀疏性,但該算法未能充分挖掘興趣點的特征。同時,為了探究不同因素的影響,文獻[7]通過消融實驗獲得地理信息在推薦中的影響高于其他因素。文獻[17]提出了本地和異地推薦兩種情景,實驗得出在異地場景中內容信息影響最大,在本地推薦場景中時間信息影響最大。以上說明了各影響因素在推薦工作中發揮的不同作用。此外,從表2可知,除了常見的幾種情景信息外,文獻[48]考慮了社交網絡中的圖像內容,利用矩陣分解和深度學習技術挖掘用戶與興趣點的特征,從而改善推薦性能。因此,現有研究還存在一定的局限性,仍有一些影響用戶決策的因素未加以考慮,如天氣、交通等,如何建模這些因素對推薦工作的影響是未來研究的重點。

表2 興趣點推薦的影響因素中各代表算法對比Table 2 Comparison of typical algorithms in influencing factors of POI recommendation
興趣點推薦的影響因素類型多且復雜,利用傳統的推薦方法(如協同過濾推薦方法等)無法進一步建模,因此衍生出不同類型的推薦算法與技術。目前的興趣點推薦方法主要朝著矩陣分解算法、基于圖的方法與基于深度學習的方向發展。以下將重點對興趣點推薦的核心算法及其相關代表工作進行詳細闡述與對比總結。
矩陣分解算法(matrix factorization,MF)能有效緩解數據稀疏問題,且能夠挖掘用戶和興趣點的特征,因此被廣泛應用到推薦工作中。該方法采用降維的方式將用戶-興趣點矩陣分解為低維空間上的用戶隱特征矩陣={,,…,U}∈R和興趣點隱特征矩陣={,,…,V}∈R,為隱特征個數,并通過訓練使兩者乘積^盡可能接近,其對應的優化問題如式(6)所示:

與傳統推薦工作相比,興趣點推薦不僅采用矩陣分解算法求解用戶及項目的隱特征,還能進一步地將情景信息嵌入矩陣分解框架中,以預測用戶的偏好。文獻[33]將社交關系融入矩陣分解算法,采用添加正則項的方式求解用戶偏好矩陣,通過優化式(7)模型來實現。其次,將用戶關系興趣矩陣分解為用戶關系隱特征矩陣和興趣點隱特征矩陣,求解的優化函數如式(8)所示。最后,將式(7)與(8)聯合求解,并采用隨機梯度下降法優化式(9)的目標函數。

其中,λ、λ與λ為正則化參數;矩陣元素H為用戶與好友對興趣點的偏好度;與為調整因子。
在最新的推薦工作中,為了深度挖掘用戶的潛在偏好,文獻[52]將用戶偏好、信任關系和時空信息融入到一個改進后的SVD矩陣分解框架中。該方法在原有模型的基礎上提高了準確率,同時考慮了信任關系。對應的優化函數如下:

在式(10)的目標函數中,第一項表示基本的用戶偏好。此方法的創新之處在于第二項,(,)表示用戶相似度,結合了信任與時空信息,具體如式(11)所示:


另外,Davtalab等人融合了地理信息、射箭關系和時間信息到概率矩陣分解框架中。文獻[54-55]采用聯合矩陣分解的方法捕獲用戶的偏好,從而解決隱式反饋問題。上述算法利用不同類型的矩陣分解方法求解用戶的偏好矩陣,適用于預測稀疏數據集的用戶偏好,但缺點是這類方法往往訓練時間較長。
基于圖嵌入方法(graph embedding,GE)能夠形象地將數據及其對應的關系刻畫到圖上,其興起為社交網絡的研究拓寬了新的思路。在LBSN中,興趣點推薦往往包含著用戶對興趣點的偏好關系與用戶社交關系。為此,可利用圖模型將這兩種關系描繪成圖5所示的二分圖網絡。在二分圖網絡中,用戶若簽到過興趣點,則將兩節點相連,若兩個用戶是好友關系,則利用邊連接兩個用戶。近年來,圖嵌入的方法得到了廣泛的應用,接下來將對基于圖的興趣點推薦方法進行概括。

圖5 二分圖網絡Fig. 5 Bipartite graph network
Zhu 等人提出了一種融合社交與地理信息的圖嵌入表示方法。該方法將用戶嵌入與社交圖嵌入結合獲得用戶的特征表示,將興趣點嵌入與地理圖嵌入結合獲得興趣點的特征表示。最終,在神經網絡框架下捕獲用戶與興趣點的潛在交互,從而得到用戶的偏好。此模型可有效緩解協同過濾推薦算法無法解決的數據稀疏問題,并提高推薦質量。
Lu等人將圖模型的方法應用到下一個興趣點推薦的場景中,建立了一個改進的基于圖的潛在表示模型,利用歷史簽到記錄捕獲時間序列影響與用戶的時間偏好。在此基礎上,使用LSTM神經網絡模型擴展原有框架,以模擬用戶復雜的移動行為。最終,利用學習到的潛在表示完成推薦任務,獲得了較好的準確率。但此方法對社交網絡中情景信息的挖掘不夠充分,仍有待改善。
為了豐富情景信息,Qiao等人提出了一種健壯的基于圖嵌入的算法,能夠有效解決社交網絡中的異構性問題。該方法利用異構圖融合了用戶社交關系、地理和時間信息,生成了一個聯合的表示學習框架。具體地,通過綜合考慮情景信息的影響,得到異構圖中節點間的轉移概率,并利用異構圖中的拓撲結構來學習用戶與興趣點的潛在表示。實驗結果表明,該方法提升了推薦的性能,且能夠處理興趣點推薦中的冷啟動問題。
Chen等人提出了一種多任務嵌入的個性化推薦方法,分別采用了序列嵌入和圖嵌入的方式對用戶的簽到行為建模。該模型融合了序列數據、社交關系、語義信息和時空信息,利用序列嵌入方法捕獲簽到數據中的序列信息,再利用圖嵌入的方式在用戶-用戶、用戶-興趣點和用戶-時間等關系圖中捕獲情景信息的影響。該研究通過不同的嵌入方式探究各類信息的影響,有效地提高了推薦的性能。
在最新的一項研究中,Hu 等人建立了一種模擬用戶動態偏好的方法,目的在于有效地捕捉用戶的細粒度偏好。該方法嵌入了地理和時間信息,旨在探究其對興趣點級與項目級的影響,并融入到基于圖嵌入的模型中,從而解決數據稀疏和冷啟動問題,但不足之處在于可解釋性較低。
上述對圖嵌入方法在興趣點推薦中的相關應用進行了介紹,借助圖嵌入方法,能夠利用圖對LBSN中存在的用戶、興趣點和用戶社交等節點關系進行建模,從而深層地挖掘社交網絡間的關系,有效地將推薦問題轉化為圖中相關節點的交互問題,緩解了數據稀疏和冷啟動問題。雖然基于圖的方法為興趣點推薦工作提供了新的方向,但其可解釋性較低。隨著深度學習的興起,學者們逐漸將深度學習遷移到圖上來,形成了圖神經網絡等重要的方法,來進一步彌補上述方法的不足。
鑒于傳統的推薦方法在構建復雜模型時訓練效果不佳,且利用矩陣分解算法易出現過擬合問題,深度學習技術受到了學者們的關注與青睞。深度學習(deep learning,DL)通過構建多層神經網絡結構,對原始數據中的簡單特征進行組合,從而能夠獲取更加抽象的語義特征表示。近年來,深度學習借由其強大的學習能力,以及能夠深層次地表征用戶與項目的潛在特征的特點,已被廣泛地應用到推薦系統中。以下將對深度學習中各種神經網絡在興趣點推薦中的工作現狀進行總結,主要包括針對卷積神經網絡、循環神經網絡和圖神經網絡技術的推薦方法。
卷積神經網絡(convolutional neural network,CNN)的基本結構如圖6 所示,包括輸入層、卷積層、池化層、連接層與輸出層。Xing 等人考慮了地理位置、社交關系和評論信息,并將這些因素融合到一個基于卷積神經網絡和概率矩陣分解模型的框架中,從而挖掘用戶與興趣點的特征。隨著研究的深入,該團隊將興趣點的屬性、用戶偏好和情感信息融入卷積神經網絡框架,利用神經網絡捕捉評論內容中的語義信息,從而解決用戶偏好的不可解釋性問題和數據稀疏問題,生成了效果更優的潛在模型。馮浩等人利用卷積神經網絡學習用戶評論信息的特征,最終通過學習到的特征表示進行位置推薦,以改善算法的性能。

圖6 卷積神經網絡結構Fig. 6 Structure of convolutional neural network
循環神經網絡(recurrent neural network,RNN)主要用于處理時間序列數據,大多數興趣點推薦的研究主要應用該技術來完成序列推薦任務。Xia等人提出了一種基于注意力機制的循環神經網絡,能根據相應用戶的序列簽到數據來模擬用戶的生活模式。相較于傳統的推薦方法,利用神經網絡模型提高了算法的可解釋性。Chen等人提出了一個有監督的循環神經網絡學習預測模型,該模型考慮了用戶的興趣、地理位置和時間信息,最終形成了用戶興趣和上下文信息的綜合特征表示。然而,上述的研究在對用戶的短期偏好建模時忽略了用戶的長期偏好,導致推薦結果不可靠。為此,Sun 等人提出了一種新的適用于下一個興趣點推薦的方法,該方法分別對用戶的長短期偏好建模,并融合地理信息與用戶的短期偏好到循環神經網絡中。Huang 等人考慮了相似用戶的歷史數據,利用循環神經網絡與基于協同過濾算法建模用戶的行為,從而捕捉用戶的偏好。該模型克服了當前多層感知機與LSTM 推薦方法的不足,在興趣點推薦場景下得到了有效的應用。
基于圖推薦方法的興起為社交網絡的研究拓寬了思路,學者們開始關注將深度學習模型運用到圖數據上,而圖神經網絡(graph neural network,GNN)成為其中最活躍的方法。Zhong 等人提出混合圖卷積網絡模型,利用興趣點對之間的地理距離構建空間圖,采用圖卷積網絡表示興趣點間的連通性,該模型為緩解數據稀疏問題提供了有效途徑。為了建立更強大的推薦模型,Zhang等人利用圖神經網絡構建出一個包含用戶節點和興趣點節點的社交網絡圖,分別從節點信息和拓撲結構中學習節點的特征表示。用戶節點利用了相鄰社交節點和具有簽到行為的興趣點的表示來學習,并采用注意力機制來學習社交網絡關系的異質結構。興趣點節點融合了地理和時間信息特征,利用雙向的長短期記憶模型來模擬用戶的序列簽到行為。該模型有效提高了推薦的效果,能普遍運用到各類推薦任務中。在實際應用中,Kang等人將監測站的位置制定為包含時間空間的圖節點推薦問題,設計了一個有效的基于空氣質量推斷的高階圖卷積模型,進而捕捉空氣質量分布的時空特征。該模型利用節點增量學習方法來判斷節點的優先級順序,最終依據優先級順序完成推薦任務。
上述將深度學習中的CNN、RNN與GNN方法在興趣點推薦中的應用進行了對比與歸納,介紹了CNN技術在表征潛在特征方面的優勢,總結了RNN 在序列推薦上的應用以及GNN結合各情景信息來解決異構性問題,說明了深度學習是該領域應用的重要技術。為此,相關領域的學者應準確把握深度學習的最新發展趨勢,為興趣點推薦的發展尋求新的突破點。
綜上,本文在傳統推薦方法的基礎上不斷延伸,概括了基于矩陣分解的算法、基于圖嵌入的方法和基于深度學習的方法的應用,分析了不同推薦方法目前已解決的問題。為了系統地了解各推薦方法的應用,表3 對比歸納了各方法中代表性工作的特點、優缺點及相應的代碼鏈接。
由表3可知,矩陣分解算法主要通過融合各情景信息,采用降維的方式求解用戶與興趣點的隱特征,進而預測用戶偏好。該算法能夠緩解數據稀疏問題,但訓練時間較長,且會出現過擬合問題。基于圖嵌入的方法通過構建關系圖來反映用戶與興趣點的關系,并將各情景信息描述到圖上,能緩解數據稀疏性,但存在可解釋性較低等問題。深度學習技術與矩陣分解方法都具備挖掘用戶與興趣點特征的能力,相較于矩陣分解方法,深度學習技術能夠更深層次地挖掘潛在特征,且具有強大的學習能力,主要缺點是模型的復雜度較高。為此,系統地了解各種方法的優劣勢與適用場景,將有利于興趣點推薦工作的開展。

表3 興趣點推薦方法中各代表算法對比Table 3 Comparison of typical algorithms in POI recommendation methods
以上對影響興趣點推薦的因素進行了分析,對各推薦算法的應用進行了描述,并詳細介紹了相關代表性的工作,有利于理解現有興趣點推薦的成果及其優缺點。接下來,為了更綜合、更全面地了解興趣點推薦的發展現狀,本文依據研究成果提出的時間順序,以影響推薦的因素、解決的推薦問題及對應的推薦算法三方面為核心,探討與總結各相關工作的推薦策略,進而充分地了解興趣點推薦的研究現狀。相關總結如表4所示。
由表4可知,興趣點推薦已融合了各種影響因素來構建模型,且取得了顯著的成效。在解決推薦問題方面,對數據稀疏、冷啟動、個性化、序列與動態推薦問題的研究頗為豐富,未來研究應將重點放在異地推薦問題上。在推薦算法上,可看出早年主要以協同過濾算法為基礎,接著逐漸利用矩陣分解算法來融合各情景信息,以緩解數據稀疏性。近年來,為了更深層次地挖掘用戶偏好,相關工作主要利用圖嵌入方法與深度學習來構建模型,從而提高推薦性能。以上的研究總結可為相關領域的研究者提供更好的借鑒,同時將前沿的技術應用到興趣點推薦工作中值得探索。

表4 興趣點推薦的研究現狀分析Table 4 Analysis of research status in POI recommendation
興趣點推薦系統利用各種推薦算法為用戶生成最終的推薦列表,系統通過度量相關的評價指標來對構建的算法進行評價,評價的結果反映了算法的有效性。與傳統推薦使用的指標相似,在興趣點推薦中,目前常用的預測指標包括準確率(precision)、召回率(recall)、1 值、平均絕對誤差(mean absolute error,MAE)。定義分別如下:


另外,每個用戶推薦生成列表具有有序性,理想狀態是準確率越高的興趣點排序越靠前越好。因此,針對排序的結果,需通過度量其排序指標來評估算法的性能,常用的指標包括平均精度均值(mean average precision,MAP)和歸一化折損累計增益(normalized discounted cumulative gain,NDCG)。兩者的區別主要在于MAP 考慮對象是二元相關性,即對象要么喜歡要么不喜歡,而NDCG 主要通過實數的形式進行相關性比較。定義分別如下:

其中,表示排名;()表示推薦生成列表中截止到的準確率;()的值取決于用戶是否有簽到排名的興趣點,若有簽到則值為1,否則為0。
推薦的效果取決于評價指標值的高低,對算法進行評估測量是推薦工作的最后流程。為了了解興趣點推薦工作中各指標的應用情況,本文列舉了幾種重要算法采用的指標。同時為了綜合了解算法的整體性能,將其對應文獻所涉及的時間與空間復雜度進行了歸納,如表5所示。
由表5 可知,precision 和recall 是應用最廣的預測指標,因為它們能夠最直接反映出預測的推薦列表是否符合用戶的喜好,所以獲得廣泛的應用。1作為precision 和recall 的調和平均值,通常用于評估算法的整體性能。MAE能夠反映預測評分與真實評分的差距,在文獻[48,52]中,該指標主要用于對推薦結果進行誤差評估,以更有效地評價推薦的準確性。MAP與NDCG是經典的排序指標,在文獻[74-75]中,為了綜合評估排序的性能,結合了兩種指標進一步說明算法的有效性。因此,在算法評價流程中,采用越多的預測和排序指標,以及結合適當的復雜度分析會增加算法的說服力。同時,進一步發掘更多的評估指標來驗證算法的性能,是未來研究的重點內容。

表5 幾種代表算法的評價指標總結Table 5 Summary of evaluation metrics of several algorithms
興趣點推薦系統作為一個新興的研究領域,近年來取得了較為豐碩的成果,但由于不同場景下推薦的差異性與多樣性,導致推薦的難度增加,仍存在一些挑戰和難點亟待解決。本文總結了未來可進一步探究的內容,概括來講包括以下這些潛在的方向。
(1)數據來源問題
在基于位置社會網絡的興趣點推薦系統中,用戶采用“簽到”的方式與社交網絡中的好友共享位置,從而產生簽到數據。作為推薦工作的基礎,對數據的挖掘與認知至關重要,然而用戶的簽到數據往往采用隱式的方式表達。比如用戶對地點的簽到次數越高,可理解為用戶偏好此地點,但用戶簽到的頻率無固定的數據范圍,增加了量化偏好值的難度,這與傳統推薦系統顯式打分的方法有所區別。另外,興趣點推薦工作的數據集主要來源于一些公開網站,但用戶可能僅在海量的位置中留下稀疏的簽到記錄,增加了數據獲取的難度,這是推薦工作面臨的首要問題。
(2)融合多種影響因素的推薦
目前的興趣點推薦工作主要針對用戶及興趣點兩個維度的屬性進行研究,如用戶的社交關系、簽到時間、興趣點的內容及流行度等。如何進一步拓展影響用戶決策的其他行為信息,從而輔助用戶決策至關重要。比如,興趣點推薦還可能受到用戶自身的情感以及外界因素(如天氣、交通)的影響,探究用戶的情感行為及引入外界因素構建模型成為一項富有挑戰的研究內容。
(3)跨領域推薦
跨領域推薦可融合來自不同領域的用戶偏好特征,進而根據每個用戶自身特征進行個性化推薦,提高目標領域推薦的多樣性與準確性。在興趣點推薦工作中,存在數據稀疏問題與冷啟動問題,若融合多個輔助領域的數據來為目標領域進行推薦,可有效解決興趣點推薦中的冷啟動問題。例如,已有工作在對圖神經網絡的應用中,對用戶與興趣點關系圖的構建主要停留在單一的層面上,考慮如何從一個關系圖過渡到其他的關系圖,進而實現不同圖神經網絡框架間的數據遷移,是一個值得關注的問題。
(4)推薦結果的可解釋性
推薦的可解釋性指的是向推薦對象提供解釋,使其理解推薦該項目的原因,為了使興趣點推薦系統成為一個用戶參與的交互系統,必須提高推薦結果的可解釋性,從而提高推薦系統的有效性及用戶的滿意度。在對興趣點推薦結果的解釋過程中,不僅要考慮興趣點的屬性,還要關注屬性可能隨時間動態變化的特征。深度學習依靠其強大的表征能力被廣泛應用到推薦系統,然而其深層神經網絡被普遍認為是不可解釋的。近年來備受關注的知識圖譜方法為該問題帶來了契機,它通過建立<實體,關系,屬性>三元組來提高可解釋性,然而知識圖譜的大數據規模無法依據用戶反饋進行實時更新,只能略微改善推薦的可解釋性。目前對興趣點推薦中可解釋性問題的研究還比較少,探索一類能夠實時交互更新的可解釋性推薦方法值得研究。
(5)用戶的隱私保護
為了提高推薦的性能,當前的興趣點推薦工作需要從用戶簽到的歷史記錄與交互行為中充分挖掘用戶的潛在偏好信息,包括對用戶信息的收集、處理、存儲和挖掘等,這在一定程度上威脅到用戶的隱私信息。為此,現有的興趣點推薦系統面臨著較高的隱私風險,提高興趣點推薦的性能與保護用戶的隱私問題可能相悖。目前用來解決隱私保護問題的一類方法是向原始數據中添加噪音,該方法簡單高效且易實現,然而過多的噪音會影響算法的有效性;另一類方法是采用加密技術,但效率較低且實用性不強;最近出現的聯合學習是一種新的隱私保護學習方法,它不需要用戶共享實時的簽到信息,可通過離線的方式訓練模型,適用性較強,但需要有足夠的數據量。因此,如何應用相關技術在推薦的高精度要求與隱私保護間找到適當的平衡點,成為了興趣點推薦系統研究的難點。
移動社交網絡與推薦系統的融合,助推了基于位置社交網絡的興趣點推薦系統的發展。興趣點推薦利用用戶的簽到數據及相關的情景信息模擬用戶的決策行為,以挖掘用戶潛在感興趣的地點,成為當前推薦系統領域較為活躍的方向之一。本文首先對現有的興趣點推薦的研究現狀進行了梳理、分類與歸納,介紹了興趣點推薦系統的相關理論與基本框架。接著圍繞基本框架對影響興趣點推薦的因素、推薦算法和算法評價三大核心內容進行概述,并詳細分析對比了各種代表性工作的研究內容和優缺點。最后對該領域難點問題和研究方向進行總結和展望,提出一些潛在的發展方向與趨勢,希望能為興趣點推薦領域的學者提供借鑒與幫助。