999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

興趣點推薦研究綜述

2023-01-31 09:39:58謝林基趙鐵柱
計算機應用與軟件 2022年12期
關鍵詞:特征提取特征文本

謝林基 趙鐵柱 柳 毅

1(廣東工業大學計算機學院 廣東 廣州 510006) 2(東莞理工學院計算機科學與技術學院 廣東 東莞 523000)

0 引 言

隨著移動設備的普及和社交網絡的發展,用戶普遍地在互聯網上分享自己的位置信息,以及對簽到位置進行評論。基于這些用戶數據,基于位置社交網絡(Location-based social network,LBSN)的服務應運而生。利用這些用戶數據,服務商可以分析用戶的行為,挖掘用戶感興趣的興趣點(Point-of-interest,POI),典型的服務如點評網站Yelp、Foursquare和大眾點評等。將用戶可能感興趣的興趣點推薦給用戶,既為用戶帶來了便利,也能夠為商家帶來可觀的利益。

基于興趣點推薦服務的商業價值,興趣點推薦成為了推薦系統的熱門研究領域之一。興趣點推薦面臨的首要問題是標簽數據稀疏問題,該問題在興趣點推薦中比起其他推薦系統嚴重。對此,已有研究者針對興趣點推薦的稀疏性問題提出了解決方案。解貴龍等[1]利用矩陣分解附加商業地理信息,在數字標牌廣告投放的推薦地點問題上,解決了興趣點推薦中位置訪問數據稀疏的問題。任星怡等[2]通過融合興趣點的地理、文本、社會關系、分類與流行度信息,提出一種上下文感知的概率矩陣分解的興趣點推薦算法。為了解決用戶遠離常駐地而面對的數據稀疏問題,盧露等[3]在推薦過程中同時融合用戶的偏好和興趣點的主題分布,提出了一種基于主題模型的興趣點推薦算法。李鑫等[4]利用社會關系作為規則化項來優化矩陣分解模型,提出一種在社交網絡中基于興趣圈的社會關系挖掘推薦算法來解決冷啟動帶來的簽到數據稀疏性問題。李心茹等[5]利用狄利克雷分配主題模型挖掘用戶的興趣話題,然后融合標簽數據來計算相似度來解決用戶-簽到矩陣稀疏問題。

興趣點推薦面臨的第二個問題是特征提取,該問題具體表現在于對用戶行為的挖掘和從興趣點的圖文描述中提取出關于興趣點的特征。在該問題上,也有不少研究者做出了研究。余永紅等[6]在用戶對興趣點訪問的頻率數據的意義問題上,利用泊松分布模型建模用戶的興趣點簽到行為,然后用貝葉斯個性化排序算法(Bayesian personalized ranking,BPR)擬合用戶對興趣點的偏愛,最后通過低于影響力的正則化因子約束泊松矩陣的分解,提出一個基于Ranking的泊松矩陣分解興趣點推薦算法改善傳統推薦算法將訪問頻率數據與評分數據同一對待的問題。吳海峰等[7]提出一種融合的算法模型,模型融合通過隱語義分析算法挖掘的用戶歷史行為和通過基于領域的方法結合社會關系和地理位置等因素挖掘出來的用戶行為,以實現對用戶行為更好的預測。為了改善興趣點推薦工作中信息挖掘不充分的情況,胡德敏等[8]利用分層狄利克雷過程主題模型學習用戶和興趣點相關的興趣話題,然后利用核密度估計法,融合個性化地理信息對用戶簽到行為的影響、用戶對興趣點訪問序列的影響和社會關系的影響,基于聯合概率生成模型,提出了改進的多類型信息融合的聯合概率生成的興趣點推薦模型。邵長城等[9]利用VGG16深度卷積神經網絡模型識別興趣點圖像來改善興趣點特征缺失問題。

另外,關于興趣點推薦的研究中,還面對著推薦結果多樣性等其他的問題。文獻[10]通過興趣點的地理關系和社會關系計算興趣點的相關度,然后在此基礎上通過譜聚類獲得興趣點的多樣性分類,最后通過基于概率因子模型的興趣點選取和個性化排序方法獲得滿足用戶的個性化推薦列表,解決了以往興趣點推薦中多樣性不足的問題。由于興趣點推薦算法需要使用用戶的歷史行為記錄,為了避免推薦過程中用戶的隱私信息被泄露,文獻[11]通過差分隱私保護機制對用戶信息進行了保護。

1 興趣點推薦算法概述

1.1 傳統的推薦算法

在推薦系統領域,大多數的算法都是基于內容的推薦算法或者基于協同過濾的推薦算法。

1.1.1基于內容的推薦算法

基于內容推薦算法就是從用戶的歷史喜好項目中,提取項目的特征,以這些特征表示用戶的喜好,然后利用這些特征計算項目間的相似性,將鄰近相似項目推薦給用戶的一種算法。王光等[12]通過余弦相似度來匹配用戶的偏好和項目的特征,其計算式表示為:

(1)

式中:Ik表示第k個項目;wij表示第i個特征在第j個項目中的權重;Ij=(w1j,w2j,...,wnj)表示對于項目j,用戶對該項目每個特征的偏好所組成的向量。

基于內容推薦最大的優點是可以忽略用戶對項目的實際評分,減緩用戶對項目評分稀疏帶來的可靠性影響。但是,現有技術對項目特征提取的準確程度造成了該算法發展的制約。

1.1.2基于協同過濾的推薦算法

協同過濾的概念最早由Goldberg等[13]提出。算法的核心概念是在相似用戶中,將相似用戶感興趣但目標用戶還沒感興趣的項目推薦給目標用戶。文獻[14]對協同過濾給出了如下描述。

m×n階矩陣W表示用戶-項目的連接矩陣,其中wik表示用戶i對項目k的執行行為,wik=1表示用戶i執行過項目k,wik=0表示用戶i沒有執行過項目k。

用戶i和用戶j的相似度計算式表示為:

(2)

選擇與用戶i相似度最高的K個用戶構成近鄰用戶集U′,則用戶i對未執行項目a的偏好程度表示為:

(3)

由于協同過濾的計算方法是找出相似用戶,所以其具有項目內容無關的特點。而它推薦的項目不會涉及項目內容與用戶描述的相關性,所以,對于被推薦用戶來說,推薦皆具有新異性的特點。同時得益于其算法程序的簡單,使得程序具有較好的擴展性和易于實現。

在獲得良好推薦效果的同時,協同過濾同時也面臨著一些問題制約,如稀疏性、多內容和可擴展性[15]。

(1) 稀疏性。由于龐大的用戶數與項目數,導致每一個用戶僅對一小部分的項目有評分,這導致計算用戶或項目的相似性時難以得到鄰近的用戶或項目,從而導致低效的推薦結果。

(2) 多內容。大部分協同過濾算法專注于相似用戶的計算,而忽略了如何最大限度對項目進行區分,從而導致推薦結果的多樣性欠佳。

(3) 可擴展性。由于龐大的數據量,導致計算的時間增加,最終影響到了系統推薦的實時性。

1.2 興趣點推薦

興趣點推薦與商品推薦、視頻推薦等推薦既有相似之處,也有差異。一般的興趣點推薦算法主要基于協同過濾算法實現,但興趣點推薦算法會更多地考慮時空和社交因素。文獻[16]歸納了現在用于興趣點推薦的因素有地理位置因素、分類流行因素、情感傾向因素和社交關系因素,并給出了幾個興趣點推薦中的定量模型,各模型的具體定義如下:

(1) 基于地理位置因素的偏好計算模型。集合L表示所有興趣點的集合,集合Li={l1,l2,…,ln}表示第i個用戶的簽到記錄,Li∈L。則第i個用戶訪問第j個興趣點的評分計算式表示為:

(4)

式中:dist(lj,li)表示第j個興趣點lj與興趣點li間的地理距離。然后將式(4)的評分進行0-1規范化作為最終預測評分,計算式表示為:

(5)

(2) 基于情感傾向因素的偏好計算模型。用戶對興趣點的喜好可以從其評論中獲知,自然語言處理技術能夠對用戶的評論進行情感傾向分析,通過將評論中表達的感情進行量化來體現用戶對興趣點的偏好程度,以此協助提高推薦效果。該模型的計算基于一個詞與極性詞匯表中的詞語的相關性強度,若與積極的詞語呈正相關,則該詞為積極性詞匯,反之亦然。Turney等[18]提出了一種基于點互信息的方法來計算目標詞與詞匯表中的感情詞匯之間的PMI,以此來確定目標詞的情感極性。兩個詞wi和wj之間的PMI值定義為:

(6)

式中:p(wi)和p(wj)分別表示詞匯wi和wj在語料庫中出現的概率,p(wi,wj)表示wi和wj一起出現的概率。

那么目標詞wk的情感極性SO可通過式(7)計算所得:

SO(wk)=PMI(wk,″excellent″)-PMI(wk,″poor″)

(7)

最終,可以通過計算評論中所有情感詞匯的SO值的平均值來對用戶的評論進行量化。所以,對于某個用戶uk對興趣點li的評論rki,該評論代表用戶對興趣點的偏好量化計算式表示為:

(8)

式中:m表示評論中情感詞匯的數量。

(3) 用戶間的社交關系強度計算模型。朋友會影響用戶對興趣點的選擇,越親近的朋友對用戶的選擇的影響就越重。因此,可以通過共同朋友的數量來對朋友間的親近程度進行量化,而朋友間興趣的相似程度的量化以朋友間共有的興趣點訪問數量來表示。所以,用戶和某個朋友間的社交關系強度計算式表示為:

(9)

式中:Fi和Fj分別代表用戶i和用戶j的朋友集合,Li和Lj分別表示用戶i和用戶j的簽到興趣點集合。

興趣點推薦作為推薦系統中的一個特殊領域,它有著自己特殊的發展難點。本文將這些問題概括如下。

(1) 用戶標簽數據稀疏。在興趣點推薦中,由于興趣點需要用戶實際到達該地理位置進行簽到,而人的精力始終有限,因而在興趣點推薦比起其他的如商品推薦、視頻推薦、音樂推薦等推薦所用數據集面臨的稀疏性問題更為嚴重。商品等這些東西,可以在單位時間內由大量的用戶進行體驗,并且提供反饋。但是,一個興趣點在單位時間內,其用戶容納是有限的,而且用戶進行體驗的成本往往會較電影、音樂等因素高,這同時造成了比起其他項目的推薦,對興趣點推薦的稀疏性問題的解決會更為困難。

(2) 特征提取。興趣點推薦中,用戶偏好建模是一個重要環節,而對于用戶的偏好除了用戶預選的標簽,更多的是需要從用戶的歷史行為記錄中提取出可以表示用戶偏好的特征,常見的是從用戶評論中提取用戶的喜好。同時,為了匹配用戶的喜好特征與興趣點特征,需要從興趣點的描述中提取出興趣點的特征,而興趣點往往是圖文結合描述的,因而會對興趣點的特征提取造成了一定的阻礙。

2 興趣點推薦的關鍵技術研究

基于LBSN的特點,興趣點推薦存在著其獨有的關鍵推擠技術,如針對興趣點推薦的標簽稀疏性問題解決方案,跨模態的興趣點推薦技術和基于LBSN的興趣點推薦框架。本文將這些研究歸納如下:

2.1 標簽稀疏性問題

標簽稀疏性問題除了來源于一個人不可能在有限時間內到達大量物理位置外,還來源于用戶是否愿意共享位置信息等。借鑒了其他推薦系統對數據稀疏問題的解決方案,當前研究人員針對興趣點推薦也有了大量的解決方案,本文將這些解決方案分為3類:矩陣分解、建模預測和其他解決方法。

2.1.1矩陣分解

矩陣分解就是將用戶的簽到矩陣分解為幾個維度較小的子矩陣,其過程實質上是對用戶和興趣點進行聚類的一個過程,因而最終減弱了模型所需的用戶-興趣點簽到數據的稀疏性。

對于興趣點推薦,矩陣分解在該領域的應用中往往融合了諸如地理位置、社交關系和簽到上下文等額外信息。解貴龍等[1]融合矩陣分解算法和地理信息數據來解決數據稀疏性問題。龔衛華等[19]通過建立基于非負矩陣分解的聯合聚類目標函數,函數同時融入用戶社交關系、用戶和位置的簽到關系以及興趣點特征等多維度的影響因素,通過利用這些因素分別對用戶和興趣點進行聚類來緩解數據稀疏問題。李全等[20]提出了基于LBSN動態異構網絡的時間感知興趣點推薦算法,該算法在LBSN異構網絡模式中增加會話節點類型,設置用戶-興趣點之間的動態元路徑集,計算動態路徑的偏好度,通過矩陣分解模型對動態偏好矩陣進行矩陣分解來解決簽到數據稀疏性問題。張進等[21]提出了一種融合社交信任的矩陣分解算法,該算法利用BPR模型來優化矩陣分解的過程,同時在相似度結合中融入信任度因子來解決用戶簽到矩陣稀疏問題。廖國瓊等[22]利用高階奇異值分解算法對用戶-主題-時間三階張量進行分解,計算用戶在不同時間段對不同主題的偏好評分來解決數據稀疏性問題。任星怡等[2]提出一種上下文感知的概率矩陣分解興趣點推薦算法TGSC-PMF,該算法通過將地理、文本、社會、分類與流行度信息融合來解決數據稀疏性問題。高榕等[23]在基于矩陣分解的推薦模型上,融合關于興趣點的評論信息、用戶社交關系和地理信息來解決數據稀疏性問題。

2.1.2建模預測

在興趣點推薦中,面對數據稀疏,不少研究者采取的策略是融合各種與用戶選取興趣點相關的信息,構建用戶對興趣點的偏好模型,從而預測空白的評分。

(1) 基于單源信息的建模。許朝等[24]通過將2-度好友引入協同過濾算法中構建社交影響模型,計算歷史記錄與好友相似度獲得2-度好友對用戶的社交影響來解決簽到數據稀疏問題。蘇暢等[25]利用用戶簽到的相似性,結合興趣點的類別信息和用戶信任度建模來解決數據稀疏性問題。

(2) 多源信息融合建模。隨著融合信息進行預測方法的深入研究,越來越多的研究者并不局限于某一個因素,而是一次性融合多個因素進行建模預測。在文獻[26]中,提出了一種基于社區發現的興趣點推薦算法CBR(Community-Based Recommendation)。該算法先將興趣點的按主題聚類,并計算目標用戶與主題的相似度,然后將地理位置聚類,計算用戶在地理位置簇上的隸屬度,最后融合用戶的社交關系來預測用戶對各個興趣點的偏好評分。彭宏偉等[27]除了用戶的簽到數據,還利用興趣點的地理位置、社交網絡數據、興趣點類別信息輔助對用戶簽到行為進行建模來解決用戶簽到數據的稀疏性。Zhou等[28]將用戶對POI的預測評分建模為用戶偏好、朋友重要性和POI間的簽到相關性量化分數的權重和。首先基于協同過濾算法,計算用戶訪問某個POI的分數作為用戶的偏好量化。然后將用戶訪問POI的余弦相似度和以0/1表示的用戶社會關系的權重和作為朋友重要性的量化,在將朋友重要性與該朋友對應的POI訪問頻數之積作為用戶對POI訪問的分數。接著利用冪律分布,基于用戶的歷史記錄計算用戶訪問某個POI的概率作為POI間簽到相關性在POI推薦中的分數量化。最后將3個量的線性相加作為對用戶訪問某個POI的預測分數來消除數據稀疏問題。Zhang等[29]將用戶對POI的評分建模為圖像影響力和地理影響力的權重和。該融合框架將圖像特征用于建模POI-POI和POI-群體間的關系,再基于這些關系進行權重矩陣分解得到用戶和POI的隱向量,將這些隱向量用于圖像影響力的計算。同時利用冪律分布對用戶的地理偏好進行建模得到地理影響力的量化。Lyu等[30]設計了名為iMCRec的框架融合用戶對POI的地理偏好、類別偏好和屬性偏好進行推薦。融合框架先基于用戶的歷史記錄,利用文獻[31]的二維KDE模型對地理偏好進行建模;利用TF-IDF模型對類別偏好進行建模;利用TF-IDF和信息熵對屬性偏好進行建模。之后利用其他用戶的歷史記錄,基于協同過濾算法對之前用戶的3種偏好添加權重。最后基于MCDM算法利用3種偏好的評分對POI進行預測評分。

(3) 其他建模預測方法。李心茹等[5]利用最近鄰的興趣點預測簽到缺失的興趣點的訪問概率,以此解決數據稀疏性問題。鮮學豐等[32]將用戶周期性的行為作為上下文情景信息,融合用戶本身簽到的上下文情景信息來擴大有效數據緩解數據稀疏性問題。任星怡等[33]設計了名為GTSCP的聯合概率模型來模擬用戶的簽到行為決策過程,以此預測用戶簽到來解決數據稀疏性問題。曹玖新等[34]提出了一種基于元路徑的興趣點推薦算法,該算法將LBSN構建成一個帶權的異構網絡,該網絡的路徑用元路徑來表示。對于實例路徑中,首尾節點之間的關聯程度,算法通過利用隨機游走算法計算出的元路徑特征值來衡量。而對于各特征的權值,則通過監督學習取得。最終利用這些參數預測用戶在各興趣點的簽到概率來緩解數據稀疏性問題。

2.1.3其他解決方法

除了進行矩陣分解和建模預測用戶偏好的方法外,還有諸如改善推薦模型等一些方法。

李丹霞等[35]提出了一種融合時空信息的連續興趣點推薦算法,該算法將用戶的簽到行為建模為用戶、當前興趣點、下一個興趣點、時間段的四階張量,通過LBSN中的地理信息計算用戶對興趣點的地理距離的偏好,最后利用貝葉斯個性化排序算法BPR(Bayesian personalized ranking)優化目標函數來解決數據稀疏性問題。單碩堂等[36]利用用戶專家的評分數據進行訓練來緩解數據稀疏性問題。盧露等[3]為了解決用戶遠離常駐地時造成簽到數據稀疏,基于隱含主題模型融合了用戶的偏好分布和興趣點主題分布來解決該問題。

2.1.4稀疏性問題解決技術小結

矩陣分解方法降低了用戶-簽到矩陣的維度,降低了計算資源的需求,加快了推薦速度,提高推薦系統的實時性,這對于興趣點推薦是一個良好的解決方案。對于用戶來說,對興趣點的推薦需求往往是隨時間變化而變化的。所以,一個高效運轉的興趣點推薦系統在時間性能方面可以很好地滿足用戶。但是這種方法的本質是聚類的一種方法,因而其最終結果會缺乏個性化。

建模預測方法可以有效填補用戶-簽到矩陣或者用戶-評分矩陣的空白,對數據稀疏性的改善比較直接。但是該值始終并非用戶的真實意愿,所以其預測偏差最終會影響推薦結果的準確性。同時由于在興趣點推薦中一般會結合多種因素進行預測,這些因素除了可見的文本和圖像等,研究者更多考慮的是事物間的聯系這種抽象的信息,所以,對于其他信息的定量與融合是一個難點。

2.2 跨模態推薦技術

在LBSN中,圖片與文本是常見的兩種數據。文本主要承擔著用戶偏好和POI描述兩種角色。圖片主要承擔了用戶簽到和POI描述兩種角色。而從單獨的某種數據類型來看,它們的特征也同樣呈現著多模態。而不同模態間的互補可以更好地對信息進行表達,因此,對多模態進行融合的跨模態推薦方法是當前POI推薦的研究課題之一。

2.2.1跨模態推薦

興趣點推薦有著不同模態的數據進行推薦計算,而單獨某種類型的數據,從其特征來說,也會呈現不同的模態,對于如何利用不同的模態進行信息互補,提高推薦結果的準確性是當前研究者熱衷研究的課題之一。

Li等[37]利用DCA模型取得從圖片中提取的HSV、LBP、SIFT、VGG16和RGB特征間的跨模態聯系,然后通過貝葉斯個性化排序算法獲得用戶對POI的預測評分。并且結合基于問卷調查和分層采樣模型得到的POI預測評分對用戶進行POI推薦。推薦結果比起基準算法更加高效穩定。Chen等[38]先利用LDA(Laten Dirichlet Allocation)模型對評論進行軟聚類,然后將評論的TF-IDF特征和情感特征作為模態,并利用這兩種模態構造超級圖得到基于主題的跨模態超級圖。最后利用驗證集中的評論與超級圖中頂點的相似性預測項目的評分進行推薦。推薦結果對比基于樸素貝葉斯、最大信息熵、支持向量機和基于字典等方法對評論的情感分類作出推薦的準確率更高。為了更為準確地匹配圖像與文字,Otto等[39]先提取圖像和文字的語義與實體特征,然后在CMI(Cross-modal Information)準則、SC(Semantic Correlation)準則和描述圖像與文本間關于相對重要性的層次關系的狀態準則下,基于這兩種特征利用深度學習對圖像和文本的聯系進行分類。從而提高了推薦的準確率。郭斌等[40]利用卷積神經網絡CNN和循環-卷積神經網絡CNN-RNN跨模態分析圖像與文本的聯合分類,最后基于分類用關聯規則進行旅游路線的推薦。

跨模態技術的研究對推薦系統的準確性起到了積極的推進效果,而在跨模態推薦中常用到的是圖片與文本及它們的特征。因而圖片與文本特征的提取是跨模態推薦的基礎。

2.2.2圖片特征提取

當前圖片特征的提取中,常見的提取方法有CNN、EMK(Efficient Match Kernels)[41]、KDES(Kernel Descriptors)[42]、SC(Sparse Coding)[43]和RBM(Restricted Boltzman Machines)[44]等。其中以神經網絡方法最為常用。

侯媛媛等[45]利用卷積神經網絡多層特征融合提取出圖像特征。生龍等[46]利用卷積神經網絡CNN特征提取的方法結合全卷積神經網絡像素位置預測功能,將卷積神經網絡卷積層提取出的特征圖與同類標簽特征圖交換,加強圖像的特征提取效果。Qing等[47]利用PCNN(Pulse Coupled Neural Networks)提取圖像的時間序列特征和熵序列特征。在眾多的研究基礎上,閆河等[48]通過從網絡架構和內部結構兩方面對深度神經網絡AlexNet進行改進和優化,進一步提升了特征的表達能力。郭文慧等[49]提出了名為提出3D多尺度特征融合殘差網絡的方法,該方法先對圖像的3D-HSI數據進行自適應降維,并將降維后的圖像作為網絡的輸入。然后,利用多尺度特征融合殘差塊依次提取光譜-空間特征,并且融合不同尺度的特征,最后通過特征共享增強信息流以此來獲得更豐富的特征。梁華剛等[50]通過將圖像中背景信息丟棄來減少干擾,然后建立一個由特征提取網絡、注意力區域定位網絡和特征融合網格組成的特征提取模型,利用模型的級聯結構完成將特征由全局到局部的轉移,以此完成目標在圖像中較細粒度的識別。Kim等[51]通過將圖像轉換的顏色轉換到YUV顏色空間,然后利用YUV得到的像素的正信息和逆信息的權重和提出一個基于tone mapping的模型從低動態圖片中提取更多的SIFT(Scale-invariant Feature Transform)特征。

除此之外,還有一些別的方法,如林克正等[52]為了取得較好的圖像HOG特征提取效果,提出了一種信息熵加權的HOG(Histogram of Oriented Gradients)特征提取方法,該方法先將圖像分成若干塊,然后分別對各子圖像進行HOG特征提取,并且將每塊子圖像所含的信息熵作為權重系數加到這些HOG特征上,最后利用PCA算法對新的特征進行降維得到信息熵加權的HOG特征。王曉華等[53]先通過Hessian矩陣行列式確定圖像中的特征點,然后用梯度方向對快速魯棒特征算法(SURF)中的主方向提取方法進行改進,以提高特征點方向的準確性,同時用二進制特征描述子對特征點進行描述。在此基礎上,再利用漢明距離對獲得的特征點進行粗匹配,最后通過網格運動統計剔除誤匹配點來獲取較為精準的圖像特征。

2.2.3文本特征提取

文本特征提取是將原文表達轉換到低維度的特征空間的簡潔表達。當前常見的文本特征提取方法有深度神經網絡DNN(Deep Neural Network)、LDA和PCA(Principal Components Analysis)等。

韓建勝等[54]利用單向多層空洞因果卷積結構分別對文本進行前向和后向特征提取,然后將兩個方向的序列特征融合進行情感分類。馬慧芳等[55]根據詞語的共現構建文本圖,該圖以詞匯為頂點,以詞語間的相似度作為邊的權重。詞語間的相似度別基于語義耦合和基于結構特征進行計算,從而獲得兩個文本圖實例。最終利用隨機游走方法融合兩個文本圖,迭代計算出各節點的重要性以此獲取文本的重要特征。陳文實等[56]先通過LDA對文本的全局特征進行建模,然后利用LSTM對文本的局部特征建模,最終結合有監督學習和無監督學習,對文本進行不同層次的特征提取。李平等[57]在基于CHI特征提取方法的基礎上,通過融入特征詞出現的頻率、特征詞的影響力和特征詞與文本類別的相關性來提高特征詞提取的準確性。韓慧等[58]基于深度森林算法BFDF(Boosting Feature of Deep Forest)建立了一個模型,該模型以文本的評價對象-評價詞極性特征對的二元特征和情感語義概率特征融合作為文本的特征。并用AdaBoost方法來獲得不同特征的重要性,以此計算評論文本的情感傾向。王偉等[59]先利用雙向門控循環(BiGRU)神經網絡層對文本深層次的信息進行特征提取。然后,利用注意力機制(attention)層對提取的文本深層次信息分配相應的權重。最終對不同權重的文本特征利用softmax函數對文本進行情感極性計算。Lei等[60]在神經網絡的輸入層設計噪聲減弱機制,然后利用基于SVAE(Stacked Variational Autoencoder)模型的隱藏層進行文本的特征提取,在Fudan和Reuters數據集上得到的提取結果的準確性比PCA的更高。

2.2.4跨模態推薦技術小結

跨模態推薦技術能夠利用信息的不同模態進行互補來更加完善地描述信息的主體對象,從而提高推薦結果的準確性。而特征提取是跨模態推薦技術的基礎。在興趣點推薦中,圖像和文本是兩種主要模態。圖像特征提取和文本特征提取技術當前主要使用的是神經網絡算法,因此面臨著無法解釋提取結果的問題。同時利用神經網絡算法需要大量的數據進行訓練,但是當前的文本數據集主要是常見的英文和中文等廣泛使用的語言,因此對于小語種的數據需求是一個挑戰。而在LBSN上的圖像很多都經過用戶的修飾,因此對圖像特征提取算法的魯棒性也是圖像特征提取所面臨的一個挑戰。

2.3 基于LBSN的興趣點推薦框架

興趣點推薦基于LBSN而生,所以它有著豐富的背景信息用于推薦。這些信息不僅解決了推薦系統面臨的數據稀疏性問題和冷啟動問題,而且還提高了POI推薦的準確性和使得推薦結果更具個性化。設計用于融合這些信息的興趣點推薦框架是當前不少研究者熱衷的工作之一。

Yin等[61]基于LDA模型提出了一個ST-LDA的推薦框架。框架在數據處理部分為基于時間的主題發現、地理區域建模、基于區域的用戶興趣建模、個人空間模式建模和基于角色的群體偏好建模5部分。它們利用狄利克雷模型分別對與主題相關的詞語和時間、興趣點在區域中的分布、用戶在區域內的分布和用戶在各區域中訪問主題的分布進行統計建模。在興趣點推薦計算部分,首先利用數據處理得到的統計信息,基于多項分布和用戶的歷史記錄,計算用戶訪問時選擇的區域、主題、興趣點、地理坐標、主題相關詞和訪問時間的概率。然后給定用戶當前的時間、地點和角色,將之前得到用戶在各種信息下的概率分布作為條件概率的條件,計算每個興趣點的條件概率,然后將top-k個興趣點推薦給用戶。Wang等[62]提出了一個融合序列性信息和個人興趣的框架SPORE(Sequential Personalized Spatial Item Recommendation Framework)。序列性信息是指時間、地理的鄰近程度和人類的偏好與POI類型的內在聯系(如為了健康著想,人們通常先運動再吃飯)等信息。在數據處理部分,首先利用文獻[63]中的方法對用戶的個人興趣進行量化,同時用文獻[64]的SAGE模型量化之前訪問過的項目的影響力,以及用背景模型量化大眾偏好。然后基于這3個參數,用多項分布計算主題區域指標z,以及z對應的內容詞匯和POI的分布。在推薦計算部分,對基于每個用戶的歷史記錄,對沒訪問過的項目,分別計算z及其對應的描述詞語和POI的出現概率,將這3個概率的乘積作為用戶沒訪問過的POI的訪問概率。Qiao等[65]提出了一個名為UP2VEC的表示學習框架對地理影響力、社會關系和時間信息進行融合。在數據處理部分,在基于訪問關系連接的用戶-POI圖的基礎上,對于有社交關系的用戶也相互連接、同一天內訪問過的POI間相連接,組成一個成分混雜的LBSN圖。然后將地理距離納入各頂點間的躍遷概率的計算中。最后通過文獻[66]中的模型Node2Vec學習用戶和POI的表示。在推薦階段,通過學到的用戶表示和POI表示的內積產生推薦列表。Ankita等[67]提出了一個將社交網絡內的地理特征、語義信息和時間信息融合用戶的社交關系進行推薦,名為LoCaTe的框架。框架在數據處理部分首先用核心密度估計模型基于用戶的簽到記錄計算用戶對各POI的偏好PL。然后基于簽到記錄用隱藏狄利克雷分配模型計算用戶對POI主題的偏好PC。最后基于簽到記錄用指數分布計算時間相關系數T。推薦部分通過PL和PC的權重和乘以T作為用戶訪問POI的概率。Baral等[68]提出了名為HiRecS的系統框架。系統在數據處理部分,先用主題、距上個簽到點的距離和簽到頻率構建每個POI的特征檔案,并且基于Haversine公式進行地理位置的聚類。然后利用用戶的簽到頻數計算用戶對不同特征的偏好,以建立個人檔案。接著根據用戶的簽到偏好,在每個地理區域對用戶進行聚類。系統在推薦部分,給定目標用戶和特定區域,在該區域找到與用戶相似的群體,以群體偏好表示用戶偏好,基于CMI(Conditional Mutual Information)標準和各群體的偏好特征對POI進行分層。最后用PMD(Partition Membership Divergence)將各群體的POI分層樹融合成一棵樹。利用用戶的偏好特征,在每一層找到最匹配用戶偏好特征的節點直到達葉子節點并將該POI推薦給對應用戶。

基于LBSN的興趣點推薦的技術框架的總體抽象如圖1所示。

圖1 基于LBSN的興趣點推薦框架

框架主要分為用戶和POI信息處理的數據處理層和推薦計算層兩層。在數據處理層,當前使用比較普遍的信息有POI的地理位置、POI的主題、用戶的偏好、用戶的歷史記錄和用戶的社交關系。常用的處理方法是將各種信息量化或者基于這些信息構造新的圖或樹。量化的常見方法是利用狄利克雷分布和多項分布進行建模,得出各種信息條件下訪問POI的概率。在推薦計算層,常見的推薦計算是對POI進行評分或利用條件概率求在多種信息的條件下POI被訪問的概率。而評分的計算方法常見的是基于權重和的計算公式。所以,在基于LBSN的興趣點推薦框架中,數據處理層是推薦計算層的基礎。契合的數據表示將會帶來高效的推薦過程和優秀的推薦結果。

3 興趣點推薦常用數據集

興趣點推薦作為一個特殊的推薦領域,其要求的數據集中較其他數據集多了時間和地理位置數據,而且算法對數據集的地理、時間和社交關系等影響一個人出行的數據尤為敏感。當前常見可用于興趣點推薦的數據集有Foursquare數據集、Yelp數據集、Gowalla數據集、GPS數據集、MIT數據集和DoubanEvent數據集等[69]。下面介紹幾種常用的數據集。

1) Foursquare數據集。Foursquare數據集來源于一個基于位置的社交網站Foursquare。Foursquare本身沒有提供API來訪問用戶的簽到數據,但其與Twitter的關聯導致可以從Twitter中尋找用戶利用Foursquare的簽到。Bao等[70]將收集到Foursquare數據劃分為用戶基本信息、興趣點基本信息、用戶歷史記錄和用戶社交關系4類。其中,用戶基本信息包括了用戶的ID、姓名和住址等。興趣點的基本信息包括了地點的ID、名稱、地址、坐標和分類標簽等。用戶的歷史記錄包含了用戶的評論標簽,每個評論標簽與興趣點的ID、詳細評論和時間戳相關聯。用戶的社交信息由用戶的ID組成。

Foursquare數據集的不足之處在于其本身非公開的性質,其出現來源于研究人員的自行收集,這造成了無法收集到沒有捆綁Twitter的用戶數據,而且收集到數據會有一定的片面性。

2) Gowalla數據集。Gowalla數據集來源于基于位置的社交簽到應用Gowalla。相應的簽到數據由Stanford的Jure Leskovec收集,從2009年2月至2010年10月,該數據集包含了6 442 890條簽到信息。數據中每條記錄由用戶的ID、簽到時間、興趣點的坐標和興趣點的ID組成。

Gowalla數據集雖然來源于社交應用Gowalla,但是由于其并非由Gowalla直接公開,所以該數據集沒有明確的社交關系。同時,該數據集已不再更新,而用戶對興趣點的選擇是具有時效性的,所以,從該數據集學得的模型可能會與用戶的實際選擇偏差較大。

3) Yelp數據集。Yelp數據集來源于美國最大點評網站Yelp,它由Yelp自行公開。數據集由JSON格式記錄。該數據集截至2020年3月26日包含了4個國家共11個大城市的興趣點信息,含520 000 000條用戶點評,174 000條興趣點信息。數據集由興趣點信息、簽到信息、評論信息、用戶評論標簽、用戶信息和圖片信息組成。興趣點信息由興趣點ID、名稱、地址、坐標、評分、分類、營業時間和其他屬性信息組成。簽到信息由興趣點ID和該興趣點被簽到的時間戳集合組成。評論信息由評論ID、評論用戶的ID、興趣點ID、評論內容和評論時間等組成。評論標簽信息由標簽文本、興趣點ID和用戶ID等組成。用戶信息由用戶ID、姓名、評論數、社交關系等組成。圖片信息由圖片ID、對應興趣點的ID、描述文本和圖片分類標簽組成。

Yelp數據集的完善數據記錄可以使它完全滿足于現有的興趣點推薦算法,其信息之詳細可以有效地提高興趣點推薦結果的個性化、準確性和多樣性。但是其僅面對著11個大城市,這就造成了這些城市以外的興趣點均無法被推薦。而且,從該數據集中學得的用戶行為,也僅適合于這11個地區,對于這些地區以外的應用,與用戶的實際偏差會較這11個地區的大。

4) DoubanEvent數據集。DoubanEvent數據集來源于中國的一個基于項目的社交網站DoubanEvent。用戶在該網站指定何時何地舉行某一個活動,然后其他用戶通過在線簽到表達對該活動的偏好。它主要囊括了北京、上海、廣州和深圳4個城市的簽到記錄。其主要由用戶信息、活動信息、用戶反饋信息和用戶社交關系信息組成。用戶信息包括了用戶ID、名稱和用戶所在城市。活動信息包括了活動ID、名稱、發生地的坐標、活動總結和活動分類。用戶反饋信息包含了用戶ID和活動ID。用戶社交關系的每條記錄由用戶ID及其相互關注的其他用戶ID組成。

DoubanEvent數據集是中國較大的一個公開數據集,它可以較好地適應中國國內的興趣點推薦服務。但是其主要集中于北京、上海、廣州和深圳這4大城市造成了它的局限性。同時,由于其來源豆瓣相對微博、微信等社交平臺來說,并非一個廣泛流行的社交應用,所以依據該數據集學得的模型會存在一定的片面性。

4 興趣點推薦的效用評價

對于推薦系統的效用評價,可以分為評價方法和評價指標兩方面。評價方法有在線評價、離線評價和混合評價3類。

4.1 評價方法

4.1.1在線評價

在線評價指的是通過直接詢問用戶得到用戶對推薦系統的反饋,從而改善推薦方法的一種方式。其常見做法是進行問卷調查。

在線評價的優點在于其對用戶需求的實時響應,頻繁的用戶交互可以最大限度地滿足用戶的需求。但該方法需要較大的成本投入。Bao等[70]在其設計的移動推薦系統中使用了在線評測,實驗結果表明該方法可以帶來極高的用戶滿意度。

4.1.2離線評價

離線評價是指利用測試數據集,計算評價指標來衡量推薦系統的質量。常見的計算方法是k-折交叉驗證法。而常見的衡量指標有召回率、精確度、平均平方誤差等。

離線評價的優點在于其可以獨立在線下完成,所需的資源投入較少。但是其缺乏了與用戶的直接互動,無法準確地判斷是否滿足用戶的需求。

4.1.3混合評價

鑒于在線評價和離線評價的特點,有研究者提出將兩種評價聯合使用,這就是所謂的混合評價。混合評價能同時兼具在線評價和離線評價的優點。在文獻[71]中便使用了在線評價和離線評價作為推薦系統的效果評價方法,在得到較好的用戶滿意度的同時又不至于投入太大的成本。

4.2 評價指標

除了評價方法,評價時還需要評價指標,常見的評價指標有召回率Recall、準確率Precision和平均平方誤差MSE等。以TP表示正類數,FP表示負類被預測為正類的數目,FN表示正類被預測為負類的數目,則幾個常見的評價指標計算如下。

召回率的計算公式如下:

(10)

準確率Precision的計算公式如下:

(11)

平均平方誤差MSE的計算公式如下:

(12)

4.3 效用評價小結

推薦效果一般有著一系列的評價指標,但同一個算法在同一個數據集在不同的指標上所得出的結果往往是不同的。所以推薦效果,其實是算法、數據集和評分模型三者共同作用的結果。文獻[69]給出常見數據集的基準模型和基準評價指標,如表1所示。

表1 常見數據集的基準推薦模型和評價指標

5 興趣點推薦未來的發展

盡管現今對興趣點推薦的數據稀疏性問題和特征提取問題取得了一些成果,但是對興趣點推薦的研究還需不斷完善,今后的進一步研究工作可從如下方面展開。

5.1 隱私保護

興趣點推薦是對地理位置的推薦,推薦過程中會涉及用戶的活動蹤跡、用戶的行為偏好等信息。而為了實時推薦,甚至會實時地獲取用戶的定位信息。而所有的這些信息都屬于用戶的個人隱私,尤其是這些隱私的泄露容易導致用戶遭受攻擊,從而出現意外。所以如何有效地保護用戶數據的隱私是興趣點推薦的必須要解決的問題。

5.2 機器學習

當前興趣點推薦中,圖像特征提取、文本特征提取和文本情感分析成為了一個重要的環節。而當前這些提取技術更多的是依靠神經網絡和機器學習。神經網絡是機器學習的進一步優化。可以說,機器學習的發展嚴重影響了推薦效果的準確性。同時當前文本的處理只是停留在詞匯的處理上,對于文本語義的理解還有待發展。

另外,對于興趣點的推薦模型,其本質同樣是從已有的數據中學習用戶的行為,應用的是機器學習的方法。一個好的推薦模型可以帶來優秀的推薦效果。因此,機器學習是興趣點推薦的一個重要研究方向。

5.3 數據集標準化

雖然當前有不少的公開數據集可供使用,但是,數據集中的數據大多數呈地域性集中,即現有的數據主要是某幾部分地區的用戶活動信息。而且數據集之間存在著互補關系,但不同數據集記錄的格式,字段均不一樣,這不僅為聯合使用帶來了不便,同時對推薦系統的建模與程序編寫也帶來不便,因此,標準化的數據集格式是必需的。

6 結 語

隨著LBSN的普及與發展,興趣點推薦無論為商戶還是用戶都帶來了利益。面對興趣點推薦系統,過去對于其他項目的推薦系統的解決方案已不再適用。本文總結歸納了面對數據稀疏性問題時,興趣點推薦領域獨有的解決方法、興趣點推薦面對特征提取問題時的解決方案、適用于興趣點推薦的數據集以及如何對興趣點推薦的推薦效用進行評價。通過整理分析得到的幾點結論如下。

(1) 興趣點推薦已有自己一套面對數據稀疏性問題的解決方案,但是還有待改進。當前較為常見的方法是通過多源信息的融合來緩解數據稀疏問題。通過融合其他諸如地理位置、社交關系等與用戶選取興趣點及其相關的因素進行矩陣分解,或者將這些因素進行量化來對用戶的行為進行建模預測都可以有效緩解興趣點推薦上的稀疏性問題。但是這無法更改矩陣分解的聚類本質,所以,在采用矩陣分解算法的同時,應該采用其他方法來彌補推薦結果多樣性的缺失。對于建模預測用戶行為的方法盡管與實際結果會存在偏差,但是可以較好地緩解數據稀疏性問題。但是,該方法在興趣點推薦中往往較其他推薦融合的信息多。對于多源信息在興趣點推薦中的量化與融合模型是該方法所面對的一個難點。

(2) 多模態數據是興趣點推薦的一個特色背景。跨模態融合推薦可以提高推薦結果的準確性。而特征提取是跨模態推薦的基礎技術。所以,其準確性會直接影響到最終推薦結果的準確性。當前該技術所用的方法主要是基于神經網絡的機器學習方法。而神經網絡的方法會面臨結果的可解釋性問題。同時,機器學習方法除了解決特征提取問題外,機器學習中的模型也是推薦模型建模的主流方法,因此,機器學習的研究是興趣點推薦的一個重要研究方向。

(3) 已經有著不少可用于興趣點推薦的數據集,這些數據集大多都記錄著用戶的簽到行為、對興趣點的評論、用戶的社交關系以及興趣點的信息等。它們可以在一定程度上滿足科研的要求。當前興趣點推薦所面臨的數據集問題主要集中有2點。其一是用戶的隱私問題。用戶的隱私涉及到用戶的安全問題,因而,很多應用都選擇不公開其應用所收集的用戶數據。這造成了用于興趣點推薦的數據集缺乏廣泛性。其二是當前數據集面對著來源單一、格式不統一、地域性集中等問題。該問題造成了研究人員跨數據集使用數據的困難。

一個標準的數據加密處理方法和標準的數據記錄格式可以很好地解決其中大部分的問題。標準的加密處理可以在一定程度上協助研究人員找出不同應用中的同一個用戶,既減少了數據的重復,同時又可以擴展用戶的歷史記錄,減緩數據稀疏問題。而標準的數據字段可以讓研究人員同時使用多個數據集,降低了建模與編程的難度,增加推薦結果的準確性。

因此,針對興趣點推薦的數據標準化處理不僅是科研所需,同時也是商業的要求。

(4) 任何一個推薦系統的評價,它都是由其算法、評價方案和使用的數據集所決定。盡管孟祥武等[69]給出了一套基于各數據集的標準模型和評價指標,但是,這些基準所基于的數據集和推薦模型都是有著一定缺陷的。所以,縱使在某個基準數據集上,依據評價指標優于某基準推薦模型,但實際的應用效果也不一定能夠由于基準推薦模型。為此,推薦系統的評價這方面,一套標準的評價體系還有待制定。

綜上所述,對于興趣點推薦的研究還有待深入。本文介紹了一個相對完整的興趣點推薦技術的知識框架。希望本綜述對于興趣點推薦的研究脈絡的理清和興趣點推薦技術后續的研究能夠提供參考和幫助。

猜你喜歡
特征提取特征文本
如何表達“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 午夜精品国产自在| 乱系列中文字幕在线视频| 亚洲第一页在线观看| 亚洲第一视频网| 亚洲欧洲AV一区二区三区| 久精品色妇丰满人妻| 亚洲无限乱码一二三四区| 中文字幕亚洲综久久2021| 国产精品黄色片| 鲁鲁鲁爽爽爽在线视频观看| 日韩av无码精品专区| 午夜性爽视频男人的天堂| 国产原创演绎剧情有字幕的| 欧美国产菊爆免费观看 | 99ri国产在线| 欧美丝袜高跟鞋一区二区| 99re在线观看视频| 国产精品乱偷免费视频| 国产激情在线视频| 亚洲有无码中文网| 全部毛片免费看| 夜夜操天天摸| 伊人五月丁香综合AⅤ| 在线观看亚洲成人| 黄色三级网站免费| 很黄的网站在线观看| 国产亚洲欧美在线专区| 亚洲视频黄| 国产午夜人做人免费视频| 午夜在线不卡| 在线观看视频99| 色呦呦手机在线精品| 国产天天色| 国产特级毛片aaaaaaa高清| 亚洲综合中文字幕国产精品欧美| 精品无码日韩国产不卡av| 青青草原国产精品啪啪视频| 97国产在线播放| 亚洲人成日本在线观看| 青青草国产免费国产| 成人一级免费视频| 漂亮人妻被中出中文字幕久久| 亚洲男人的天堂在线观看| 亚洲精品少妇熟女| 国产亚洲欧美在线人成aaaa| 亚洲中文字幕在线观看| 欧美区一区| 久久a级片| 亚洲色中色| 成人福利在线视频免费观看| 午夜毛片免费观看视频 | 亚洲综合久久成人AV| 欧美日本激情| 国产精品大尺度尺度视频| 欧美日韩激情在线| 欧美午夜理伦三级在线观看| 9丨情侣偷在线精品国产| 成人韩免费网站| 欧亚日韩Av| 青青热久麻豆精品视频在线观看| 国产美女无遮挡免费视频网站| 91九色最新地址| 国产又爽又黄无遮挡免费观看| 亚洲色图欧美视频| 国产福利影院在线观看| 激情影院内射美女| 亚洲区一区| 国产国拍精品视频免费看| 亚洲天堂视频在线播放| 成人在线观看一区| 波多野结衣亚洲一区| 成人91在线| 欧洲av毛片| 成人免费午间影院在线观看| 成人综合网址| 午夜精品久久久久久久无码软件| 夜夜操国产| 久久99精品久久久久久不卡| 亚洲国语自产一区第二页| 波多野结衣无码视频在线观看| 欧美不卡二区| 丰满人妻一区二区三区视频|