余福茂,胡亞蘭,林 娜
(杭州電子科技大學 管理學院,浙江 杭州 310018)
基于鄰域用戶模型的主題推薦研究
余福茂,胡亞蘭,林 娜
(杭州電子科技大學 管理學院,浙江 杭州 310018)
傳統的基于用戶興趣主題的主題推薦中,由于數據的稀疏性以及對鄰域好友之間的影響作用考慮不夠深入,推薦的效果不佳。為了豐富目標用戶的興趣集,文章在基于本體的基本用戶模型之上,引入鄰域用戶興趣集,計算更新鄰域主題興趣度,根據獲取的目標用戶興趣主題集來進行主題的匹配推薦。最后通過兩個不同的數據集對模型進行推薦效果驗證,結論表明文章所提出的用戶模型的推薦效果是明顯要優于傳統用戶模型。
用戶模型;本體;鄰域用戶模型;協同過濾
當前,利用知名社交平臺的流量數據建立用戶模型,實現對用戶興趣主題的預測是當下數據挖掘領域的一個研究熱點。預測用戶興趣主題的關鍵是要獲取精確的用戶特征。建立用戶模型是近年來常用的獲取精確用戶特征的主要方法之一。目前國內外關于用戶模型的研究取得了一定的成果。宋雯斐等人[1]結合情景信息建立動態語義用戶模型,并將模型應用到個性化圖書館服務推薦中去。Tao等[2]綜合考量了個體和全局知識庫,建立個性化的本體用戶模型,最后通過與基準模型對比數據表明,本體模型存在一定的優勢。由于微博內容的隨意性、更新的頻率高,廣告推薦往往會碰到數據稀疏性、冷啟動等問題。國內外的學者針對這兩個問題代表性解決方式有Moussa[3]等在用戶意向挖掘中加入了年齡、性別等情景因素來解決數據稀疏性等問題,最終實驗表明論文中提出的算法提高了21%的精確度。G Piao[4]等重復利用谷歌的配置文件,在Twitter用戶模型的構建上解決冷啟動問題。以及趙軍[5]等使用稀疏和低秩矩陣補全理論對稀疏的用戶——項目矩陣進行填充。上述的研究成果中,雖然多數研究者已經關注到了用戶與鄰域好友之間的關系,但在本文的研究平臺微博中,用戶之間通過互動,形成了大量的傳播數據信息。在這樣一個龐大的社交網絡中,用戶的興趣偏好等必然會受到群體智慧的影響。而以上研究首先對群體智慧影響作用的研究不太關注。其次在對鄰域好友之間的關系的定位時,以往的研究多數是從用戶相似性的單一維度出發,這樣會導致推薦效果不佳。
用戶模型是對用戶的興趣度的一個度量的模型,主要由兩部分構成,第一部分是興趣主題詞,并且對主題詞的重要度進行量化的計算,得出用戶的主題興趣度,即內容興趣度;第二部分是主題詞的專業程度,專業覆蓋度。內容興趣度是在主題分類和提取的基礎上,用量化的方法將用戶所感興趣的內容抽象成為權重最后得出用戶在主題上的興趣度。關于主題的提取與劃分,國內外學者多數采用的是機器學習中的分類方法。A Kamal[6]等設計一種本體學習和情感分析系統的本體學習和情感分析的使用規則和機器學習的方法為意見挖掘和情感分析做準備。本文的主題詞提取一方面依靠ICTCLAS3.0系統對微博內容進行特征詞提取,另一方面根據搜集到的微博數據來進行人工修正與更新,以保證分類的精確性。而主題的重要程度主要由主題權重和逆文檔頻率兩部分構成。
微博主題的提取與劃分,首先需要對文檔的相似度進行計算,由于余弦距離度量方法主要關注對象之間方向上的差異,更適合用來評估用戶的興趣的相似度和差異,因此本文主要采用余弦相似度。另外,目前對于主題興趣的分類的一種很主要的方式就是通過本體結合行業的領域知識來進行領域本體分類。例如范云杰[7]利用危機百科的分類結合本體學習方法,對中文文本中的短文本進行特征分類。
微博內容的興趣度的表示一方面需要對微博主題的提取與分類,另一方面還需要主題在微博內容中的重要程度。我們表示出主題詞t在微博M的相對重要度=詞頻重要度*逆文檔頻率。根據主題的劃分以及主題在文檔中的相對權重,我們能夠將用戶m在主題S上的內容興趣度表示為cidu(s)。呂歡歡、宋偉東[8]等在對領域本體的相似度計算的過程中指出:在本體結構中,越是細分的下層概念,其含義是更加具體的,而上層的概念則是更加抽象的,因此把本體分類概念的深度也加入領域本體的相似度計算中。本文的用戶模型中,也考慮了用戶的領域專業深度。
在前文中我們有提到予以分類樹中的父節點具有抽象性強解釋性弱的特點,而越是靠近下層的子節點的概念解釋性更強,因此葉節點的語義解釋性更強,我們把這種關系用參數&的值來定義,當&>1,表示上述的關系成立。而水平方向上的語義解釋度我們用log來表示。根據語義覆蓋度,我們可以把用戶m對主題S的語義解釋性表示為sidu(s)。在獲取了用戶內容興趣度以及語義解釋性之后,我們可以將基本的用戶模型表示為Iu(s)。
由于微博內容的隨意性、更新的頻率高以及存在巨大的交互資源等特點,若只是針對目標用戶個人的微博內容所提取出來的用戶興趣模型往往是不夠全面的。潘以鋒、盛小平[9]在研究開放獲取指導的過程中提出,社交關系之間的強關系與弱關系的概念。微博作為一個和大型的虛擬社區,其用戶之間的關系也有強弱之分。因此在尋找目標用戶的鄰域好友的過程中,首先要對用戶之間的鄰域關系進行計算。本文中對鄰域關系的計算主要包括兩個方面,資源認知與關注認知。記o(u,m)=1為用戶 u 發布的微博 m,Mu={mj|o(u,m)=1}為與用戶u相關的微博的集合。記Fu為用戶u關注的用戶集合,分別為用戶、關注的好友集合對應的基數,那么可將資源認知和關注關系認知關系記為:
最后根據兩種類型的認知關系,通過分配權重η得到用戶 ui與 uj之間的綜合認知度,,在上述的用戶之間的認知度公式中,資源認知與關注認知之間的權衡是通過設置參數來實現的。在用戶認知度的基礎上可以得到用戶的鄰域好友集合,記為:Nui={uj|Rij≥σ},其中σ是閾值參數,通過設置不同的閾值σ,可以得到用戶的不同的鄰域。Nui表示了用戶ui所關注的好友鄰域集合,該集合對用戶的潛在興趣有間接的影響作用。通過將該鄰域用戶的用戶模型進行去重合并,就能得到用戶ui的鄰域用戶模型。更新后的興趣度為:

我們選取精度(P),召回率(R)作為評價指標對鄰域用戶模型和傳統模型以及CF推薦的效果進行比較。其公式可表示為:

其中Sτ是根據目標用戶自己的微博提取出來的興趣主題的集合,SR是根據目標用戶的鄰域好友的微博提取出來的興趣主題集。
本文的數據來自于NLPIR以及微博開放平臺數據集。由于本文只針對個人用戶的興趣特征進行廣告推薦,故在數據預處理的過程中,刪除了企業用戶以保證推薦的有效性。本文分別在體育經濟文化IT四個領域上探究用戶的興趣特征。具體的數據集構成如表1所示。

表1 數據集統計表
從表1可以看出,北京理工數據集相對于微博開放數據集來說,用戶之間的關注關系不那么明顯。
在前文中我們提到,在獲取用戶的鄰域興趣主題集時,參數α代表認知關系中的資源認識與關注認知之間的比例,參數δ是用來獲取目標用戶的不同大小的鄰域。由于本文中所涉及到的兩個數據集的特征不同,故本文首先對用戶關注關系不明顯的北京理工的數據集設置參數δ=0.1,對用戶關注關系更密集的微博開放數據集設置參數δ=0.3,兩個數據集的α值都設置為0.5進行比較。這是因為當用戶之間的關注關系不那么明顯時,若δ的值太大,得到的鄰域用戶的范圍也會增大,導致推薦給了目標用戶并不感興趣的微博廣告。

圖1 北理數據集:α=0.5,δ=0.1時,鄰域用戶、協同過濾以及孤立用戶模型的精度與召回率

圖2 微博數據集:α=0.5,δ=0.3時,鄰域用戶、協同過濾以及孤立用戶模型的精度與召回率
從圖1和圖2可以看出,本文提出的鄰域用戶模型無論是在精度和召回率維度來說都是要優于協同過濾、孤立用戶模型。因為對多數用戶來說,他們更傾向于接受其鄰域內的好友用戶所感興趣的興趣主題。在北京理工數據集上,隨著推薦主題數K的增加,鄰域用戶模型的精度的召回率越來越接近協同過濾,這是因為北京理工數據集中,用戶之間的關注關系弱,這樣的數據集中即時加入了鄰域好友的興趣主題,有效的推薦主題也是較少的,最終的推薦結果中不相關的主題比例會越來越大。
鄰域用戶模型的推薦性能直接受用戶的社交水平的影響,不善于社交的目標用戶,關注的用戶數量少,這種情況下,想要獲得足夠的鄰域用戶集合都是很困難的,推薦的主題稀缺會直接導致推薦效果大打折扣;而社交能力太強的用戶,關注的好友數量大,這種情況下,鄰域用戶集合中,存在較多的數據冗余,導致推薦的興趣主題過多,不能集中到目標用戶真正關心的興趣主題上,推薦效果不理想。
本文在總結主題推薦問題中缺少對用戶之間興趣的相互影響作用等問題的思考,提出了基于鄰域用戶的主題推薦模型。實驗證明該模型在精準度和召回率兩個方面都要優于孤立用戶模型和協同過濾模型。另外對于不同的數據集,用戶之間的關注關系不一致,可能影響推薦的效果,若要提高推薦有效性,需要選擇合適的鄰域范圍、資源認知與關注認知比例以及推薦主題的個數。
[1]宋雯斐,邢紅剛,魯揚,2013.基于層次語義情景的用戶模型構建[J].情報科學(6):24-27.
[2]Tao X,Li Y,Zhong N.A Personalized Ontology Model for Web Information Gathering[J].IEEE Transactions on Knowledge&Data Engineering,2011,23(4):496-511.
[3]Moussa S.An Approach for Opinion-Demographic-Topology Based Microblog Friend Recommendation[C].Cham:Springer International Publishing,2017:815-824.
[4]Piao G,Breslin J G.Analyzing Aggregated Semantics-enabled User Modelingon Google+and Twitter for Personalized Link Recommendations[C].ACM,2016:105-109.
[5]趙軍,王紅,殷方勇.一種面向稀疏和虛假評分的協同推薦方法[J].小型微型計算機系統,2017,38(3):472-477.
[6]Kamal A,Abulaish M,Jahiruddin.OntoLSA-An Integrated Text Mining Systemfor OntologyLearningand Sentiment Analysis[C].Cham:Springer International Publishing,2016:399-423.
[7]范云杰,劉懷亮,2012.基于維基百科的中文短文本分類研究[J].現代圖書情報技術(3):47-52.
[8]呂歡歡,宋偉東,楊睿.基于領域本體的綜合加權語義相似度算法研究[J].計算機工程與設計,2013,34(12):4209-4213.
[9]潘以鋒,盛小平.社會網絡理論與開放獲取的關系分析[J].情報理論與實踐,2013,36(6):21-26.
F062.5
A
1004-2768(2017)11-0108-04
2017-08-07
國家自然科學基金“電子廢棄物回收處理系統的多主體協同演化機理及政策研究”(71373064)
余福茂(1975-),男,山西應縣人,博士,杭州電子科技大學管理學院教授,研究方向:信息技術與管理;胡亞蘭(1992-),女,四川瀘州人,杭州電子科技大學管理學院碩士研究生,研究方向:信息技術與管理、數據挖掘;林娜(1994-),女,江西上饒人,杭州電子科技大學管理學院碩士研究生,研究方向:信息技術與管理、數據挖掘。胡亞蘭為通訊作者。
C 校對:T)