李 慧,馬小平, 施 珺, 仲兆滿, 蔡 虹,3
(1. 淮海工學院 計算機工程學院,江蘇 連云港 222001; 2.中國礦業大學 信電學院, 江蘇 徐州 221008;3. 江蘇省海洋資源開發研究院, 江蘇 連云港 221005)
結合信任度與社會網絡關系分析的微博推薦方法研究
李 慧1,2,馬小平2, 施 珺1, 仲兆滿1, 蔡 虹1,3
(1. 淮海工學院 計算機工程學院,江蘇 連云港 222001; 2.中國礦業大學 信電學院, 江蘇 徐州 221008;3. 江蘇省海洋資源開發研究院, 江蘇 連云港 221005)
隨著微博網絡的盛行,越來越多的微博信息困擾用戶無法快速定位自己感興趣的博文。為了解決微博信息過載問題,信息過濾、推薦和搜索等技術被應用于微博研究中。該文提出了一個綜合信任模型、社會網絡關系分析的綜合推薦模型,應用LDA主題模型及矩陣分解技術推斷微博的主題分布和用戶的興趣取向,實現微博的個性化推薦。通過實驗驗證,該方法能十分有效地解決個性化博文推薦問題。
信任度;社會網絡;矩陣分解;微博;LDA
在線社交網絡系統和面對面服務已經獲得了社會媒體的廣泛關注, 它是通過鼓勵博主與其他博主分享自己的帖子或個人信息來發現一些現有的社交網絡或社會關系的一種社交方式。在微博圈里,微博確實為人們提供一個更加開放的溝通渠道來閱讀、評論、引用、社交,甚至可以超出他們的社交網絡去建立新的聯系,從而形成社區。此外,微博圈中包括了基于文本的微博條目(文章)和配置文件、圖片、數據及多媒體等大量有價值的資源。對于用戶來說,面對如此海量的信息,如何處理信息過載問題和如何有效地檢索他們認為重要的信息,設計微博推薦方法和信息過濾機制是一個很好的解決方案。
社交網絡服務具有海量性、實時性和個性化等特點,這些特點在微博平臺上得到了很好的體現,這也使得微博成為一種非常典型的社交網絡服務。針對微博平臺,部分互聯網公司已經開發了實時社交網絡服務,包括Twitter, TOPSY和OneRiot。在學術界,Busch等人[1]介紹了Twitter搜索引擎EarlyBird, Chen等人[2]研究了Twitter的實時搜索引擎[3]。但是,目前這些工作并未充分考慮用戶間的信任關系及個性化服務的需求,這正是本文的出發點。
在微博推薦中,最重要的是如何通過微博推薦機制將有趣的、個性化的和社會相關的信息推薦給博主。本文提出的微博推薦機制目標是分析博主或微博文章(文章),從推薦最受歡迎、最值得信賴、和最相似的鏈接或微博內容等多個方面進行考慮,提出綜合信任和社會網絡關系的綜合推薦模型,并應用LDA主題模型及矩陣分解技術推斷微博的主題分布和用戶的興趣取向,實現微博的個性化推薦。
現有的一些有關博文推薦的研究主要是通過對用戶進行興趣建模實現的。例如Liu等人[4]利用分類法從微博文章中分析用戶偏好,將文章分類到預定義的類別中以確定作者的偏好,然后通過分析微博的內容將符合用戶偏好的博文推薦給用戶。Ray和Singh[5]提出了一種博客主題擴展的方法進行微博推薦。根據用戶在微博中的查詢輸入,使用WordNet和多本體擴展微博的基本主題,然后按照微博主題的排名進行推薦。Liu等人[6]設計一個面向個人博文推薦的手機應用,他們通過對互聯網讀者的博文點擊數進行分析以獲得博客的流行趨勢主題,然后使用一種混合的方法來為移動用戶推薦博文。丁兆云等人[7]針對微博的新特性,研究了微博近幾年的相關研究現狀,對微博情感分析、關系挖掘及信息檢索與推薦進行了研究。
為了解決信息過載問題,利用數據分析技術構建推薦系統可以幫助用戶進行信息過濾。推薦系統被廣泛用于電影推薦[8]、標簽推薦[9]、微博推薦[10]等不同領域,主要包括如下幾種推薦方法。
2.1 基于內容的過濾
基于內容的過濾(CBF)方法主要是根據項目的屬性來分析用戶的偏好,構建個性化的特征模型并對用戶可能感興趣的項目進行預測。基于內容的過濾主要用于網頁和新聞環境下的項目推薦,它通過對給定內容的描述進行分析,提取內容特征并構建特征模型,使用用戶喜好的項目構建用戶模型。為了對項目內容進行預處理,基于內容的推薦系統主要使用信息檢索技術。CBF方法的局限性表現在用戶只能接收到與他們以往喜好相類似的項目推薦。在本文的工作中也使用了CBF來計算推薦博文之間的內容相似性。
2.2 協同過濾
與基于內容的過濾不同,協同過濾(CF)主要是分析項目或用戶之間的關系,而不是分析項目的內容。協同過濾方法通過分析與其具有相似興趣的鄰居用戶的喜好來預測目標用戶的偏好。一般來說,CF方法可以分為兩種類型: 基于用戶的協同過濾和基于項目的協同過濾。基于用戶的協同過濾方法首先是將用戶分成不同的組或找到目標用戶鄰居用戶集合,然后根據鄰居用戶的喜好進行推薦。基于項目的協同過濾方法是在用戶對以往項目評分的基礎上分析項目之間的相似性,項目間的相似性被用于為用戶產生推薦。亞馬遜網站是一個最成功的使用基于項目的協同過濾方法來為用戶產生推薦的電子商務網站。
2.3 混合推薦
以上兩種方法的有效性需要建立在用戶存在大量的歷史評分數據的基礎上,但實際上用戶的評分矩陣往往是一個稀疏矩陣,因此發現和用戶具有相似喜好的鄰居用戶是一項較為困難的工作。混合推薦方法可以克服CF和CBF方法的固有缺點,通過將基于內容的過濾和協同過濾方法相結合來提高推薦精度。該方法使用加權模型對協同過濾和基于內容的過濾方法的預測結果進行線性組合,從而提高推薦系統的推薦精度。
2.4 矩陣分解技術
矩陣分解技術(MF)是解決協同過濾問題常用的方法之一。該方法能夠發現隱藏在用戶和博文中的潛在特征向量,因此算法的有效性較高。矩陣分解的核心是將一個非常稀疏的評分矩陣分解為兩個矩陣,一個表示用戶的特性,一個表示項目的特性,將兩個矩陣中各取一行和一列向量做內積就可以得到對應的預測評分。最后根據得分進行排名,選取Top-N條博文推薦給目標用戶。
2.5 潛在狄利克雷分配模型
潛在狄利克雷分配模型(LDA)是一種無監督式的概率生成模型。該模型假設文檔信息來自于隱含主題的隨機選擇,因此可以借助學習方法對隱含主題的分布情況進行預測和把握。LDA模型被用于從大量的文檔集合中發現方法的主題集合,該模型是一個由文檔、主題、詞構成的三層貝葉斯概率模型。其主要思想是把每個主題都看作在單詞上的一個概率分布,每篇文章就可以看作所有主題的一個混合概率分布。在本文的工作中,我們利用LDA模型發現博文的主題分布,實現基于主題級的博文推薦。
本文提出了一種融合信任度和社會網絡關系的微博推薦機制。這種機制分別考慮了微博網絡信息的可信度和可靠性、社會親密和流行度等因素。
在本文提出的推薦機制中對某博文(或博主)的推薦得分代表了在社會交互中的信任度及博文內容的相似度。換句話說, 當目標博文(或博主)獲得的推薦得分越高,說明該博文(或博主)就具有更高的價值和效用推薦給請求者,并且他/她們之間具有更相似的興趣和偏好。
(1) 抓取微博信息。首先,我們以請求者的微博站點作為起點,根據每個微博中的友情鏈接,通過執行搜索算法來搜索可用的和網絡可達的博主或推薦人。在關系網絡中,這些博主通過朋友的關系層層相連。一旦目標對象被確定或指定,或者搜索層次達到最大值,推薦成員集合就被確定。然后,抓取推薦網絡中與每個博主有聯系的微博信息(如博文、超鏈接、評論信息等)。
(2) 構建微博網絡。為了實現和評估該模型,我們采用了文獻[11]中提出的代理和對象的概念來模擬一個基于信任的微博網絡。在這個微博網絡圖(圖1)中,m代理(博主)和n對象(微博文章)分別用節點和類似文檔的圖標來表示。在網絡中有關系的邊表示異構和多樣性的鏈接(顯式鏈接或隱式鏈接)。所構造成的微博網絡是通過請求者(圖1中的白色節點)形成并延伸出去,然后信任信息在代理層中進行傳播。最終代理層中的博主所發表或評論的博文構成了對象層的成員。在這個不完整的圖形中,對現有關系進行分類并為顯式鏈接和隱式鏈接作標注是識別潛在關系的第一步。在本文中,關系被分為以下三個方面。

圖1 微博網絡鏈接的定義和分類
3.1 博主—博主關系(A-A關系)
A-A關系包含兩種類型。第一種關系是朋友和朋友的關系,該關系是以博主在微博中的友情鏈接體現的。我們用A-A關系來度量某一博主的可信度和可靠性,即信任程度。
第二種關系是關于社會相似性水平,這個水平可以衡量代理之間社會親密程度和博主之間的共同交互力。在本節中,不僅是現實中的真實鏈接,社會行為的隱式相似關系也會被考慮進行,如共同鏈接、主題相似度、常見的超鏈接數、由同一作者在文章中的給出的相似標簽或評論的數量等。通過整合這些關系可以獲得一個社會相似性得分。
3.2 博主—博文關系(A-O關系)
在微博社會網絡環境中,很多有趣的交互發生在評論行為中,和其他交互方式相比,這是一種最互動的方式。這種A-O關系不僅表明了博主(評論者)對某一特定博文的興趣和社會親密度,還表明了博主的流行度。很顯然,當某個博文從其他博主那獲得的評論和引用(入度鏈接)越多,則該博文獲得的流行度得分就會越高。
3.3 博文—博文關系(O-O關系)
為了保證推薦系統的完整性, 模型中應該考慮用戶的引用行為,特別是博文之間的相似性。在推薦領域已經將文本間的相似性作為一個重要的指標。在微博推薦的環境下,博文之間的相似性同樣作為博文和微博推薦中的重要因素。本文提出的方法就將相似性的概念劃分為兩類: 社會親密度SI和流行度PO。
在微博中,通過其微博好友列表,即可確認其朋友關系。并且朋友的建立也相對容易,通過“添加好友”即可完成。但是通過觀察微博和微博中的朋友關系,發現大量朋友關系處于“沉寂”狀態,朋友之間很少或根本沒有互動。對于信息傳播、社區發現等研究來說,這類朋友關系沒有意義,因此需要提出合理的方法挖掘真實的朋友關系。在社會關系網絡中,人們總是對熟悉的人產生更大的信任度。在微博中,只有經常發生交互的朋友才是真正熟悉的朋友,熟悉的朋友所給出的推薦才更有價值;另外在熟悉性相同的朋友中,人們更傾向于選擇志同道合的人,也就是說人們會對具有和自己興趣相同的人產生更高的信任度。因此本文在計算信任度得分時會考慮兩個方面: 熟悉性產生的信任度及相似性產生的信任度。
4.1 熟悉性產生的信任度
一般將社會網絡抽象為一張有向帶權圖G=(V,E),V代表節點的集合,每個點表示個人或組織。E表示邊的集合,每條邊表示個體之間的交流關系(如評論、推薦、發消息等交互行為)。一般認為,兩個用戶之間的交互越多,說明這兩個用戶越熟悉,即由熟悉性產生的信任度會越高。用Fi,j表示用戶ui和用戶uj之間由熟悉性產生的信任度,其計算公式如式(1)所示。
(1)
其中,s(ui,uj) 表示用戶ui發送給用戶uj的博文集合;A(ui)表示被用戶ui采納的博文集合。
4.2 相似性產生的信任度
用戶之間由相似性產生的信任度可以通過選取用戶偏好作為度量標準,由于在社會網絡服務中的很多應用都有大量的用戶參與,從中可以方便地采集到用戶的興趣特征。因此可以通過這些興趣特征計算用戶之間的偏好相似程度,用戶之間的偏好相似度越高說明相互間的信任度越大。本文采用LDA方法[12]對博文內容進行基于主題分布的提取。從用戶的歷史行為記錄中,可以使用樸素偏好度量方法計算用戶u對博文a的偏好程度(記為pu(a)),其計算公式如式(2)所示。
(2)
其中,A(u,a)表示除了博文a以外被用戶u采納的博文集合;Ta表示博文a的主題分布。
每條微博通常涉及一個或多個主題,微博的這個特征正好和LDA主題模型相匹配,因此本文采用 LDA主題模型來推斷微博的主題分布。此外,一個用戶所發布的微博又能很好地反映用戶所關心的主題。因此,可以通過該用戶發布微博的主題分布推斷其興趣取向。
令C表示預先設定的T個主題集合,用C={C1,C2,…,CT}來表示。給定一條微博t,其主題分布定義如下:
定義1 主題分布: 令主題集合C={C1,C2,…,CT},t為一條微博,用p(Ci|t)表示該微博t屬于主題C的后驗概率,則由這T個后驗概率組成的向量[p(C1|t),p(C2|t,…,p(CT|t))],被稱為微博t的主題分布。
由定義可知該后驗概率越大,表明微博t屬于主題的可能性越高。若用戶發布了d條微博,則可表示為{t1,t2,…,td}。由于每條微博對應一個主題分布,該用戶的興趣取向定義如下:

由定義可知興趣取向中分量vi越大,表明用戶對主題Ci越感興趣。
在求得用戶偏好之后,可以利用用戶的個人偏好計算用戶之間喜好的相似度(記為Wi,j),如式(3)所示。
(3)
Wi,j取值越大,說明兩個博主的興趣愛好越相似。
4.3 社會親密度和流行度的計算
本節通過在微博網絡中分析每個博主的交互與共同特性等信息來計算其社會親密度和流行度(記為Bi,j)的評分。該項評分的計算分為兩部分: 社會親密度SI和流行度PO。其中SI強調的是博文之間的相似程度,然而,PO更強調的是博文的聲譽,計算公式如式(4)所示。
(4)
其中,Bi,j用來在微博網絡中計算某用戶與每個博主或博文的熟悉度得分;SI(i,j)和PO(oij)分別代表社會親密度和流行度得分。
SI(i,j)可以通過博文之間的主題分布來衡量其相似程度,計算公式如式(5)所示。
(5)
其中,T表示微博推薦服務的請求者 (源博主)向某特定博主推薦的博文的主題分布。
流行度PO用來測量在微博網絡中博主或博文的社會重要性。總共有三種方法適用于計算圖結構中的節點排名問題,即入度、HITS[13]和PageRank[14],為了便于計算,本文通過計算模型的入度(指向結點的鏈接數目)作為流行度PO的得分:
(6)
其中,Comment(oij)和Citation(oij)分別表示博主i發表博文j的評論數與引用數;maxComment(A)和maxCitation(A)分別表示在集合中最大的評論數和引用數。顯然,博主i的流行度得分PO(i)即i所發表的所有博文流行度評分總和。
本節將詳細介紹本文提出的綜合信任度與社會網絡關系的微博推薦模型。假設現有M個博主,其中第i個博主用ui來表示;有N篇博文,其中第j篇博文用pj來表示。
現定義采納矩陣R如下:
(7)
則微博推薦問題就轉換為對采納矩陣R中未知項的預測問題。
令U∈Rk×M表示潛在博主的特征矩陣,V∈Rk×N表示潛在博文矩陣。S∈RM×M表示交互影響矩陣,其中每一項Sij表示用戶ui對用戶uj的影響程度。如果用戶ui在用戶uj的朋友列表中,或者用戶ui被用戶uj跟隨,則Sij的取值為1,否則為0。G∈RN×M表示博文發送矩陣,若其值Gij=1,則表示用戶uj發送了博文pj,否則為0。基于以上表示,微博推薦問題就等價于尋找最佳的U,V,S使((SGT)?(UTV)) 能最佳的近似采納矩陣R,其中?表示阿達馬乘積。
通過已知的歷史數據,我們可以獲得博文信息、博主的個人偏好及用戶之間的交互影響等信息。利用公式(3)可以計算出用戶之間的偏好相似度矩陣W∈RM×M,利用式(4)可以計算出博文相似度矩陣B∈RN×N,利用式(1)可以計算出用戶交互矩陣F∈RM×M。為了使預測誤差達到最小,定義采納矩陣R的條件概率分布滿足式(8):
(8)
其中N(x|μ,σ2)表示參數x服從期望為μ、標準差為σ2的高斯分布。
由貝葉斯定理可知,在已知部分用戶的采納矩陣、博文發送矩陣、用戶相似度矩陣、博文相似度矩陣及用戶交互矩陣等信息的前提下,求解其分解得到的用戶、博文及交互影響特征矩陣U、V和S的后驗概率滿足公式(9),當該式取最大值時便可以得到最佳的U、V和S,使得微博預測評分與實際評分的誤差最小。



(9)
其中Ω表示均值為0的球形高斯先驗[15]。應用梯度下降法[16]進行模型的求解。該模型可以應用于真實的大數據環境中,下面通過實驗驗證其在微博推薦中的有效性。
本文提出了一個綜合信任度和社會網絡關系分析的推薦模型。該模型提出了在微博網絡中實現高質量推薦時所需要考慮的一些關鍵因素。在本節中,我們將提出的推薦模型應用到一個在臺灣著名的擁有百萬用戶的微博平臺Wretch( http://en.wikipedia.org)。然后,通過實驗來驗證本文提出的微博推薦機制的有效性和服務請求者對推薦列表的滿意度。
下面首先介紹下數據的收集過程。然后給出一些統計數據,如推薦網絡中博主的數量、每個博主擁有朋友的平均數量和每個博主的平均發貼數量。
6.1 數據集
實驗從臺灣社區網站Wretch中收集數據來驗證本文提出的推薦機制的有效性。這個社區網站,是臺灣最著名的微博社區,有數以百萬的用戶在線注冊,用戶可以上傳照片到相冊,可以寫微博,并且與他人進行互動。使用爬蟲程序在該網站上獲取每個微博的相關信息,包括博主賬戶、朋友關系、文章id、文章內容(博文)、引用、評論和發貼時間。實驗的詳細統計信息如表1所示。

表1 推薦網絡的統計數據
分析整個網絡數據發現,大約57.22%的博文是孤立的,并且沒有任何評論和引用,99%的博文擁有0~15個評論, 80%的博文擁有0~2個評論,57.4%的博文沒有任何評論。此外,99%的博文沒有任何引用。這也證實了前面所提到的微博圈的稀疏特性,因此在我們的方法中必須從多個維度出發提高推薦得分計算的合理性與全面性,這將會提高推薦機制的可靠性和精準度。
6.2 評估指標
在信息檢索及博文推薦領域中廣泛使用精確度(precision)、召回率(recall)和F1值作為評估指標來衡量預測結果的有效性。精確度表示在推薦的博文中用戶真正感興趣的比例,如公式(10)所示。召回率表示在用戶真正感興趣的博文中正確推薦的比例,如式(11)所示。
(10)
(11)
其中,Pr(L)表示推薦并被閱讀的博文總數;L表示推薦的博文總數;R(L)表示用戶閱讀的博文總數。
F1值是統計學中用來衡量二分類模型精確度的一種指標,它同時兼顧了推薦模型的準確率和召回率。F1值可以看作是模型精確度和召回率的一種加權平均,它被定義為精確度和召回率的調和平均數,如式(12)所示。
(12)
6.3 實驗對比方法
本次實驗設計了五種不同的推薦策略來驗證本文提出的推薦機制,具體包括: 基于內容的過濾、基于項目的協同過濾和基于用戶的協同推薦、矩陣分解技術和潛在狄利克雷分配模型。傳統的推薦方法主要以分析用戶模型(用戶發表的博文和被用戶轉發的博文)為主。本文提出的方法將社會網絡關系加入到推薦模型中,提高了傳統推薦模型的精確度。下面簡要給出實驗對比方法的介紹:
(1) 基于內容的過濾(CBF): 傳統的基于內容的推薦方法主要考慮推薦博文之間的內容相似度。
(2) 基于項目的協同過濾(ICF): 傳統的基于項目的推薦方法使用項目之間的相似度來預測目標用戶對博文的喜好度。
(3) 基于用戶的協同推薦(UCF): 該方法主要利用目標用戶的鄰居用戶(相似用戶)的喜好來預測該用戶的喜好。如果目標用戶u的大部分鄰居用戶Nbr(u)都在轉發某篇博文,則用戶u將會對該博文具有較高的喜好值。其計算方法如式(13)所示,用戶u與其鄰居用戶v之間的相似度通過Jaccard相似性系數進行度量。
(13)
其中,Ud表示在模型訓練階段推送博文d的用戶集合;Du和Dv分別表示由用戶u和v發表的博文集合。
(4) 矩陣分解技術(MF): 矩陣分解技術是將用戶和博文映射到一個聯合潛在特征空間中。其主要思路是把評分矩陣通過分解,用一個低秩的矩陣來逼近原來的評分矩陣,逼近的目標就是使預測誤差最小化。
(5) 潛在狄利克雷分配模型(LDA): LDA方法是一種文檔主題生成模型。所謂生成模型,就是說,我們認為一篇博文的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題與主題到詞均服從多項式分布。
6.4 實驗結果分析
圖2給出了應用不同推薦策略后在不同推薦的Top-N數量下推薦模型的F1值對比結果。實驗結果說明本文提出的方法在推薦性能上優于ICF、MF、UCF、LDA和CBF等傳統的推薦方法。并且由圖2可知,ICF和MF方法性能優于UCF、CBF和LDA方法。MF方法在推薦博文數在Top-5到Top-10之間的性能優于ICF方法,然而ICF方法在推薦博文數在Top-15到Top-30之間的性能優于MF方法。此外,LDA方法在大部情況下都優于CBF方法。本文提出的方法由于考慮了用戶之間的信任關系,以及基于主題級的相似度計算,優化了博文推薦模型,因此在推薦性能上明顯優于傳統的推薦方法。

圖2 推薦方法F1值對比結果
通過以上實驗驗證了本文所提的微博推薦算法較傳統推薦算法的優越性。下面將其與近年來在微博推薦領域的一些代表性研究成果在精確度和召回率指標上進行對比。實驗選取如下代表性成果: 2011年,夏培勇等人[17]在個性化推薦技術中的協同過濾算法研究中,采用Pearson相似度測量方法的推薦結果,召回率為26.87%,精確度為42.39%。2013年,慕福楠等人[18]在面向微博用戶的推薦多樣性研究中,基于用戶聚類進行協同過濾博文推薦,最終實驗得到的召回率為66.70%,精確度為80.00%。2013年,蔣超等人[19]基于用戶聚類和語義詞典進行協同過濾的博文推薦,最終推薦的平均召回率為31.70%,精確度為84.50%。2014年,He等人[20]提出了基于K-means文本聚類算法的個性化新浪博文及時推薦模型,最終推薦的平均召回率為76.73%,精確度為87.50%。而本文的推薦方法得到的平均召回率為79.83%,精確度為89.92%,實驗結果如表2所示。

表2 研究對比結果
微博是一類典型的社交網絡服務,它體現了當前社交網絡服務的海量性、實時性和個性化等特點。因此,在微博系統上提供個性化服務是一個非常有挑戰的任務。本文提出一個結合信任度、社會親密度和流行度等因素實現個性化的博文推薦機制,并且闡述了如何將推薦機制應用于在線微博系統——Wretch。實驗研究表明,本文提出的組合機制可以產生最高的推薦精度。在顯式和隱式鏈接都被考慮的微博社交網絡中,信任模型是用來測量目標的可信度和可靠性,社會關系用來顯示社會行為的親密性和相似性。最后,我們利用真實數據驗證實時個性化微博推薦方法的有效性和高效性。
[1] Busch M, Gade K, Larson B, et al. Earlybird: Real-Time Search at Twitter[J]. 2012, 41(4): 1360-1369.
[2] Chen C, Li F, Ooi B C, et al. TI: an efficient indexing mechanism for real-time search on tweets.[C]// Proceeding of ACM SIGMOD International Conference on Management of Data, SIGMOD 2011, Athens, Greece, June. 2011: 649-660.
[3] Gao M, Jin C, Qian W, et al. Real-Time Search over a Microblogging System[C]// Proceeding of International Conference on Cloud & Green Computing. 2012: 352-359.
[4] Liu K M, Chen W, Bu J J, et al. User Modeling for Recommendation in Blogspace[C]// Proceeding of Ieee/wic/acm International Conferences on Web Intelligence and Intelligent Agent Technology Workshops. IEEE, 2007: 79-82.
[5] Ray S K, Singh S. Blog content based recommendation framework using WordNet and multiple Ontologies[C]// Proceeding of International Conference on Next Generation Web Services Practices. 2010: 432-437.
[6] Liu D R, Tsai P Y, Chiu P H. Personalized recommendation of popular blog articles for mobile applications[J]. Information Sciences, 2011, 181(9): 1552-1572.
[7] 丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014, 51(4): 691-706.
[8] Deldjoo Y, Elahi M, Quadrana M, et al. Toward Effective Movie Recommendations Based on Mise-en-Scène Film Styles[C]// Proceedings of the Chitaly Bi Conference on Italian Sigchi Chapter. 2015: 162-165.
[9] Jonathan G, Thomas S, Maryam R, et al. Adapting K-Nearest Neighbor for Tag Recommendation in Folksonomies.[C]// Proceedings of the 7th Workshop on Zutelligent Techniques for Web Personalization & Recommeuder Systems (ITwp’09), California, USA, 2009.
[10] Shin D, Cetintas S, Lee K C, et al. Tumblr Blog Recommendation with Boosted Inductive Matrix Completion[C]// Proceeding of the 24th ACM International Conference on Informetion and Knowledge Managment (CIKM’15), 2015: 203-212.
[11] K. Fujimura, M. Sugisaki. TheeingenRumer algorithm for ranking blogs[C]//Proceeding of the WWW 2005 of the workshop on the weblogging. 2005: 331-342.
[12] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[13] J.M. Keinberg. Authoritative sources in hyperlinked environment[C]// Proceedings of the ninth annual ACM-SIAM symposium on discrete algorithms. 1999: 231-240.
[14] S.Brin, L.Page. The anatomy of a large-scale hypertextural web search engine[C]// Proceedings of seventh international World Wide Web conference,1998: 118-129.
[15] Ruslan Salakhutdinov, Andriy Mnih. Probabilistic Matrix Factorization[J]. Advances in Neural Information Processing Systems, 2007: 1257-1264.
[16] Xia J B. Template matching algorithm based on gradient search[C]// Proceedings of International Conference on Mechatronics and Control. IEEE, 2014: 1472-1475.
[17] 夏培勇.個性化推薦技術中的協同過濾算法研究[D].中國海洋大學博士學位論文,2011.
[18] 慕福楠.面向微博用戶的推薦多樣性研究[D].哈爾濱工業大學碩士學位論文,2013.
[19] 蔣超.基于用戶聚類和語義詞典的微博推薦系統[D].浙江大學碩士學位論文,2013.
[20] He Y, Tan J. Study on SINA micro-blog personalized recommendation based on semantic network[J]. Expert Systems with Applications, 2015, 42(10): 4797-4804.
Microblog Recommendation by Trust and Social Relationship
LI Hui1,2, MA Xiaoping2, SHI Jun1, ZHONG Zhaoman1, CAI Hong1,3
(1. Department of Computer Science, Huaihai Institute of Technology, Lianyungang, Jiangsu 222002, China;2. School of Information & Electrical Engineering, China University of Mining &Technology, Xuzhou, Jiangsu 221008, China;3. Jiangsu Marine Resources Development Research Institute, Lianyungang, Jiangsu 222002, China)
Due to the rapid growth of microblogs, bloggers are facing difficulties in locating the microblogs they are interested. To deal with this information overload, various approaches including messages filtering, recommendation and searching have been investigated. Focusing on recommending bloggers or microblog posts by the trust model and the social relationship, this paper applies LDA topic model and Matrix Factorization to infer the topic distribution of microblogs and the user interest. According to the experimental results, the proposed method can effectively solve the personalized recommendation of microblog.
trust; social networks; matrix factorization; blog; LDA

李慧(1979—),博士研究生,副教授,主要研究領域為智能信息處理,社會網絡分析,計算機技術及應用。E?mail:shufanzs@126.com馬小平(1961—),教授,博士,主要研究領域為控制理論及應用,計算機技術及應用。E?mail:xpma@cumt.edu.cn施珺(1963—),教授,碩士,主要研究領域為教育信息化,智能信息處理。E?mail:sj_lfg@hotmail.com
2014-12-15 定稿日期: 2015-09-12
國家自然科學基金(61403156,61403155);江蘇省科技項目(BN2016065);江蘇省海資院開放課題(JSIMR201403);連云港市科技計劃項目(SH1507,CXY1530,CK1503,NYYQ1620);淮海工學院自然科學基金資助(Z2014007,Z2014012)
1003-0077(2017)02-0146-08
TP391
A