999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博用戶(hù)推薦模型的研究

2015-10-14 07:07:12徐雅斌石偉杰
關(guān)鍵詞:特征用戶(hù)方法

徐雅斌,石偉杰

?

微博用戶(hù)推薦模型的研究

徐雅斌,石偉杰

(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院 北京朝陽(yáng)區(qū) 100101;北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室 北京朝陽(yáng)區(qū) 100101)

微博用戶(hù)推薦對(duì)改善用戶(hù)體驗(yàn)、促進(jìn)社交網(wǎng)絡(luò)長(zhǎng)遠(yuǎn)發(fā)展具有重要意義。該文提取了能夠充分反映微博用戶(hù)之間相關(guān)性的多個(gè)特征,并通過(guò)邏輯回歸模型對(duì)潛在的用戶(hù)進(jìn)行評(píng)分排序,為目標(biāo)用戶(hù)推薦前個(gè)潛在用戶(hù)。基于新浪微博數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,基于邏輯回歸方法的用戶(hù)推薦模型是切實(shí)有效的,可以為微博用戶(hù)提供高性能的個(gè)性化用戶(hù)推薦。

邏輯回歸; 微博; 個(gè)性化推薦; 用戶(hù)推薦

微博作為社交網(wǎng)絡(luò)的一種表現(xiàn)形式,是新一代社交、實(shí)時(shí)網(wǎng)絡(luò)服務(wù)的典范,以其新穎的表現(xiàn)形式、獨(dú)特的運(yùn)營(yíng)方式,快速吸引了大量的用戶(hù)。在微博平臺(tái)上,用戶(hù)可以通過(guò)關(guān)注同學(xué)、朋友等組成自己的社交圈,也可以通過(guò)關(guān)注其他用戶(hù)來(lái)豐富自己的社交圈,這就為社交網(wǎng)絡(luò)的推薦服務(wù)提供了豐富的土壤。

用戶(hù)推薦服務(wù)可以快速有效地幫助用戶(hù)擴(kuò)大社交范圍,因而成為社交網(wǎng)絡(luò)的一個(gè)研究熱點(diǎn),個(gè)性化推薦服務(wù)更是成為社交網(wǎng)絡(luò)應(yīng)用的發(fā)展方向。為微博用戶(hù)提供個(gè)性化用戶(hù)推薦服務(wù)對(duì)發(fā)展用戶(hù)社交圈,加強(qiáng)用戶(hù)間的社交聯(lián)系,完善社交網(wǎng)絡(luò)生態(tài)系統(tǒng)具有重要意義,蘊(yùn)含著巨大的商業(yè)價(jià)值。因此,研究個(gè)性化微博用戶(hù)推薦具有重要的現(xiàn)實(shí)意義。

1 相關(guān)工作

微博社交網(wǎng)絡(luò)擁有數(shù)以?xún)|計(jì)的用戶(hù),其中的每個(gè)用戶(hù)都可能有自己的興趣點(diǎn)和特性,如何高效地為特定用戶(hù)從海量用戶(hù)中選擇出其感興趣的用戶(hù),已成為當(dāng)下社交網(wǎng)絡(luò)研究領(lǐng)域的熱點(diǎn)。

文獻(xiàn)[1]進(jìn)行的一個(gè)擴(kuò)展分析證明:在社交網(wǎng)絡(luò)的歷史數(shù)據(jù)是可以獲取的情況下,使用基于內(nèi)容的方法進(jìn)行用戶(hù)推薦是有效的。但單純使用基于內(nèi)容的方法較為片面,不能完整的表現(xiàn)用戶(hù)推薦行為。文獻(xiàn)[2]綜合考慮了用戶(hù)興趣和用戶(hù)社交網(wǎng)絡(luò)方法,并將它們合并到一個(gè)基于PageRank算法的混合模型,通過(guò)實(shí)驗(yàn)證明了該混合模型的有效性。但該模型未考慮到用戶(hù)個(gè)人信息、標(biāo)簽等相關(guān)信息,達(dá)不到個(gè)性化用戶(hù)推薦的要求。文獻(xiàn)[3]和文獻(xiàn)[4]展示了社交網(wǎng)絡(luò)中兩種基于標(biāo)簽進(jìn)行用戶(hù)推薦的方法,并通過(guò)實(shí)驗(yàn)證明,基于標(biāo)簽進(jìn)行用戶(hù)推薦是有效的。文獻(xiàn)[5]采用基于內(nèi)容的相似和協(xié)同過(guò)濾方法來(lái)推薦twitter用戶(hù),取得了一定的推薦效果,但該方法未能充分考慮其他用戶(hù)信息,個(gè)性化推薦效果不理想。文獻(xiàn)[6]使用LDA(latent dirichlet allocation)模型對(duì)twitter文本進(jìn)行主題建模,并與傳統(tǒng)的向量空間模型方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)LDA的效果優(yōu)于向量空間模型。文獻(xiàn)[7]根據(jù)關(guān)聯(lián)規(guī)則算法得到用戶(hù)間的共同好友關(guān)系進(jìn)行Top-用戶(hù)選取,再對(duì)選取出來(lái)的Top-用戶(hù)進(jìn)行標(biāo)簽協(xié)同過(guò)濾,從而得到推薦用戶(hù)列表。但該方法忽略了用戶(hù)內(nèi)容、用戶(hù)個(gè)人信息等相關(guān)要素,仍不能滿(mǎn)足個(gè)性化微博用戶(hù)推薦的要求。

總而言之,現(xiàn)有的方法在進(jìn)行微博用戶(hù)推薦時(shí)使用的方法單一,性能不足;雖然有些方法使用混合模型綜合了幾種不同的推薦方法,取得了一定的推薦效果,但采用的信息不夠全面,沒(méi)有貼切地考慮與微博用戶(hù)密切相關(guān)的其他信息;同時(shí)其使用的混合模型在多參數(shù)時(shí)常需使用經(jīng)驗(yàn)方法進(jìn)行參數(shù)調(diào)節(jié),不能獲得理想的推薦結(jié)果。針對(duì)這些情況,本文從微博實(shí)際出發(fā),綜合考慮了基于內(nèi)容、標(biāo)簽、社交圈的推薦方法和用戶(hù)個(gè)人信息特征,并使用邏輯回歸模型將以上幾種方法有機(jī)融合到一起。邏輯回歸模型通過(guò)挖掘用戶(hù)信息中內(nèi)在支配推薦排序的信息,很好地解決了使用經(jīng)驗(yàn)調(diào)節(jié)參數(shù)的問(wèn)題。

2 微博用戶(hù)的特征提取與推薦模型

2.1 基于內(nèi)容的用戶(hù)推薦(UC)

內(nèi)容中往往包含用戶(hù)興趣,而興趣的相似性加大了用戶(hù)成為好友的可能性。在微博研究領(lǐng)域,“內(nèi)容”一般指的是用戶(hù)微博,包括用戶(hù)發(fā)布、評(píng)論、轉(zhuǎn)發(fā)的內(nèi)容。

然而現(xiàn)有的基于內(nèi)容的方法在進(jìn)行微博用戶(hù)推薦時(shí),只考慮了用戶(hù)自身的微博,忽略了與用戶(hù)有關(guān)聯(lián)的其他用戶(hù)的微博。研究表明,關(guān)注用戶(hù)的微博中包含了用戶(hù)的某些興趣[8]。針對(duì)以上問(wèn)題,本文統(tǒng)一將用戶(hù)與其關(guān)注用戶(hù)的微博作為微博內(nèi)容,以改善其性能。

本文使用潛在狄利克雷主題模型[9](LDA)獲取用戶(hù)微博的主題分布,并計(jì)算用戶(hù)間微博主題的相似度。LDA是一種文檔主題生成模型,是一種非監(jiān)督學(xué)習(xí)技術(shù),其原理如圖1所示。

將每個(gè)用戶(hù)及其關(guān)注用戶(hù)的微博作為輸入文檔,所有用戶(hù)及其關(guān)注用戶(hù)的微博作為文檔集合(?)。表示狄利克雷先驗(yàn)參數(shù);β表示詞匯的主題分布;θ為文檔的主題概率θ表示文檔中第個(gè)主題的主題概率;Z表示文檔的主題分配,Z,n表示文檔中第個(gè)單詞的主題分配;W為文檔中觀(guān)察到的單詞,W,n表示文檔中的第個(gè)單詞。

圖1 LDA模型

對(duì)于文檔集中的每篇文檔,LDA定義了如下的生成過(guò)程:1) 對(duì)于每一篇文檔,從主題分布中抽取一個(gè)主題;2) 從上述被抽到的主題所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;3) 重復(fù)上述過(guò)程直至遍歷文檔中的每一個(gè)單詞。

進(jìn)行用戶(hù)推薦需計(jì)算用戶(hù)及其關(guān)注用戶(hù)和用戶(hù)及其關(guān)注用戶(hù)微博內(nèi)容間的相似度SimUC(,),取最高的前個(gè)用戶(hù)作為推薦對(duì)象。將用戶(hù)及其關(guān)注用戶(hù)的微博和用戶(hù)及其關(guān)注用戶(hù)的微博分別記為文檔dd。LDA主題個(gè)數(shù)參數(shù)統(tǒng)一取為20,迭代次數(shù)參數(shù)統(tǒng)一取為150,并在統(tǒng)一的LDA計(jì)算過(guò)程中得到主題分布向量和。本文采用余弦相似度表征主題分布向量和間的相似度,其計(jì)算方法為:

式中,uv分別表示向量和的元素。

2.2 基于標(biāo)簽的用戶(hù)推薦(UT)

標(biāo)簽是一組關(guān)鍵字,是用戶(hù)對(duì)自己既客觀(guān)又主觀(guān)的精簡(jiǎn)描述,直接反映了用戶(hù)的興趣,又具有個(gè)性化的特點(diǎn)。對(duì)于用戶(hù)和用戶(hù),相同或相似的標(biāo)簽越多,表明他們?cè)较嗨啤?/p>

因?yàn)闃?biāo)簽是一組關(guān)鍵字,故需要對(duì)用戶(hù)間的標(biāo)簽進(jìn)行同義詞判斷,本文利用《知網(wǎng)》進(jìn)行標(biāo)簽同義詞判斷。標(biāo)簽同義詞判斷需計(jì)算標(biāo)簽1、2間的相似度sim(1,2);當(dāng)相似度sim(1,2)大于閾值δ時(shí),則認(rèn)為標(biāo)簽12為同義詞。本文使用文獻(xiàn)[10]的方法計(jì)算標(biāo)簽間的相似度。標(biāo)簽關(guān)鍵字為實(shí)詞,一個(gè)實(shí)詞概念的語(yǔ)義表達(dá)式分為第一基本義原描述式、其他基本義原描述式、關(guān)系義原描述式、符號(hào)義原描述式4個(gè)部分,故兩個(gè)實(shí)詞間相似度是這4個(gè)義原相似度sim1、sim2、sim3、sim4的加權(quán)和,其計(jì)算方法為:

計(jì)算出詞語(yǔ)間相似度后,便可以得到判斷標(biāo)簽是否為同義詞的方法為:

(3)

使用標(biāo)簽特征計(jì)算用戶(hù)與用戶(hù)之間相似性的計(jì)算方法為:

式中,R表示用戶(hù)的標(biāo)簽集;R表示用戶(hù)的標(biāo)簽集。表示用戶(hù)和用戶(hù)相同或相似的標(biāo)簽數(shù)量;表示用戶(hù)和用戶(hù)的標(biāo)簽數(shù)量和。

2.3 基于社交圈的用戶(hù)推薦(USN)

對(duì)于用戶(hù)來(lái)說(shuō),社交圈的成員包括用戶(hù)的粉絲以及用戶(hù)的關(guān)注用戶(hù)。粉絲是關(guān)注了用戶(hù)的人群,反映了用戶(hù)的影響力;關(guān)注用戶(hù)是用戶(hù)關(guān)注的人群,表征了用戶(hù)的偏好傾向。社交網(wǎng)絡(luò)本質(zhì)上描述的是用戶(hù)間的關(guān)系,共同的粉絲或關(guān)注用戶(hù)正是用戶(hù)間關(guān)系的體現(xiàn)。因此,對(duì)于兩個(gè)微博用戶(hù)來(lái)說(shuō)(向目標(biāo)用戶(hù)推薦用戶(hù)),社交圈的相似程度也是影響推薦的一個(gè)重要因素。用戶(hù)社交圈的相似性由用戶(hù)粉絲和關(guān)注用戶(hù)兩個(gè)方面決定。

2.3.1 用戶(hù)粉絲(Follower)

將用戶(hù)的粉絲集記為Follower()=,,用戶(hù)的粉絲集記為Follower()=。用戶(hù)與用戶(hù)的共同粉絲越多,用戶(hù)間的相似性越高。

定義1 用戶(hù)粉絲貢獻(xiàn)度為:

2.3.2 關(guān)注用戶(hù)(Following)

將用戶(hù)的關(guān)注用戶(hù)集記為Follower()=,,用戶(hù)的關(guān)注用戶(hù)集記為Following()=。用戶(hù)與用戶(hù)的共同關(guān)注用戶(hù)越多,用戶(hù)間越相似。

定義2 關(guān)注用戶(hù)貢獻(xiàn)度為:

2.3.3 用戶(hù)社交圈相似性(SimUSN(,))

根據(jù)Stren_er(,)和 Stren_ing(,),可得到用戶(hù)社交圈相似性SimUSN(,)的計(jì)算方法。

定義3 用戶(hù)社交圈的相似性為:

式中,為相似權(quán)重,用來(lái)平衡用戶(hù)粉絲和關(guān)注用戶(hù)的相似度。在本文中,作簡(jiǎn)化處理,取=0.5。

2.4 基于用戶(hù)個(gè)人信息特征(PI)的推薦

用戶(hù)個(gè)人信息是表征用戶(hù)的一組屬性,是用戶(hù)最為直觀(guān)的反映,可以明顯區(qū)分用戶(hù)間的異同。用戶(hù)個(gè)人信息包括年齡、地區(qū)、性別等。現(xiàn)有的方法在使用用戶(hù)個(gè)人信息特征時(shí),并未考慮到用戶(hù)地區(qū)對(duì)推薦的影響,實(shí)際上,微博社交網(wǎng)絡(luò)匯聚了大量來(lái)自不同地區(qū)的用戶(hù),同一地區(qū)或家鄉(xiāng)相同的用戶(hù)由于地理位置上的靠近或天然存在的親近感,使得用戶(hù)往往對(duì)與自己處于同一地區(qū)或家鄉(xiāng)相同的用戶(hù)感興趣,故本文選取用戶(hù)地區(qū)作為用戶(hù)的一個(gè)屬性。對(duì)于性別,異性用戶(hù)間往往更容易互相吸引,微博用戶(hù)也是如此,所以本文將性別也作為用戶(hù)的一個(gè)屬性。

2.4.1 用戶(hù)地區(qū)(UD)

本文建立了一個(gè)行政地域數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)包含全國(guó)各省份名稱(chēng)及其所轄的地市名稱(chēng)。對(duì)于向目標(biāo)用戶(hù)推薦用戶(hù),計(jì)算用戶(hù)地區(qū)相似度的步驟如下:

1) 根據(jù)數(shù)據(jù)庫(kù)對(duì)用戶(hù)地區(qū)進(jìn)行過(guò)濾,只保留省級(jí)或地市級(jí)地區(qū);

2) 查找數(shù)據(jù)庫(kù),判斷用戶(hù)的地區(qū)UD與用戶(hù)的地區(qū)UD是否為同一省份。若不同,則simUD(,)=0;若相同,進(jìn)行下一步;

3) 查詢(xún)數(shù)據(jù)庫(kù)用戶(hù)地區(qū)是否為同一地市。若是,則simUD(,)=1;否則,simUD(,)=0.5。

2.4.2 用戶(hù)性別(US)

對(duì)于目標(biāo)用戶(hù),若用戶(hù)為異性,用戶(hù)為同性,則同等條件下用戶(hù)往往更偏向于接受用戶(hù),故本文將用戶(hù)性別作為用戶(hù)的一個(gè)特征。用戶(hù)性別US可表示為:

對(duì)于目標(biāo)用戶(hù)和待推薦用戶(hù),用戶(hù)在性別維度上的相似度simUS(,)可表示為:

(9)

2.4.3 用戶(hù)個(gè)人信息相似度(PI)

由simUD(,)和simUS(,),可得到用戶(hù)個(gè)人信息相似度SimPI(,)。

定義4 用戶(hù)個(gè)人信息相似為:

式中,為權(quán)重因子,由于simUD(,)和simUS(,)對(duì)用戶(hù)個(gè)人信息相似度SimPI(,)都是正相關(guān),故本文取=0.5。

3 基于邏輯回歸的融合推薦模型

根據(jù)不同方法或特征進(jìn)行用戶(hù)推薦產(chǎn)生的排名不同,如何將這些方法或特征進(jìn)行有效融合是準(zhǔn)確和有效推薦微博用戶(hù)的關(guān)鍵。邏輯回歸(logistic regression)模型是一種多元統(tǒng)計(jì)方法,和支持向量機(jī)(SVM)一樣,是一種判別學(xué)習(xí)模型,具有良好的性能,但邏輯回歸模型的時(shí)間復(fù)雜度和空間復(fù)雜度都低于支持向量機(jī)。更重要的是,邏輯回歸模型可用于概率預(yù)測(cè),將用戶(hù)推薦轉(zhuǎn)化為對(duì)一個(gè)特征向量進(jìn)行概率預(yù)測(cè)過(guò)程。通過(guò)挖掘用戶(hù)信息中內(nèi)在支配推薦排序的信息,很好的解決了使用經(jīng)驗(yàn)調(diào)節(jié)參數(shù)的問(wèn)題,可以很容易地調(diào)整模型的參數(shù),使模型能夠適應(yīng)所應(yīng)用的環(huán)境。故本文采用邏輯回歸模型進(jìn)行微博用戶(hù)推薦。

推薦過(guò)程(向用戶(hù)推薦用戶(hù))中,邏輯回歸模型會(huì)基于與用戶(hù)和用戶(hù)都相關(guān)的特征向量,得到用戶(hù)關(guān)注用戶(hù)的概率(),最后基于概率產(chǎn)生一個(gè)最終的推薦用戶(hù)列表。邏輯回歸模型為:

式中,表示與用戶(hù)和用戶(hù)都相關(guān)的特征向量,由歸一化處理后的各種用戶(hù)推薦方法的推薦得分(用戶(hù)間相似度)和用戶(hù)特征相似度組成,即基于內(nèi)容的推薦方法的推薦得分、基于用戶(hù)標(biāo)簽的推薦方法的推薦得分、基于用戶(hù)社交圈推薦方法的推薦得分和用戶(hù)個(gè)人信息特征相似度;表示特征向量權(quán)重,可通過(guò)訓(xùn)練集對(duì)邏輯回歸模型進(jìn)行訓(xùn)練得到。

取用戶(hù)及其已關(guān)注用戶(hù)v的數(shù)據(jù)作訓(xùn)練集,其中表示用戶(hù)的關(guān)注用戶(hù)數(shù),v表示用戶(hù)的第個(gè)關(guān)注用戶(hù)。表示與用戶(hù)和用戶(hù)v相關(guān)的特征向量。

特征向量由以下特征或它們的子集組成:1) 基于用戶(hù)及其關(guān)注用戶(hù)的微博內(nèi)容推薦方法計(jì)算得到的用戶(hù)和用戶(hù)v之間的相似得分;2) 基于用戶(hù)標(biāo)簽推薦方法計(jì)算得到的用戶(hù)和用戶(hù)v之間的相似得分;3) 基于用戶(hù)社交網(wǎng)絡(luò)推薦方法計(jì)算得到的用戶(hù)和用戶(hù)v之間的相似得分;4) 基于用戶(hù)個(gè)人信息特征計(jì)算得到的用戶(hù)和用戶(hù)v之間的相似度。

其中,特征1)~特征3)是由3種用戶(hù)推薦方法計(jì)算得到的,特征4)是用戶(hù)自身的特征。由于各個(gè)特征值范圍不一,故需要對(duì)這4個(gè)特征進(jìn)行歸一化處理。

使用訓(xùn)練數(shù)據(jù)集對(duì)邏輯回歸模型進(jìn)行訓(xùn)練,得到可使用的推薦模型。測(cè)試數(shù)據(jù)集類(lèi)型與訓(xùn)練數(shù)據(jù)集類(lèi)型相同,即具有相同用戶(hù)特征。對(duì)于目標(biāo)用戶(hù),根據(jù)推薦模型即可計(jì)算出待推薦用戶(hù)的推薦得分,按降序排列生成Top-推薦列表。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)集

數(shù)據(jù)集中每個(gè)用戶(hù)的微博信息應(yīng)包括用戶(hù)及其關(guān)注用戶(hù)的微博、用戶(hù)標(biāo)簽、用戶(hù)社交圈、用戶(hù)個(gè)人信息(地區(qū)、性別)。同時(shí)為方便進(jìn)行實(shí)驗(yàn),本文要求數(shù)據(jù)集選取的每個(gè)用戶(hù)的關(guān)注數(shù)不少于15,粉絲數(shù)不大于2 000,且用戶(hù)微博數(shù)不少于20。

本文依照數(shù)據(jù)集的要求,使用python語(yǔ)言編寫(xiě)爬蟲(chóng)程序,從新浪微博爬取了387個(gè)用戶(hù)及其關(guān)注用戶(hù)的微博信息,同時(shí)爬取了其他4 152個(gè)用戶(hù)及其關(guān)注用戶(hù)的微博信息。將爬取的387個(gè)用戶(hù)作為目標(biāo)用戶(hù),并將這387個(gè)目標(biāo)用戶(hù)的關(guān)注用戶(hù)以及其他1 152個(gè)用戶(hù)作為待推薦用戶(hù)。

將爬取的微博用戶(hù)數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集由287個(gè)目標(biāo)用戶(hù)及其關(guān)注用戶(hù)的微博信息組成,測(cè)試數(shù)據(jù)集由剩余的100個(gè)目標(biāo)用戶(hù)及其部分關(guān)注用戶(hù)的微博信息和其他4 000個(gè)待推薦用戶(hù)及其關(guān)注用戶(hù)的微博信息組成。對(duì)于測(cè)試集中的每個(gè)目標(biāo)用戶(hù),隨機(jī)選取其40個(gè)待推薦用戶(hù)并隱藏其10個(gè)關(guān)注用戶(hù)(共50個(gè)用戶(hù))作為測(cè)試集。模型訓(xùn)練結(jié)束后,對(duì)測(cè)試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),得到按降序排列的Top-推薦結(jié)果。推薦過(guò)程如圖2所示。

圖2 用戶(hù)推薦過(guò)程

4.2 評(píng)價(jià)指標(biāo)

根據(jù)微博實(shí)際,用戶(hù)往往更關(guān)注排名靠前的用戶(hù),故研究高排名的用戶(hù)推薦性能具有重要意義。本文重點(diǎn)測(cè)試Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下本文微博用戶(hù)推薦模型的性能。

Top-推薦列表中包含隱藏關(guān)注用戶(hù)的個(gè)數(shù)是評(píng)價(jià)用戶(hù)推薦方法有效性的重要指標(biāo)[11]。本文使用查準(zhǔn)率(Precision)、召回率(Recall)兩個(gè)指標(biāo)進(jìn)行推薦方法的評(píng)價(jià),有:

(13)

4.3 結(jié)果與分析

基于測(cè)試數(shù)據(jù)集,本文首先進(jìn)行了基于用戶(hù)自身微博進(jìn)行推薦和基于用戶(hù)及其關(guān)注用戶(hù)微博進(jìn)行推薦的實(shí)驗(yàn),并進(jìn)行了對(duì)比分析。本文分別取Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下的實(shí)驗(yàn)結(jié)果,即推薦結(jié)果的前1個(gè)、前3個(gè)、前5個(gè)、前6個(gè)、前8個(gè)、前10個(gè)用戶(hù)中,隱藏的關(guān)注用戶(hù)占推薦結(jié)果的平均比例。實(shí)驗(yàn)結(jié)果如圖3和圖4所示。

在實(shí)驗(yàn)結(jié)果圖3a、3b中,UC-1為基于用戶(hù)自身微博內(nèi)容推薦方法的推薦效果,UC-2為基于用戶(hù)及其關(guān)注用戶(hù)微博推薦方法的推薦效果。可以看出UC-2比UC-1在推薦效果上有了較大提高。這是由于UC-1忽略了關(guān)注用戶(hù)對(duì)微博用戶(hù)的潛在影響,進(jìn)而忽略了關(guān)注用戶(hù)微博中包含的有用信息,同時(shí)用戶(hù)自身微博數(shù)據(jù)也不充足;UC-2綜合利用用戶(hù)及其關(guān)注用戶(hù)微博進(jìn)行推薦,在一定程度上也緩解了微博數(shù)據(jù)量不足的情況,這使得UC-2的推薦效果優(yōu)于UC-1。

為驗(yàn)證文本方法(LR)的準(zhǔn)確性和有效性,實(shí)驗(yàn)對(duì)基于協(xié)同過(guò)濾的用戶(hù)推薦方法(BPR)、基于興趣和社交網(wǎng)絡(luò)的用戶(hù)推薦方法(BIS)在本文數(shù)據(jù)集上推薦結(jié)果的準(zhǔn)確率(Precision)和召回率(Recall)兩個(gè)指標(biāo)進(jìn)行對(duì)比,從而進(jìn)行用戶(hù)推薦效果的比較。分別取Top-1、Top-3、Top-5、Top-6、Top-8、Top-10六種情況下的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖4所示。

a. 兩種方法的準(zhǔn)確率

b. 兩種方法的召回率

圖3 UC-1和UC-2推薦效果比較

由實(shí)驗(yàn)結(jié)果可以看出:1) LR方法的整體準(zhǔn)確率和召回率均優(yōu)于BIS和BPR方法。2)取值在1~6之間時(shí),在保證召回率不低于BIS和BPR方法的基礎(chǔ)上,本文提出的LR方法的準(zhǔn)確率明顯優(yōu)于BIS和BPR方法;當(dāng)值繼續(xù)增大時(shí),3種方法性能趨于平穩(wěn)。而用戶(hù)推薦關(guān)注的是排名靠前用戶(hù)的推薦效果,推薦準(zhǔn)確率越高,效果越好。這說(shuō)明本文LR方法的推薦效果明顯優(yōu)于BIS和BPR方法。

a. 三種方法的準(zhǔn)確率

b. 三種方法的召回率

圖4 BPR、BIS和LR的推薦效果比較

BPR方法雖然考慮了用戶(hù)多個(gè)特征間的相似性,并取得了一定的推薦效果,但由于該方法存在一定的數(shù)據(jù)稀疏性,使得靠前排名的推薦并不理想;BIS方法從用戶(hù)興趣和社交網(wǎng)絡(luò)兩個(gè)方面出發(fā),統(tǒng)籌考慮用戶(hù)興趣相似性和社交關(guān)系相似性,取得了較好的推薦效果,但其考慮的用戶(hù)信息仍不夠全面,同時(shí)BIS靠經(jīng)驗(yàn)調(diào)節(jié)相關(guān)參數(shù)存在一定誤差,故性能有待進(jìn)一步提高;LR方法更全面的從用戶(hù)興趣、社交圈、個(gè)人信息多個(gè)角度出發(fā),使得數(shù)據(jù)信息較為充分,并通過(guò)充分挖掘用戶(hù)信息中內(nèi)在支配推薦排序信息的邏輯回歸模型,綜合利用這些特征進(jìn)行微博用戶(hù)推薦,使得采用LR方法進(jìn)行微博用戶(hù)推薦的效果有較大提高。

5 結(jié)束語(yǔ)

本文基于新浪微博進(jìn)行個(gè)性化用戶(hù)推薦研究。針對(duì)微博用戶(hù)的實(shí)際特點(diǎn),深入挖掘并廣為利用能夠反映微博用戶(hù)興趣的特征,并對(duì)相關(guān)方法進(jìn)行了效果對(duì)比實(shí)驗(yàn),最后采用邏輯回歸方法將多種用戶(hù)方法和特征融合到一起,進(jìn)行個(gè)性化用戶(hù)推薦。通過(guò)對(duì)爬取的新浪微博數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)綜合考慮用戶(hù)及其關(guān)注用戶(hù)的基于內(nèi)容推薦方法要好于原方法,取得了較好的推薦效果;本文提出的邏輯回歸模型融合多方法和特征的推薦效果優(yōu)于現(xiàn)在的推薦方法,并取得了很好的推薦效果,從而證明了該方法的有效性。

[1] CHEN J, GEYER W, DUGAN C, et al. Make new friends, but keep the old: Recommending people on social networking sites[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York: ACM, 2009: 201-210.

[2] SHANG Y, ZHANG P, CAO Y. A new interest-sensitive and network-sensitive method for user recommendation [C]//2013 IEEE Eighth International Conference on Networking, Architecture and Storage (NAS). Washington: IEEE Computer Society, 2013: 242-246.

[3] YAN Z, ZHOU J. User recommendation with tensor factorization in social networks[C]//2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Washington: IEEE Computer Society, 2012: 3853-3856.

[4] GUY I, ZWERDLING N, RONEN I, et al. Social media recommendation based on people and tags[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2010: 194-201.

[5] HANNON J, BENNETT M, SMYTH B. Recommending twitter users to follow using content and collaborative filtering approaches[C]//Proceedings of the ACM Conference on Recommender Systems. New York: ACM, 2010: 199-206.

[6] PENNACCHIOTTI M, GURUMURTHY S. Investigating topic models for social media user recommendation[C]//Proceedings of the 20th International World Wide Web Conferences. New York: ACM, 2011: 101-102.

[7] 胡大偉. 基于標(biāo)簽協(xié)同過(guò)濾算法在微博推薦中的研究[D]. 包頭: 內(nèi)蒙古科技大學(xué), 2012.

HU Da-wei. Tag-based collaborative filtering algorithm microblog recommended[D]. Baotou: Inner Mongolia University of Science and Technology, 2012.

[8] 孫威. 微博用戶(hù)興趣挖掘與建模研究[D]. 大連: 大連理工大學(xué), 2012.

SUN Wei. Interest mining and modeling for Micro-bloggers of Micro-blog[D]. Dalian: Dalian University of Technology, 2012.

[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research 2003, 3: 993-1022.

[11] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.

LIU Qun, LI Su-jian. Word similarity computing based on how-net[J]. Computational Linguistics & Chinese Language Processing, 2002, 7(2): 59-76.

[12] GOLBECK J, HENDLER J, et al. Film trust: Movie recommendations using trust in Web-based social networks[C]//CCNC’06: Proceedings of the third Consumer Communications and Networking Conference. Washington: IEEE, 2006: 282-286.

編 輯 蔣 曉

Research on Micro-Blog User Recommendation Model

XU Ya-bin and SHI Wei-jie

(Computer School of Beijing Information Science &Technology University Chaoyang Beijing 100101; Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science &Technology University Chaoyang Beijing 100101)

Micro-blog user recommendation has great significance and value for improving the user experience and promoting the long-term development of the social network. In this paper, multiple features reflecting the correlation between micro-blog users are extracted. Combining the user features and ranks scores for potential users, top-potential users are recommended for the target user. The experimental results based on the dataset gained from Sina Micro-Blog shows that the proposed method is feasible and effective, and it can provide personalized user recommendation with high performance for micro-blog users.

logic regression; micro-blog; personalized recommendation; user recommendation

TP301

A

10.3969/j.issn.1001-0548.2015.02.016

2014-10-22;

2015-02-06

國(guó)家自然科學(xué)基金(61370139);網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(ICDD201309);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃(IDHT20130519)

徐雅斌(1964-),男,教授,主要從事社交網(wǎng)絡(luò)、云計(jì)算和未來(lái)網(wǎng)絡(luò)方面的研究.

猜你喜歡
特征用戶(hù)方法
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀(guān)察
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
如何獲取一億海外用戶(hù)
主站蜘蛛池模板: 国产h视频在线观看视频| 国产精品亚洲专区一区| 国产女人在线视频| 国产人免费人成免费视频| 亚洲欧美日韩另类| 国产激情在线视频| 亚卅精品无码久久毛片乌克兰 | 国产91麻豆视频| 亚洲国产精品一区二区高清无码久久| 日韩大乳视频中文字幕| 91香蕉视频下载网站| 国产三级国产精品国产普男人| 日韩欧美在线观看| www.狠狠| 日韩区欧美区| 欧美综合中文字幕久久| 精品第一国产综合精品Aⅴ| 久久窝窝国产精品午夜看片| 亚洲无码37.| 亚洲狠狠婷婷综合久久久久| 最新无码专区超级碰碰碰| 无码免费的亚洲视频| 日韩无码视频专区| 亚洲愉拍一区二区精品| 成人中文字幕在线| 特级做a爰片毛片免费69| 国产精品国产三级国产专业不| 青青草国产一区二区三区| 91在线播放免费不卡无毒| 毛片视频网| 免费日韩在线视频| 亚洲色欲色欲www网| 91精品国产情侣高潮露脸| 欧美综合区自拍亚洲综合天堂| 国产精品第三页在线看| 国产三级a| 亚洲精品第1页| 欧美午夜精品| 欧美日本中文| 全裸无码专区| 国产一区二区免费播放| 欧美色99| 天天婬欲婬香婬色婬视频播放| 伊人久久大香线蕉aⅴ色| 天天做天天爱夜夜爽毛片毛片| 欧美精品在线免费| 乱人伦99久久| 亚洲成人精品在线| 亚洲美女一级毛片| 99九九成人免费视频精品| 91香蕉视频下载网站| a毛片免费看| 亚洲高清国产拍精品26u| 亚洲AV无码精品无码久久蜜桃| 亚洲中文字幕久久精品无码一区| 国产精品太粉嫩高中在线观看| 国产人成网线在线播放va| 在线不卡免费视频| 欧美成人在线免费| 精品人妻系列无码专区久久| 99re在线视频观看| 狠狠干综合| 免费无遮挡AV| 老司机午夜精品网站在线观看 | 风韵丰满熟妇啪啪区老熟熟女| 中文字幕无码av专区久久| 久久久久中文字幕精品视频| 中文字幕欧美日韩| 在线精品欧美日韩| 1024国产在线| 黄色三级毛片网站| 亚洲中字无码AV电影在线观看| 国产亚洲第一页| 国产精品免费久久久久影院无码| 制服丝袜一区二区三区在线| 亚洲欧美在线精品一区二区| 五月激情综合网| 五月天久久综合国产一区二区| 男人天堂伊人网| 国产激情第一页| 国产精品3p视频| 国产真实乱子伦视频播放|