999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于社交網絡友情度的個性化推薦算法

2018-08-17 09:00:36張繼美
武漢工程大學學報 2018年4期
關鍵詞:友情用戶實驗

董 輝,盛 魁,張繼美

亳州職業技術學院,安徽 亳州 236800

隨著網絡技術發展和社交網絡服務的推廣,人類交往全面進入在線社交網絡服務(social net?working services,SNS)時代[1],國內外知名 SNS如微博、微信、FaceBook和Twitter等。SNS用戶規模持續擴大,信息交互更加快捷,同時在SNS的基礎上又延伸出許多功能強大的應用,如微信在線支付、小程序及微信公眾號等,使得SNS的服務內容越來越豐富。在SNS中,用戶的自發參與產生了具有一些明顯特征屬性的社交大數據,主要的特征屬性是“用戶創建的內容”、“交互信息”及“關系信息”。“用戶創建的內容”是指用戶自己在SNS上創建的內容及其相關信息,如博客上的帖子、信息發布的時間和標簽信息等;“交互信息”是指用戶間交互的內容,例如微信上用戶之間的信息傳輸、朋友圈的點贊、評論等;“關系信息”構成一個社交圈的信息,代表SNS用戶之間的直接或間接關聯關系,如微信上朋友圈、微博的好友圈等。這類社交大數據已經被應用于個性化推薦領域的研究,挖掘用戶的需求和偏好,及時向用戶推薦滿足個性化需求的信息[2]。

傳統的個性化推薦系統主要基于相似度的協同過濾(collaborative filtering,CF)算法向用戶提供推薦。相似度的算法主要有皮爾遜相關系數(pearson correlation coefficient,PCC)、余弦相似度(cosine similarity,CS)及杰卡德均方差(jacca?rd mean squared difference,JMSD)等方法[3]。但是以上算法只適合于利用明確的數據信息(如用戶的評分)計算相似度,而大多數社交數據都含有許多隱式信息,這使得傳統的推薦系統不能完全適合基于SNS的個性化推薦需求。此外,用戶在社交圈信任關系密切的用戶信息已被許多研究證實對于提升個性化推薦服務非常有用[4-6],然而,現有的相似度算法不適合于在線社交用戶之間親密關系的度量,因為除了用戶創建的內容之外,它們很少關注社交大數據的其它方面的特征,更沒有考慮用戶之間共享的主題數量。

本文提出了一種描述SNS用戶之間親密度的新方法——友情度,并通過交互、群體和個人三種相似度來計算友情度。該方法考慮了社交大數據的各種特征,提出的個性化推薦系統充分利用用戶關心的主題和興趣及緊密關聯的用戶的信息,為SNS用戶推薦滿足個性化需求的興趣和主題。并使用各種評估指標如平均絕對誤差(mean abso?lute error,MAE)、精確度Precision、召回率Recall和F1值等,評估所提出的推薦系統的性能和推薦質量,驗證友情度在個性化推薦中的重要作用,證實了基于友情度的個性化推薦系統比基于PCC和JMSD算法的CF推薦系統的性能要優越,且推薦結果的質量要高。

1 個性化推薦系統

1.1 基于社交網絡大數據的個性化推薦系統

個性化推薦系統收集關于用戶對項目的偏好的信息,為用戶推薦希望獲取的項目。而社交大數據中包含了顯式或隱式信息,如博文、朋友圈信息、關注、博文時間和標簽信息等,如能合理的利用這些信息,則可以增強個性化推薦。近年來,國內外一些學者在不斷努力,試圖利用隱式數據信息來改進個性化推薦系統。如潘一騰等[5]提出一種基于信任關系隱含相似度的社會化推薦算法,提高了社會化推薦算法的精度;劉靜等[6]提出了一種個性化的標簽推薦系統,使用用戶的標記歷史和地理信息來生成基于學習方法的推薦系統;趙亞輝和劉瑞[7]提出了基于評論的隱式社交關系進行個性化推薦。但是,與考慮SNS用戶關聯信息以獲得推薦的方法相比,上述方法難以充分反映個人傾向并且推薦結果的準確度較低。

1.2 基于人際關系的個性化推薦系統

基于人際關系的個性化推薦方式可以分為基于影響力的推薦和基于朋友圈的推薦。在SNS上彼此相關的用戶的偏好相似度要高于不相關用戶的偏好相似度,他們之間的關聯信息顯然比不相關用戶的信息更具有利用價值[8]。

1.2.1 基于社交影響力的個性化推薦系統 基于影響力的推薦系統主要用于需要專業領域知識的推薦,如學術或新聞領域的推薦系統。例如陳林等[9]定義了對新聞界影響專家模型,提出一種新穎的個性化新聞推薦算法;文獻[10]基于學術搜索平臺Arnet Miner,融合深度學習方法、社會網絡分析和語義搜索等相關技術,進行跨區域協作推薦與用戶相關的專家和論文。

1.2.2 基于朋友圈的個性化推薦系統 對于SNS用戶,人們更傾向于關注熟人和朋友的意見,基于朋友之間信任進行的推薦更容易被接受,因此基于朋友的信息提供的推薦效率更高。但是在SNS中,基于朋友的個性化推薦對于用戶關系是均等看待的,沒有考慮到用戶之間關系遠近的親密度,大多數研究都是針對一組具有相似興趣和偏好的社交網絡服務用戶提供推薦[11]。如劉海峰[12]提出了基于信任關系的商品推薦方法,改進了推薦的性能,并解決多樣性推薦的問題。

本文綜合分析諸多學者研究成果的基礎上,研究影響用戶間親密度的各種因素,提出基于友情度的個性化推薦系統,并對實驗過程和實驗結果進行分析,評估所提出系統的性能和推薦質量。

2 基于友情度的個性化推薦系統

近年來,國內外一些學者對基于用戶之間親密度的個性化推薦方法進行了一定的研究。如文獻[13]考慮了用戶互動和社交圈信息來計算他們之間的親密度,提出一種基于聯系強度的個性化模型來增強社交服務,給出了更高質量的推薦信息;文獻[14]提出一種綜合信任模型,構建了基于社會網絡關系分析的綜合推薦模型,應用矩陣分解技術推斷微博的主題分布和用戶的興趣取向,實現微博的個性化推薦。但是,先前的研究沒有考慮到影響友情度的各種因素,更沒有對影響因素進行多維度分析,導致推薦信息的準確性和精度不高,因此需要一種新的方法分析影響友情度的各種因素,利用它們計算友情度,設計一種高效的個性化推薦系統。

2.1 推薦算法基本流程

本文提出的個性化推薦系統的流程主要分為以下3個階段9個步驟。

階段一:處理所需的數據集,此階段分為5個步驟。步驟1:在社交服務網站上抓取推薦領域相關意見及評論數據構建數據集;步驟2:在數據集中添加與推薦領域相關的正面、中性或負面的意見詞詞語,構建意見詞詞典;步驟3:根據意見詞典,分析用戶生成的內容如微博上的博文、大眾點評網的貼文、FaceBook上的帖子等,給出內容的極性,如正面、負面或中性;步驟4:挖掘出與推薦領域及其評論信息相關的用戶,提取用戶的數據如用戶ID值等,創建用戶社交圈的用戶矩陣;步驟5:利用前面內容的極性分析得分及用戶的參考項目的次數得分,計算友情度及推薦系統中用到的隱式偏好值和主題分布值。

階段二:計算SNS用戶間友情度,分為3個步驟。步驟6:利用SNS用戶間的交互信息計算交互相似度,交互信息如微信朋友圈或微博上的評論、點贊或轉發等信息;步驟7:使用主題分布值及隱式偏好值,計算個人相似度;步驟8:使用SNS社交圈用戶信息計算用戶組的相似度。融合以上3個相似度,計算出用戶間的友情度。

階段三:構建推薦系統進行推薦階段。步驟9:利用用戶間友情度、隱式偏好值及前面所計算的相似度值,構建推薦系統,為用戶提供高質量推薦結果。

2.2 用戶創建內容的極性分類

用戶在SNS上發布的內容中表達了自己的看法,代表了自己情緒或感受。根據原先建立的意見詞典,可以把用戶生成的內容的極性(OD)分類為正面、中性或負面的內容,分別數字化為 1,0,-1。

2.3 用戶偏好值的計算

從用戶生成的信息中提取關鍵字(即項目)和包含關鍵字的主題,用戶偏好分為用戶項目偏好和用戶主題偏好。根據內容的極性和用戶生成內容的總數計算項目偏好ru,i:

式(1)中,Du,i表示用戶u關于項目i所創建的內容的集合。用戶的主題偏好是用戶高級偏好,在這里以主題分布值來表示,本文通過使用與主題t相關聯的用戶生成的內容的總數的分布θu,t值來計算。算法如式(2):

式(2)中,Du是關于用戶u內容的集合、Du,t與用戶u相關的主題t的內容的集合。

2.4 友情度的計算

在SNS中,綜合考慮影響用戶友情度的多種因素,用3種相似度來計算用戶之間的友情度。這3種相似度分別是個人相似度P、交互相似度I和群體相似度G,如表1所示。

表1 友情度的三種相似度及其因素Tab.1 Three kinds of similarity and their factors of degree of friendship

2.4.1 個人相似度 個人相似度表示SNS上用戶生成內容之間的相似度,可以通過項目的偏好值和主題分布來計算。用戶生成的內容會涉及到各種喜好及興趣,特別是在類似于大眾點評、微博等社交網站上,在計算用戶對項目的偏好時,共同興趣的比例比僅計算用戶偏好相似度更為重要。因此,本文利用JMSD算法,來計算用戶之間的偏好相似度。

σJMSD為均方差(mean squard difference,MSD)和Jaccard系數的乘積。本文中MSD系數表示用戶u和f的項目偏好值之間的差異的平均值,用σMSD表示,Jaccard系數J(u,f)是SNS上用來計算用戶共同興趣的比率。計算方法分別如下:

SNS用戶創建大量與推薦領域主題相關的內容,用戶間的關系越親密,用戶之間交流的的主題范圍就越廣,而且SNS用戶之間的主題的相似度是實現個性化檢索的主要元素之一。因此,個人相似度的計算不僅考慮項目信任,還要考慮用戶共享的主題數量及主題的相似度,以便在推薦領域根據個人傾向提供高質量的推薦結果。用戶間的主題相似度可以通過使用散度(kullback-leibler divergence,KL)計算[15]。算法如式(5)所示:

則個人相似度計算式如式(6),取項目信任度和主題相似度的加權之和,表示項目與用戶提及的主題的相似度。

式(6)中αP+βP=1。

2.4.2 交互相似度 在SNS中,用戶通過信息的交互來分享彼此的好惡及情感,若用戶的好惡或偏好相似,則他們會積極分享信息。因此交互相似度可以通過用戶之間“互動的廣度和深度”來衡量,用戶之間的交互相似度又是計算友情度的重要因素。在許多社交網站中,用戶都可以通過轉發、評論、關注、回復等功能進行相互交互,因此可以使用這些信息,與交互頻率、交互近因等屬性結合起來共同計算交互相似度。

首先,計算SNS用戶的交互頻率。用戶交互頻率反映了用戶之間的關系的遠近,關系近的用戶會頻繁的積極交流,交流的信息也更有價值。用戶交互頻率算法如式(7)所示,其中q(u,f)表示用戶u和f聯系的次數。

其次計算交互近因和交互時長因子。交互近因和交互時長因子是與用戶之間的聯系時間密切相關的權重。SNS大數據中,最新的信息非常重要,最近的聯系意味著用戶分享當前的興趣,因此用戶最近是否接觸過是衡量親密關系的關鍵因素。用戶u和f的交互近因可表示為式(8)所示:

R(u,f)表示用戶u和f最近一次聯系到當前時間所經過的時間,L(u)表示收集用戶u的數據的時間。

一般地,在SNS中與他人交互時間較長的人的信息比交互時間較短甚至沒有溝通的人的信息更重要,如果用L(u,f)表示用戶u和f之間的一次交互時長,則交互時長因子算法如式(9)所示:

本文交互相似度是通過對QI(u,f),QR( )u,f和Q(uL,f)3個權重值進行加權來計算的,如式(10)所示:

其中αI+βI+χI=1。

2.4.3 群體相似度 群體相似度是指不同用戶在SNS上所屬社交圈的相似度,可以用來衡量用戶與他的朋友之間的親密關系。在SNS的社交圈里,用戶傾向于將與他們密切接觸或具有類似興趣的用戶作為他們的朋友,因此擁有類似朋友列表的不同用戶所在社交圈相似度較高,即群體相似度較高。所以可以通過用戶u和f共享的朋友的比率來計算u,f所在社交圈的相似度。在SNS社交圈里,用戶朋友關系可分為直接和間接朋友關系。通過間接朋友關系,也可以獲取用戶社交圈中有用的信息和資源。本文用朋友級別的概念來描述群體相似度。如圖1所示,將用戶u的直接關聯朋友的級別定義為一級,表示為,用戶間接關聯(第n層級)朋友的級別定義為n級,以表示,例如表示用戶u的兩個邊緣內連接的一組用戶。

圖1 群體相似度Fig.1 Swarm similarity

在大多SNS中,幾乎所有的用戶的朋友用戶都在6層以內,即n=6。結合Jaccard系數,則用戶群體相似度的算法表示式(11)所示:

其中 (αG+βG+...+χG=1)。

2.4.4 友情度的計算 在SNS中,本文用友情度來度量用戶之間的親密關系,根據前文分析友情度主要體現在個人相似度、交互相似度和群體相似度幾個重要的方面,綜合式(6)、式(10)和式(11)3種相似度算式,本文SNS中友情度QF( )u,f

算法如式(12)所示:

其中,δ表示根據每個元素的重要性提供權重值差異的加權矢量。

在社交網絡中,直接或間接關聯的用戶的信息比未關聯的用戶的信息更為重要,根據這些用戶的信息結合用戶友情度和社交圈朋友的級別的定義,給出對用戶u關于項目i的偏好值預測式,如式(13)所示:

3 結果與討論

3.1 實驗環境與數據集的選取

實驗環境為Intel Xeon E5-2630*2CPU、32 GB DDR4內存、3 TB Sata3硬盤、Windwos Server 2008系統服務器,實驗數據集來源于新浪微博音樂及電影2018年1月份樂評及影評博文數據的抓取,共28部在國內上映的電影和亞洲音樂排行榜60首音樂、8138315條評論博文和2368372個微博會員相關的信息。經過整理,實驗中把該數據集分為評論博文信息、微博會員關系信息和評論意見詞典。博文信息有博文ID、博文內容、發表時間、轉發量、回復數、關注量、點贊量、博主ID、對博文的評論及關注者的微博會員ID;微博會員關系信息包括有微博會員的ID、會員名及會員關注者的ID及會員名;意見詞典主要包括電影的正負面詞匯列表,用來標志電影評論博文的極性情況。

3.2 實驗過程分析

實驗對數據集進行了交叉實驗,目的是分析評估本文所提出的個性化推薦系統。實驗中,把微博會員數據集分成兩部分,其20%用于測試用戶集、80%視為訓練用戶集,并建立了用戶對用戶的友情度矩陣,基于交互相似度的考慮,20%與其他用戶積極互動的活躍用戶是測試用戶。在數據集中,實驗中使用了28個電影和60個音樂共88個項目,但電影評論活躍用戶提及的項目數量平均值大約為10個、音樂評論活躍用戶大約為16個。對測試集合使用Leave-One-Out交叉驗證[16]。首先基于測試集,計算用戶之間的友情度,建立用戶-用戶友情度矩陣,基于此矩陣計算用戶間交互和群體相似度;其次利用測試用戶與訓練用戶之間的訓練項目的偏好值及主題分部值,來計算個人的相似度;最后利用友情度3個重要元素:交互相似度(I),群體相似度(G)和個人相似度(P)的組合來計算用戶之間的相似度。

3.3 實驗結果分析

協同過濾個性化推薦系統是最受歡迎的推薦方式,而基于PCC和JMSD是在CF推薦系統中常用的系數,它的有效性已經在經典的的推薦系統數據集(如Movielens)中得到證實。本文所提出的系統利用直接或間接連接到SNS的用戶的信息進行推薦,把本文推薦系統的性能與基于PCC和JMSD的CF推薦系統進行比較。使用衡量個性化推薦系統性能的幾個主要指標MAE、精確度、召回率、F1值驗證了推薦系統的推薦質量。

3.3.1 IGP實驗結果分析 本文針對精確度、召回率和F1值對友情度3個重要元素I、G、P及其組合進行實驗。實驗結果如圖2所示。

圖2 友情度三要素及其組合實驗結果:(a)精確度,(b)召回率,(c)F1值Fig.2 Experimental results of three elements of degree of friendship and their combination:(a)precision,(b)recall,(c)F1value

從圖2中可以發現,在所有的組合中,I和P的組合(CIP)表現出最好的性能。因此,結合式(12),選擇CIP作為友情度。

3.3.2 MAE實驗結果分析 MAE主要用于預測值的誤差測量,定義為公式(14):

式(14)中Ou,i表示用戶集合,pu,i和ru在測試用戶集U中都不為null值。MAE評估實驗的結果如圖3所示,實驗中K近鄰(K)的范圍是100到2000之間。

從圖3中可以分析,本文所提出的推薦算法比基于PCC和JMSD的CF推薦具有更低的錯誤率。基于友情度推薦預測偏好值的準確性在整體范圍內分比PCC提高20%左右,與JMSD相比,在K<1000時,它的性能略高,但K≥1000時,性能提高了大約有8%,K的數量越多,性能改善越高。

圖3 推薦質量實驗結果Fig.3 Experimental results of quality of recommendations

3.3.3 針對推薦有效性的實驗分析 MAE可能是衡量推薦算法性能的一個很好的指標,但是它不能準確衡量用戶對推薦結果的滿意度,因此有必要使用新的算法測量用戶對推薦結果的滿意度即評估推薦的有效性。通常精確度p、召回率r和F1值被用于衡量個性化推薦結果的有效性,本文中精確度、召回率和F1值表示如式(15)~式(17),實驗結果如圖4所示。

其中Zu表示用戶提供的N個推薦項的集合,表示閾值。為了衡量精確度、召回率和F1值,不僅要根據預測偏好值對推薦項目進行排序,而且還要確定推薦項目相關性判斷的閾值。根據式(1)進行多次計算發現,式(15)和式(16)中如果ru,i>0.5,則表示用戶在所有他的博文中對于項目i的正面評論都多于1次,因此可以判斷推薦結果與i是相關的。因此,將閾值設置為0.5。

從實驗結果可以看出,就精度而言,所提出的系統與PCC和JMSD相比分別顯示提高約8%和5%;在召回率方面,與PCC相比,所提議的系統性能提高約8%,與JMSD相比約為6%;對于F1值,與PCC相比,所提出的系統性能提高約10%,與JMSD相比約為9%。可見,本文所提出的推薦系統推薦質量上比基于PCC和JMSD的CF推薦系統整體上分別提高8.5%和7%左右。

圖4 推薦結果有效性的比較:(a)精確度,(b)召回率,(c)F1值Fig.4 Comparisons of recommendation results:(a)precision,(b)recall,(c)F1value

4 結 語

基于SNS提出的友情度對于推薦有很大幫助,只要它用戶之間的交互數據、好友列表信息或具有多個級別的項目,如微信、陌陌、微博等社交網絡擁有用戶之間的聯系信息和用戶之間評論的信息,利用這些信息就可以計算出用戶之間友情度,而大多數基于SNS的推薦系統都可以使用友情度進行推薦。

使用1個月的微博電影、音樂評論數據,針對MAE、精度、召回率、F1值進行了比較實驗。結果表明,綜合考慮SNS上的用戶間的友情度,對于推薦結果的有效性有很大的影響,所提出的系統在所有度量方面比基于JMSD和PCC的推薦表現出較好的性能和推薦質量,對于提高推薦的準確性是有用的。雖然推薦質量的差異并不十分顯著,但所提出的系統在所有度量指標中值都是最高的。

猜你喜歡
友情用戶實驗
記一次有趣的實驗
向美好友情進發
當友情遇到禁忌
好日子(2022年3期)2022-06-01 06:22:14
做個怪怪長實驗
我有友情要出租
我們的友情
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产高清国内精品福利| 国产精品3p视频| 精品国产www| lhav亚洲精品| 国产一级毛片yw| 国产成人精品一区二区不卡| 99热这里只有精品2| 国产剧情伊人| 国产综合在线观看视频| 国产精品嫩草影院av| 久久精品国产电影| 无码日韩精品91超碰| 亚洲天堂自拍| 在线观看91香蕉国产免费| 国内精品自在欧美一区| 国产精品尤物在线| 日韩精品少妇无码受不了| 国产日韩欧美成人| 视频二区亚洲精品| 国产一区二区三区夜色| 国产小视频免费| 日韩av在线直播| 成人小视频网| 日本免费高清一区| 欧美日韩中文国产va另类| 亚洲综合激情另类专区| 99视频有精品视频免费观看| 青青草原国产av福利网站| 亚洲精品va| 国产成人精品视频一区视频二区| 久草视频福利在线观看| a级毛片免费看| 91视频日本| 色综合久久88| 日韩毛片在线播放| 亚洲国产日韩欧美在线| 亚洲国产天堂在线观看| 亚洲视频色图| 成人午夜视频网站| 性激烈欧美三级在线播放| 色综合国产| AⅤ色综合久久天堂AV色综合 | 欧洲熟妇精品视频| 小说 亚洲 无码 精品| 国产一级视频久久| 欧美午夜网站| 蜜桃臀无码内射一区二区三区| 日韩午夜伦| 国产91在线免费视频| 爽爽影院十八禁在线观看| 国产成人综合亚洲网址| 99视频只有精品| 在线欧美日韩国产| 日韩精品一区二区三区大桥未久 | 日韩欧美国产精品| 久久这里只有精品23| 蜜芽一区二区国产精品| 奇米影视狠狠精品7777| 亚洲成人在线免费| 国产熟睡乱子伦视频网站| 精品国产自在在线在线观看| 一级毛片免费高清视频| 亚洲人成人伊人成综合网无码| 国产丝袜丝视频在线观看| 在线永久免费观看的毛片| 97人人模人人爽人人喊小说| 久久久久九九精品影院| 色综合久久久久8天国| 人妻丝袜无码视频| 亚洲永久色| 国产精品私拍99pans大尺度| 精品国产成人a在线观看| 色哟哟国产成人精品| 亚洲日本韩在线观看| 色综合久久久久8天国| 中文字幕在线日韩91| 亚洲无码四虎黄色网站| 狠狠色香婷婷久久亚洲精品| 免费aa毛片| 亚洲最黄视频| 国产区91| 国产一级特黄aa级特黄裸毛片|