999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向微博用戶的個性化推薦算法研究

2020-10-15 08:32:20周煒翔張仰森
計算機工程 2020年10期
關鍵詞:情景模式用戶模型

周煒翔,張 雯,楊 博,柳 毅,張 琳,張仰森

(1.北京信息科技大學 智能信息處理研究所,北京 100101; 2.國家計算機網絡應急技術處理協調中心,北京 100029)

0 概述

微博作為新興的互聯網社交平臺,其以實時性、開放性、互動性和便捷性為人們進行意見表達和信息交流提供了良好的媒介,已超越傳統媒體成為新的信息聚集地,并以極快的速度影響著社會的信息傳播格局[1]。目前,人們通過微博獲取信息的方式主要是通過關注的好友發布的微博信息、通過微博平臺的“熱門話題”推薦的相關熱點微博和通過微博的檢索功能檢索包含特定關鍵詞的微博。以上信息獲取方式都是面向所有微博用戶進行推薦的,缺乏一種針對特定用戶的個性化推薦功能。同時,由于微博數量巨大,為用戶及時、有效地獲取自己感興趣的微博內容帶來了極大的困難[2]。因此,針對微博的個性化信息服務技術得到了國內外學者的廣泛關注,成為當前社會媒體領域研究的熱點。

為提升微博個性化推薦的服務效果,本文提出一種基于情景建模和卷積神經網絡(Convolutional Neural Network,CNN)的微博個性化推薦模型,在分析微博用戶行為模式的基礎上,從時間和地域兩個維度對用戶進行情景建模,構建用戶個性化情景模式庫,采用卷積神經網絡實現微博用戶的個性化推薦。

1 相關研究

個性化推薦通過采集系統中用戶和物品的信息,采用一系列的計算模型對用戶的信息選擇和決策提供支持。目前的個性化推薦算法主要分為基于協同過濾(Collaborative Filtering,CF)的推薦算法和基于內容的推薦算法。協同過濾的推薦算法[3]是最早的推薦模型,主要是從歷史數據(如用戶以前對物品的評分)中發現用戶和物品的聯系,構成評分矩陣,通過預測用戶對未知物品的評分來進行個性化推薦。文獻[4]在協同過濾的推薦算法的基礎上提出一種基于概率的共識模型(Consensus Model,COM),通過研究群體活動的生成過程,根據群體中每個成員的行為特征,構建基于組的推薦算法。為解決協同過濾算法中的數據稀疏問題,文獻[5]提出一種協同知識庫嵌入(Collaborative Knowledge Base Embedding,CKE)的集成框架,采用堆疊的去噪自動編碼器和卷積自動編碼器提取物品的文本表示和視覺表示,并在兩個不同實際運用情景中的實際數據集合上驗證了算法的適用性。

為解決協同過濾的推薦算法中推薦個性化不足的問題、冷啟動的問題以及相似用戶群的局限性問題,研究人員提出了基于內容的推薦模型。基于內容的推薦模型[6-7]具有較強的可解釋性,每個用戶的推薦結果都是由其先前的行為決定的,在推薦結果個性化方面具有相當的優勢;同時,在形成推薦結果時,直接比較候選推薦對象與用戶興趣模型的相似性,不存在冷啟動的問題。但基于內容的推薦方法也存在著推薦多樣性不足與用戶興趣隨時間變化的不足[8]。

近年來學者們著力探索更有效的推薦技術,并對傳統推薦算法進行了融合、改進。如文獻[9]把協同過濾算法與LDA主題模型相結合,構建了LDA-MF和LDA_CF的混合協調過濾方法;同樣,文獻[10]將協同過濾算法和內容過濾算法相融合,提出一種融合協同過濾和內容過濾的混合推薦方法。

同時,推薦算法并不是獨立存在的,需要根據各種平臺的特性進行優化,學者們不斷探索社交平臺數據的特殊性,并研究適合微博數據的推薦算法。如文獻[11]通過研究真實的微博數據,分析微博信息和社區信息對推薦結果的影響,驗證了社區信息對個性化推薦的重要性,文獻[12]通過修改傳統協同過濾算法中的各階段參數,在算法中加入社區信息的影響,驗證了利用社區信息相似度修訂的SNCF-RM有更好的推薦效率,文獻[13]根據標簽關聯和用戶社交關系進行建模,用于識別用戶的興趣,文獻[14]設計了基于概率模型的協同過濾算法,分析tweet的文本內容和用戶之間的交互關系,用于為用戶推薦感興趣的用戶和微博。這些研究在推薦效率上都取得了一定的成功,但是由于微博環境的復雜性和微博數據的獨特性,其推薦效果性能還有很大的提升空間。

微博平臺是一個錯綜復雜的社會環境,其信息的產生與交換都存在特定的情景模式,情景模式的有效捕捉,對于提升微博個性化推薦具有重要的意義[15]。為此,本文構建了一種基于情景建模和卷積神經網絡的微博個性化推薦模型(Scene Modeling and Convolutional Neural Network Mode SM-CNN),其模型結構如圖1所示。具體來說,本文從時間維度和地域維度兩個方面對用戶發布、評論、轉發、點贊的微博文本進行情景建模,提取微博用戶所關注的特定情景模式,然后采用微博語料庫對用戶的情景模式進行擴展形成微博用戶的個性化情景模式庫,在個性化情景模式庫的基礎上,采用卷積神經網絡[16]構建用戶個性化推薦模型,實現對微博系統中的熱點微博進行個性化推薦。微博文本的情景建模改善了用戶的數據稀疏問題,基于卷積神經網絡的推薦算法有效地提升了推薦的性能。

圖1 SM-CNN模型結構Fig.1 SM-CNN model structure

2 微博用戶的情景建模

在微博系統中,用戶的行為偏好與特定的情景模式密不可分,微博用戶的偏好隨著時間變化而發生變化,在同一天內的不同時間段,其關注的重點是不同的,如用戶在早晚的閑暇時瀏覽微博,則比較著重于實時新聞型的微博或娛樂性微博;而在上班時間瀏覽微博,更傾向于瀏覽技術類的微博。同時,微博用戶的偏好也隨著地點的改變而變化,如用戶在常住地點比較傾向于關注與本地區日常生活相關的微博,而在一些旅游地點則傾向于關注當地的風土人情、旅游特色之類的微博。因此,本文主要從時間和地域兩個維度對微博用戶常常關注的情景模式進行建模,通過微博語料庫構建用戶個性化的模式庫,實現微博用戶感興趣情景模式傾向的發現。

2.1 情景模式的提取

情景模式獲取主要包括以下3種方式:1)顯式獲取,即通過直接接觸相關人士和其他情境信息源,直接問問題或者以引導性的方式顯式獲取這些信息;2)隱式獲取,即隱式地從數據或環境中獲得,例從微博平臺上獲得用戶的位置變動信息,或可以從一個事務的時間戳隱式地獲得時間的情境信息;3)推斷獲取,通過統計和數據挖掘方法推斷出情景信息。針對微博平臺的特點,本文采用以上3種方式相結合的方法進行情景模式的提取,具體步驟如下:

步驟1對微博文本進行分詞預處理,若微博文本中存在時間詞和地點詞,則進行提取。

步驟2提取微博的主題詞及其權重。

步驟3根據微博文本中的時間詞和地點詞進行情景模式的提取。

步驟4提取微博發布的時間和地點,根據微博發布的時間和地點進行情景模式的提取。

2.1.1 微博主題詞及其權重的提取

根據主題相關詞在微博文本中出現的頻次和是否出現在微博的標簽中,本文對傳統的TF-IDF算法進行改進,提出了基于話題標簽信息熵的TIE算法,用于提取微博的主題詞及其權重,其計算方法如式(1)所示:

(1)

其中,TIE(wij)表示詞wi在微博j中的TIE值,TI(wij)表示詞語wi在微博j中的TF-IDF值,其計算方法如式(2)所示,TagE(wi)表示詞wi的標簽信息熵,其計算方法如式(3)所示:

(2)

(3)

通過計算微博文本中每個詞語的TIE值,獲取微博文本的主題詞語及其對應的權重,按照權重的大小,將每條微博表示為主題詞及其權重的集合,即WeiBoi={t1:w1,t2:w2,…,tn:wn},其中,ti為主題詞,wi為其對應的權重。

2.1.2 時間情景的提取

按照微博文本中的時間詞及微博發布的時間,將時間按照每3 h一個時間段進行劃分,取值分別為{0,3,6,9,12,15,18,21},構建時間情景提取模型如式(4)所示:

TimeSceneWeiBoi=

(4)

其中,WeiBoi為微博的主題詞表示,time為微博發布的時間值。

2.1.3 地域情景的提取

按照微博文本中的地點詞及微博發布的地點,將地點按照省份進行劃分,其取值為省份的名稱,構建地域情景提取模型如式(5)所示:

LocationSceneWeiBoi=

(5)

其中,WeiBoi為微博的主題詞表示,location為微博發布的省份名稱。

2.2 情景模式的泛化

從微博中提取的用戶情景模式一般都過于具體,缺乏一定的代表性,因此,本文在提取情景模式的基礎上,制定了一定的泛化規則,從時間、地點、人物3個維度,將現有的情境模式泛化為一般的情境模式,實現對用戶情景模型的泛化。部分泛化規則如下:

人物:男/女→任意人

地點:地鐵/公交→交通工具→任意地點

家→區→市→省→任意地點

辦公室→公司→任意地點

時間:周一→工作日→任意時間

那么情境s=(男士,地鐵,周一)可以泛化為:s1=(任意人,地鐵,工作日);s2=(男士,任意地點,工作日);s3=(男士,地鐵,任意時間)。

2.3 用戶個性化情景模式庫的構建

用戶個性化情景模式庫中包含的微博是與用戶相關的微博,反映的是用戶感興趣的情景模式傾向,但是用戶發布、評論、轉發以及點贊的微博數目相較于微博庫中的微博只是占到了很少的比例,如果僅僅采用這部分微博構建用戶個性化情景模式庫,作為用戶個性化推薦的初始數據會存在嚴重的數據稀疏現象。為進一步獲取更多用戶感興趣的微博數據,需要在現有情景模式的基礎上,借助于微博語料庫,提取更多用戶感興趣的微博。用戶個性化情景模式庫構建的具體步驟如下:

步驟1爬取特定用戶發布、評論、轉發、點贊的微博,構建用戶微博語料庫。

步驟2以特定的數目的微博用戶為起點,爬取用戶及其關注者和被關注者發布、評論、轉發、點贊的微博,構建微博語料庫。

步驟3提取用戶微博庫和微博語料庫中每一條微博的時間情景模式和地域情景模式。

步驟4按照情景模式的值對微博語料庫和用戶微博庫中的微博進行劃分。

步驟5計算對應情景模式值下的微博語料庫中的微博與用戶微博庫中每一條微博的相似度值,如果最大的相似度大于某一閾值α,則將該條微博加入用戶個性化情景模式庫。相似度計算方法如下:

微博語料庫中微博Wc和用戶微博庫中微博Wu的情景模式分別表示為:

Wc={tc1:wc1,tc2:wc2,…,tcn:wcn;sc}

Wu={tu1:wu1,tu2:wu2,…,tun:wun;su}

其中,t為微博中對應的主題詞,w為主題詞的權值,s為對應情景模式的值,則Wc和Wu的相似度計算方法如下:

首先,任取i∈{1,2,…,n}計算詞語tci和tui間的語義相似度,其語義相似度的計算采用Word2Vec[17]模型進行計算,其模型的構建將在下文實驗部分進行介紹。然后,根據語義相似度的值將Wc和Wu的主題詞分為n組,每組為Wc和Wu中主題詞語義最相近的詞。最后,采用式(6)計算每組主題詞權重的加權平均和,其結果即為Wc和Wu的相似度值。

(6)

3 微博個性化推薦模型

在用戶個性化微博庫的基礎上,本文引入卷積神經網絡模型,采用情感分類的思想,構建微博個性化推薦模型。具體來說,本文將用戶個性化微博庫中的微博作為分類模型中的正例,從微博語料庫中隨機選取與正例數目等量的微博作為負例,組成用戶微博個性化推薦模型的訓練數據,通過模型的訓練,學習用戶感興趣微博的情景模式傾向,構建用戶微博個性化推薦模型。模型參考了文獻[18]的情感分類模型,主要采用多通道的卷積神經進行特征提取,運用池化層進行特征采樣,并通過全連接層和Softmax層進行語義分類。具體的結構如圖1的微博個性化推薦模型部分所示。

在卷積神經網絡中,本文采用多個通道的h×k濾波器對輸入詞向量矩陣進行卷積操作,獲取對應窗口內的局部特征以及輸入微博文本的特征圖,其計算如式(7)所示:

ci=f(w·Xi:i+h-1+b)

(7)

C=[c1,c2,…,cn-h+1]

(8)

在池化層采用最大池化的策略,獲取特征圖中最重要的特征作為當前卷積操作的特征輸出,如式(9)所示:

(9)

由于本文采用的是多通道的卷積神經網絡,將提取多種類型的特征,通過對各種類型的特征進行組合,輸入到全連接層進行特征融合。在融合特征的基礎上,通過Softmax輸出分類結果,輸出的結果中的正例將作為用戶個性化推薦的備選微博。

得到備選微博后,采用第2節的方法,提取每條微博的時間情景模型和地域情景模型,采用第2.3節用戶個性化微博庫的構建方法,選取TopN的微博作為用戶個性化推薦的微博。

4 實驗結果與分析

4.1 實驗數據

為構建微博語料庫,采用開源的爬蟲框架WebCollecter實現一個微博爬蟲程序,爬取新浪微博中的用戶信息及其相關的微博數據,總共爬取1 261 967名用戶及其相關信息,182 672 450條微博數據,用戶包括普通用戶、知名人士、網絡營銷號、官方認證機構等,其發布的微博數量及其粉絲數與關注數非常不平衡,用戶發布微博的變化區間為[3,17 382],用戶的粉絲數的變化區間為[12,12 006 518]。通過進行一系列的微博文本預處理,如繁簡轉換、URL替換、短小無意義微博的剔除等,最終構建了一個包含104 652 972條的微博語料庫。微博語料庫中的微博共包含詞語3 334 763 247個,本文采用這些語料訓練了一個Word2Vec模型,在訓練的過程中采用Skip-gram模型,其他相關參數均采用默認設置。經過訓練,最終得到了一個包含850 599個詞的詞向量,每個詞的詞向量的維數為200。

4.2 實驗結果的評測

由于目前還沒有微博推薦方面的公共數據集,個性化推薦的結果因人而異,其評測指標很難直接以準確率和召回率來評價,因此本文采用平均絕對誤差(Mean Absolute Error,MAE)和用戶滿意度(Average User Satisfaction,AUS)進行評價,參與評測的用戶為邀請的志愿者,評測者在對模型毫不知情的情況下參與評測,其中MAE和AUS的計算方法如式(10)和式(11)所示:

(10)

(11)

其中,m為參與評測的志愿者的數目,n為每個用戶推薦的微博的數目,Sim(wi,wij)表示為用戶i推薦的第j條微博與用戶個性化微博庫的相似度,其計算方法見第2.3節,feedbackij為用戶i對推薦的第j條微博的反饋情況,反饋結果分為3個等級:“不喜歡,無感,喜歡”,其取值為{-1,0,1}。

在以上數據集和評測指標的基礎上,本文設計了如下3個實驗:1)微博情景模式相似度閾值α的確定;2)本文推薦模型的效果評估;3)時間情景模型和地域情景模型的對比。

4.3 結果分析

4.3.1 微博情景模式相似度閾值的確定

在用戶微博個性化微博庫構建過程中,通過情景模式的相似度計算,對用戶感興趣的微博進行了擴展,如果采用所有擴展的微博進行相似度閾值的確定,會給志愿者帶來大量的反饋工作量,因此,本文僅從擴展的微博中隨機挑選50條讓用戶進行評估。在評估過程中采用AUS指標對用戶的反饋情況進行評估。一般來說,相似度閾值α取值越大,AUS的值越大,但是,過大的閾值會導致擴展的微博數目越來越小,這就失去了進行微博擴展的意義,其表現為MAE的值越來越小。因此,需要通過AUS和MAE的變化趨勢來尋找擴展數目和相似度閾值之間的平衡點。相似度閾值α與MAE、AUS的關系如圖2所示。

圖2 α與MAE、AUS的關系Fig.2 Relationship of α and MAE,AUS

從圖2可以看出,相似度閾值α越小,擴增的微博平均絕對誤差(MAE)值越大,用戶滿意度(AUS)越低。隨著相似度閾值的增大,MAE越來越小,AUS越來越大,用戶對擴增微博的滿意程度逐漸增加。在α=0.80時,MAE和AUS的變化趨于平緩,說明相似度大于0.8的微博作為用戶感興趣的微博擴增到個性化微博庫的效果較好,如果再增加α的取值,用戶滿意程度的提升有限,反而會帶來擴增微博數量的減少。因此,選取0.80作為相似度閾值α的取值。

4.3.2 推薦效果的性能評估

為驗證本文模型的有效性和先進性,在選定參數α=0.80時,選擇融合標簽關系與用戶關系推薦算法(ILCAUSR)[19]、基于社區發現的微博個性化推薦算法(RA-CD)[20]、用戶互動話題的微博推薦算法(IBCF)[21]與本文基于情景建模和卷積神經網絡的推薦模型(SM-CNN)進行對比,各個對比模型中的參數均采用論文中選擇的最優參數,實驗結果如表1所示。

表1 推薦效果對比Table 1 Comparison of recommend effects

從表1可以看出,無論在MAE指標還是AUS指標,本文的SM-CNN模型均達到了最優效果。在平均絕對誤差(MAE)方面,本文提出的SM-CNN模型較最好的IBCF模型誤差降低了1.36;在用戶滿意度(AUS)方面,本文提出的SM-CNN模型較最好的RA-CD模型提高了2.75%,從而證明本文提出的SM-CNN模型的有效性。

融合標簽間關聯關系與用戶間社交關系的微博推薦方法(ILCAUSR),采用標簽檢索策略和用戶關系網構建微博用戶-標簽矩陣,實現多標簽關聯的微博推薦,但用戶-標簽矩陣的稀疏程度對微博推薦的準確性影響較大。基于社區發現的微博個性化推薦算法(RA-CD),通過改進用戶建模方法,融合社區發現算法,構造推薦微博效用函數,實現微博內容的個性化推薦,但該方法在用戶建模時沒有考慮情境因素的影響。基于用戶互動話題的微博推薦算法IBCF通過挖掘用戶好友的關系話題,實現微博個性化推薦,但該方法只考慮了話題關系,對用戶社交關系、情境模式傾向等特征未做充分考慮。與以上3種方法相比,本文SM-CNN模型的優越性主要體現在以下2個方面:

1)時間情景模型和地域情景模型的提取對于獲取用戶的興趣傾向帶來了很大的幫助。通過情景建模構建的用戶個性化情景模式庫充分涵蓋了用戶感興趣微博的情景傾向。

2)基于卷積神經網絡的分類模型的引入為推薦模型的性能提升帶來了較大的貢獻。卷積神經網絡的分類模型研究已經比較充分,技術相對比較成熟,對推薦性能的提升幫助很大。

4.3.3 時間情景模型和地域情景模型的對比

為更進一步研究時間情景模型和地域情景模型對推薦效果的影響,本文設置了3組對照實驗,分別為基于時間情景模型的推薦、基于地域情景的推薦、基于時間情景和地域情景相結合的推薦,實驗結果如圖3所示。

圖3 時間情景模型和地域情景模型的實驗結果對比Fig.3 Comparison of experimental results of time scenario model and regional scene scenario model

從圖3可以看出,結合時間情景和地域情景的推薦效果最佳,同時基于時間情景模型的效果要好于基于地域情景模型。本文認為原因主要有以下2個方面:1)用戶在發布微博時,對于地點定位的標注不是很全面和具體,只是對其中的一部分微博進行了定位標注,很大一部分微博都缺乏具體的地域信息,使得很多微博都無法提取其地域情景模式;2)用戶活動的地域一般比較固定,很少有人會頻繁地更換地理位置,使得其地域情景模式中的地域值比較單一。以上2點為用戶地域情景的提取帶來了一定的障礙,也導致了基于地域情景的推薦效果不如基于時間情景的推薦效果。

5 結束語

本文提出一種基于情景建模和卷積神經網絡的微博推薦算法,通過提取用戶關注的時間情景模型和地域情景模型構建用戶個性化微博庫,在此基礎上采用卷積神經網絡對熱點微博進行分類,實現用戶的個性化微博推薦。情景模型的引入有助于獲取用戶的興趣傾向,同時,基于卷積神經網絡的分類模型提高了推薦的性能。但是,本文僅提取了時間情景模型和地域情景模型,比較單一,如何對情景模型進行細化,構建更具有代表性的情景模型,同時利用卷積神經網絡在抽象特征抽取方面的優勢,挖掘微博字詞層面上的語義特征,將是下一步需要研究的重點。

猜你喜歡
情景模式用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
淺談提高初中思想品德課課堂實效性的幾點認識
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
情景模式在提高高校英語教學有效性中的應用探析
移動終端的情景模式切換方法專利技術研究
中國新通信(2015年9期)2015-05-30 20:14:58
主站蜘蛛池模板: 伊人成人在线视频| 亚洲浓毛av| 日本一区高清| 怡红院美国分院一区二区| 日韩无码视频专区| 无码视频国产精品一区二区| swag国产精品| 色成人综合| 日韩av无码DVD| 久久亚洲美女精品国产精品| 91在线精品免费免费播放| 国产自在自线午夜精品视频| 中文无码伦av中文字幕| 久久男人资源站| 欧美色综合网站| 久久公开视频| 欧美一级99在线观看国产| 国产www网站| 欧美国产日韩另类| 亚洲三级a| 亚洲精品午夜无码电影网| 成人免费一级片| 欧美日韩一区二区在线播放| 日韩资源站| 久久久久人妻一区精品| 尤物视频一区| 亚洲欧美精品一中文字幕| 久久精品丝袜| 中文字幕久久精品波多野结| 毛片网站观看| 国产网友愉拍精品| 亚洲色无码专线精品观看| 国产精品手机在线播放| 第一页亚洲| 特级欧美视频aaaaaa| 欧美精品成人一区二区视频一| 小说区 亚洲 自拍 另类| 国产精品尤物在线| 国产欧美日韩18| 欧美精品成人一区二区视频一| 国产日韩精品欧美一区灰| 亚洲国产天堂久久综合| 91小视频在线观看| 一级毛片无毒不卡直接观看| 一级做a爰片久久毛片毛片| 伊大人香蕉久久网欧美| 国产黑丝视频在线观看| 一级一毛片a级毛片| 欧美精品一二三区| 精品国产成人三级在线观看| 欧美成人综合在线| 国产福利免费观看| 欧洲欧美人成免费全部视频| 波多野结衣久久高清免费| 91精品啪在线观看国产91九色| 婷婷综合色| 免费看a毛片| AV无码无在线观看免费| 91精品啪在线观看国产| 久久久成年黄色视频| 日韩欧美国产三级| 成人日韩欧美| 国产极品美女在线| 国产原创演绎剧情有字幕的| 在线观看国产一区二区三区99| 成年人午夜免费视频| 99ri国产在线| 91福利片| 在线看AV天堂| 亚洲精品国产乱码不卡| 视频一区视频二区中文精品| 国产美女无遮挡免费视频| 精品一区二区无码av| www欧美在线观看| 一本大道香蕉高清久久| 四虎国产在线观看| 精品伊人久久久久7777人| 国产亚洲精品97在线观看 | 岛国精品一区免费视频在线观看| 亚洲第一黄色网址| 国产丝袜啪啪| 国产成人1024精品|