999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的微博轉發行為預測

2018-05-29 07:45:52宮葉云黃萱菁
中文信息學報 2018年4期
關鍵詞:文本用戶影響

郭 亞,宮葉云,張 奇,黃萱菁

(復旦大學 計算機科學技術學院,上海 201203)

0 引言

社交媒體發展迅速,已逐漸成為我們文化肌理的一部分。根據2012年的社交媒體報告[1],美國人一個月內花費超過1 211億分鐘在社交媒體上。微博服務是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,用戶可以方便的查看和轉發關注用戶的微博。微博信息可以通過用戶轉發迅速從一個社交圈傳播到另一個社交圈,這可看作社交網絡中的病毒傳播[2]。通過對用戶轉發行為的研究,可以更好的理解用戶行為,亦可進一步應用于社交營銷[3-4]、微博檢索[5]以及熱點事件預測[6-7]等領域中。

最近幾年,已有很多工作從不同角度對其進行了研究,包括社會影響力[8-9],文本特征[10]及社交特征[11-13]等。Suh等人[14]研究了微博內容,Hashtag,URL以及文本特征對轉發行為的影響。通過對轉發微博的分析, 我們發現用戶不僅受到文本等特征的影響,同時,還受到微博本身屬性的影響。例如,微博熱度、微博作者等。而現有的方法則不能很好的利用這些信息。

為了解決這個問題,我們提出了一種基于LDA模型[15]的方法,同時利用文本信息,結構信息和作者信息對用戶轉發行為進行建模。實驗表明該方法的性能顯著優于目前最好的方法。

本文的主要貢獻有:

(1) 收集大量真實微博數據,包含微博內容、用戶信息以及其對應的社交網絡。模擬還原用戶使用環境。

(2) 通過對數據進行分析,研究發現一些影響用戶轉發行為的重要因素: 用戶興趣、微博熱度和作者信息等。

(3) 提出了一個新穎的基于LDA模型的方法,該方法同時利用文本信息,結構信息和作者信息對用戶轉發行為進行建模。實驗結果表明該方法的性能優越。

本文結構如下: 第一節介紹相關工作以及相關領域最先進的方法;第二節介紹我們如何收集數據和分析數據;第三節介紹本文提出的方法;第四節描述實驗方法,實驗結果及其分析;第五節為總結部分。

1 相關工作

當前很多工作研究不同特征對用戶行為的影響,比如文本內容,社交網絡和時間信息等。Petrovic等人[12]對社會特征,包括微博作者和內容進行了研究,他們通過實驗說明這個任務確實可行。Naveed等人[10]使用回歸方法,加入高維和低維文本特征來預測轉發行為。Luo等人[13]研究了作者和關注者的歷史信息,關注者的社會地位,微博內容和關注者微博內容的相似性。Feng 和 Wang[16]提出了通過歷史轉發記錄來進行個性化的排名。他們使用特征感知的方法結合文本和用戶特征對轉發行為進行建模。Gupta等人[6]基于文本內容,時間信息,地理信息和結構屬性,將這個看作二分類問題進行研究。同時,他們也使用多分類方法來預測一條微博被轉發的次數。Luo等人[17]介紹了一種基于自回歸移動平均模型(ARMA)的方法。其中轉發行為被看作一個時間序列,序列值是對應的轉發次數或者一段時間內的可能瀏覽次數。Peng等人[18]使用條件隨機場的方法對用戶的發文歷史和社交關系進行特征抽取。

與以上這些方法不同,我們提出了一個基于LDA的方法來預測轉發行為。微博內容、結構信息和作者信息統一到一個模型中。

2 數據收集和分析

我們從新浪微博中收集數據。在新浪微博中,用戶只能看到關注用戶的微博,我們抓取數據,然后模擬真實的微博網絡。下面介紹數據集的構造方法。

首先,隨機選取200個用戶作為核心用戶,也是我們的微博網絡中的第一層用戶。然后抓取這200用戶的關注列表,將他們所有關注的用戶作為微博網絡中的第二層用戶,這一層共有82 311個用戶。這樣得到了一個兩層微博網絡。最后我們抓取網絡中用戶的最新的2 000條微博,共約8 500萬條。具體統計數據見表1。

表1 數據集統計數據

從表1中可以看出約60%的微博是轉發的,其中約33%包含評論。這與Yu等人[22]統計的結果類似,可以認為這個統計結果能反映不同文化背景的社交媒體的真實情況。

為了便于數據分析,我們對微博進行預處理,去除微博中的標點、URL、表情和圖片等無用信息。然后對微博進行分詞處理。其中轉發的微博分為兩類,一類帶有評論,另一類沒有。對于帶評論的轉發微博,我們將評論與轉發內容當作兩條微博處理。

圖1到圖4分別統計了第一層的用戶微博數分布、用戶轉發數分布、微博詞數分布和用戶關注數分布。

圖1 用戶微博數分布

圖2 用戶轉發數分布

圖3 微博詞數分布

圖4 用戶關注數分布

由圖1和圖2可以看出,用戶的微博數(轉發數)呈現兩極分化,微博(轉發)數量小于400和大于1 600的用戶較多。而從圖3可以看出,絕大多數用戶發送的微博詞數都小于20。圖4表明用戶關注數量集中于300左右。

第一層的網絡由200核心用戶構成,我們認為他們的瀏覽歷史包含了他們轉發一條微博的時間點到這條被轉發微博的發送時間點之間的所能看到的微博。通過恢復用戶的發送和瀏覽歷史,可以觀察到下面的現象:

1) 第一層200核心用戶共關注了82 311個用戶。其中被核心用戶轉發過微博的用戶有52 177個,占總關注用戶的63.3%。此外,被轉發超過1次的只占17.8%。所以用戶一般只會轉發某一部分關注用戶的微博。

2) 當用戶瀏覽看到多條同樣的微博時,不一定轉發首次看到的那一條微博。根據統計大約37.4%的轉發行為屬于這類情況。從而說明用戶的轉發行為不僅受到微博內容的影響還受到微博作者的影響。

3) 每條微博在被轉發之前,可能已經被其他關注用戶轉發過多次,我們稱之為微博熱度。統計每個用戶轉發的微博的熱度分布,可以發現,不同用戶的轉發熱度分布不同,即有些人偏好轉發那些很火的微博,而有些則不然。后文我們將這個特征稱為結構特征。

4) 用戶更偏好轉發自己感興趣的微博,而不同用戶有不同的興趣愛好,我們使用用戶微博的話題分布來表示用戶的興趣。

綜上所述,用戶的轉發行為受到用戶興趣、微博作者和微博熱度的影響,分別稱之為內容影響、用戶影響和結構影響。因此,我們假設用戶a是否轉發一條微博由以下因素決定: 1)誰發送這條微博;2)用戶a關注的用戶中有多少人發送或轉發了這條微博;3)微博的內容;4)用戶a的興趣。

3 用戶行為預測模型

本節中,首先簡要介紹一下LDA模型,然后詳細介紹我們提出的預測轉發行為的方法。

3.1 LDA主題模型

Latent Dirichlet Allocation(LDA)模型由Blei等人[15]在2003年提出,LDA是一種主題模型,可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA也是一種非監督學習方法,可用于識別大規模文檔集中潛藏的主題信息,目前廣泛應用于文本挖掘等領域。

LDA采用詞袋(bag of words)方法,認為詞之間沒有順序關系。文檔是由詞構成的集合,文檔包含多個主題,文檔中每一個詞都由其中的一個主題生成。

3.2 ASC-LDA

通過第二節介紹我們可以知道影響用戶行為的關鍵因素: 用戶影響、結構影響和內容影響。通過擴展LDA模型,利用這三個因素對用戶行為進行建模。

用戶影響(A): 由第二節的統計數據可知,用戶可能只轉發幾個特定用戶的微博。因此,對于用戶u,我們假設他轉發每個關注用戶pfei的微博的概率fei服從二項分布,這個二項分布以Beta分布為先驗分布。

結構影響(S): 一些用戶可能比較喜歡轉發那些已經被很多用戶轉發過的微博,即熱度高的微博,另一些用戶則相反。因此,我們假設每個用戶u對應一個轉發熱度分布。我們首先對每條微博的轉發次數做歸一化處理,使其取值范圍為0到1之間,歸一化后的值用xd表示。最后使用Beta分布對其進行模擬。

內容影響(C): 內容影響通過隱含的主題進行建模。我們使用基于LDA的主題模型來完成這一任務。通過使用Gibbs采樣估計隱含變量,微博d的生成概率如式(1)所示。

(1)

式(1)中,wd是微博d中的詞,Nd是微博d中的詞數,wdn表示微博d中的第n個詞,zdn表示微博d中第n個詞的主題,ld是微博d的轉發標記,f(wdn|φzdn,ld)是在當前轉發標記ld下生成詞wdn的似然函數。符號說明見表2。

表2 模型中主要參數說明

這里使用D表示用戶u的瀏覽歷史微博。D中第d條微博包含一個詞序列wd=wdnNdn=1,其中Nd是第d條微博的字數,wdn是字典W中的一個字。Ad表示第d條微博的作者。給定一個用戶,一條微博以及它的作者,那么任務就是判斷該用戶是否會轉發這條微博。

模型的生成過程如圖5:

(1) 用戶關注的每個用戶a∈A

—生成ψa~Beta(λ)

(2) 對于每一個主題z∈K,和轉發標記l,根據φz,l~Dir(δl),得到主題詞分布φz,l。

(3) 對于每一條微博d∈D

a) 生成轉發標記ld~Binomial(ψa)

b) 生成正則化后的轉發次數xd~Beta(ηld)

c) 根據θd~Dir(α),得到主題分布θ°d

d) 微博中每一個詞n=1,...,Nd

—根據分布zdn~Mult(θd),得到主題zdn

—根據分布wdn~Mult(φzdn,ld),得到詞wdn

圖5 ASC-LDA圖模型

3.2.1 模型推斷

我們使用Gibbs采樣學習模型的參數,采樣過程分為對每個詞的主題z采樣和對微博的轉發標記l進行采樣。

對z采樣: 微博中的每一詞wdn在轉發標記l下,分配主題zdn=k條件概率:

(2)

對l采樣: 當給定每個詞的主題z的情況下,對第d篇文檔的轉發標記利用式(3)進行采樣:

p(ld=l|z,wd,l,xd)∝··

(3)

3.2.2 轉發預測

給定一條用戶看到的未標記的微博d,首先通過迭代采樣,直到隱含變量穩定后,計算得到該微博的主題分布,然后通過式(6)計算這條微博被用戶轉發的概率:

(6)

式(6)中p(wdn|wd)是詞wdn在微博d中的權重,權重值通過TD-IDF計算;p(zdn|wd,z,l)是轉發標記l時生成主題zdn的概率。

4 實驗

4.1 實驗設置

在第二節中介紹了數據集的收集,通過恢復核心用戶的瀏覽歷史,我們可以模擬用戶的實際使用環境。每一個用戶我們將瀏覽歷史中的70%作為訓練集,剩下30%作為測試集,統計信息見表3。

表3 實驗數據集統計信息

實驗中使用精度(P)、召回率(R)和F1-score(F1)來評價模型效果。其中F1-score是精度和召回率的調和平均數。模型進行500次迭代采樣。在基于LDA的模型中,α設為50/K,β=0.1。其中K是主題個數,模型中參數λ1和λ2均設為0.1,通過試驗,我們將所有基于LDA的模型的主題個數設為20。

實驗中將我們的方法與以下幾個baseline方法進行比較:

(1)Na?veBayes: 轉發預測任務被看作一個二分類問題,每條微博轉發與不轉發標記代表兩類,通過樸素貝葉斯模型計算給定一條微博各個標記的后驗概率。

(2)SVMrank: 我們實現Luo等人[13]提出的方法,該方法利用微博內容,粉絲的身份信息、關注時間以及興趣等特征來完成這一任務。

(3)SC-LDA: 同樣基于LDA模型實現,在完整模型的基礎上去除作者信息的影響進行訓練。在得到每篇微博的主題分布后,對于用戶u,給定他看到的一篇微博,轉發標記打分計算如式(7)所示。

(7)

?AC-LDA: 該方法忽略結構信息的影響,轉發標記打分計算如式(8)所示。

(8)

4.2 實驗結果

我們將從兩個方面對提出的方法進行評估分析:

1)與其他當前最好方法進行比較。

2)評估實驗參數對實驗結果的影響。

表4展示了各種方法的實驗結果。通過結果可以看出: 1)Na?ve Bayes實驗效果最差。2)我們提出的方法效果明顯好于其他方法。3)各個特征都對實驗結果有影響。

表4 實驗對比結果

其中C-LDA是只考慮文本特征的實驗結果,但也比Na?ve Bayes和SVM方法要好。將它分別與AC-LDA和SC-LDA比較可以發現,作者信息有助于提高精確度,而結構信息對召回率有較大影響。比較C-LDA和ASC-LDA的F1-score可以發現: 在作者信息和結構信息同時作用下實驗結果提高大概35%,效果明顯。

圖6中將用戶根據微博數分為五組,分析了微博數對實驗的影響。由圖6可見,用戶發送的微博越多實驗結果越好。同時通過圖1可知,微博數量超過1 000條的用戶占用戶總數的38.5%,所以這部分用戶對實驗結果有較大影響。

圖6 用戶微博數對實驗結果的影響

模型中有一些超參數,其中主題數是最重要的參數之一。表5中展示了主題數目對實驗效果的影響,從表中可以看出,在主題數目為20時效果最好。

表5 主題數目對ASC-LDA方法實驗結果的影響

5 總結

本文首先從真實的社交網絡中收集了大量的微博數據以及網絡信息,重構了用戶的實際使用環境。然后通過大量的數據觀察和分析,發現了影響用戶轉發行為的重要因素: 作者信息、用戶興趣和微博熱度。基于此,我們提出一個新穎的預測微博轉發行為的方法ASC-LDA。該方法基于LDA模型,同時利用結構信息、作者信息和文本信息對用戶行為進行建模。實驗表明,結構信息、作者信息和文本信息都對實驗結果有影響。我們的方法效果優于當前最好的方法, F值比其他Baseline方法高出35%—45%。

[1] State of the Media: The Social Media Report 2012[DB/OL].http://www.nielsen.com/us/en/reports/2012/state-of-the-media-the-social-media-report-2012.html,2012.

[2] Rodrigues T, Benevenuto F, Cha M,et al. On word-of-mouth based discovery of the web[C]//Proceedings of SIGCOMM ′11, 2011.

[3] Castellanos M, Dayal U, Hsu M, et al. Lci: a social channel analysis platform for live customer intelligence[C]//Proceedings of SIGMOD ′11, 2011.

[4] Homan D L, Fodor M. Can you measure the roi of your social media marketing[C]//Proceedings of MIT Sloan Management Review, 2010:41-49.

[5] Chang J, Kim H J. Twitter search methods using retweet information[C]//Proceedings of BUSTECH ′12, 2012:67-71.

[6] Gupta M, Gao J, Zhai C, et al. Predicting future popularity trend of events in microblogging platforms[C]//Proceedings of the American Society for Information Science and Technology, 2012:1-10.

[7] Hong L, Dan O, Davison B D. Predicting popular messages in twitter[C]//Proceedings of WWW ′11, 2011.

[8] Liu L, Tang J, Han J, Jiang M, et al. Mining topic-level influence in heterogeneous networks[C]//Proceedings of CIKM ′10, 2010.

[9] Zhang J, Liu B, Tang J, et al. Social influence locality for modeling retweeting behaviors[C]//Proceedings of IJCAI′13, 2013.

[10] Naveed N, Gottron T, Kunegis J, et al. Bad news travel fast: A content-based analysis of interestingness on twitter[C]//Proceedings of Web Science Conf., 2011.

[11] Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in twitter[C]//Proceedings of Workshop on Computational Social Science and the Wisdom of Crowds, NIPS, 2010.

[12] Petrovic S, Osborne M, Lavrenko V. Rt to win! predicting message propagation in twitter[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media,2011.

[13] Luo Z, Osborne M, Tang J, et al. Who will retweet me?: Finding retweeters in twitter[C]//Proceedings of SIGIR ′13, 2013.

[14] Suh B, Hong L, Pirolli P, et al. Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C]//Proceedings of SocialCom′10, 2010.

[15] Blei D M, Ng A Y and Jordan M L. Latent Dirichlet Allocation[J].Journal of Machine Learning Research 2003: 993-1022.

[16] Feng W, Wang J. Retweet or not?: personalized tweet re-ranking[C]//Proceedings of the sixth ACM international conference on Web search and data mining, 2013:577-586.

[17] Luo Z, Wang Y, Wu X. Predicting retweeting behavior based on autoregressive moving average model[C]//Proceedings of Web Information Systems Engineering-WISE 2012, 2012:777-782.

[18] Peng H K, Zhu J, Piao D, et al. Retweet modeling using conditional random fields[C]//Proceedings of ICDMW ′11, 2011.

[19] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//Proceedings of HICSS ′10, 2010.

[20] Nagarajan M, Purohit H, Sheth A P. A qualitative examination of topical tweet and retweet practices[C]//Proceedings of the ICWSM, 2010.

[21] Letierce J, Passant A, Decker S, et al. Understanding how twitter is used to spread scientific messages[C]//Proceedings of Web Science Conference, 2010.

[22] Yu L L, Asur S, Huberman B A. Artificial inflation: The real story of trends and trend-setters in sina weibo[C]//Proceedings of Social Com-PASSAT ′12, 2012.

E-mail: qi_zhang@fudan.edu.cn

猜你喜歡
文本用戶影響
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 爆操波多野结衣| 亚洲色大成网站www国产| 亚洲AV无码乱码在线观看代蜜桃| 国产成人亚洲精品蜜芽影院| a级毛片视频免费观看| 丝袜无码一区二区三区| 99精品这里只有精品高清视频| 婷婷在线网站| 99视频精品全国免费品| 玖玖精品视频在线观看| A级毛片高清免费视频就| 黄色一级视频欧美| 国产黄色爱视频| 无码又爽又刺激的高潮视频| 精品国产成人av免费| 国产熟女一级毛片| 欧美福利在线| 亚洲男人的天堂久久香蕉网| 91色在线视频| 亚洲一区二区成人| 国产精品福利尤物youwu| 一本大道香蕉久中文在线播放| 久久成人国产精品免费软件| 亚洲综合第一区| 亚洲Av综合日韩精品久久久| 色综合久久88| 六月婷婷综合| 亚洲欧美在线精品一区二区| 污污网站在线观看| 色婷婷亚洲综合五月| 久久亚洲综合伊人| 精品视频在线观看你懂的一区| 亚洲AV无码久久精品色欲| 国产99在线观看| 五月婷婷综合在线视频| 色老头综合网| 国产在线精彩视频二区| av午夜福利一片免费看| 毛片一级在线| 中文字幕伦视频| 国产精品视频系列专区| 在线亚洲小视频| 国产成人三级| 国产好痛疼轻点好爽的视频| 综合色区亚洲熟妇在线| 国产美女一级毛片| 日日摸夜夜爽无码| 日韩午夜片| 国产电话自拍伊人| 国产视频a| 在线观看无码av免费不卡网站| 成人中文在线| 日韩成人免费网站| 高潮毛片免费观看| 成人一区专区在线观看| 自拍欧美亚洲| 青青草原国产免费av观看| 97亚洲色综久久精品| 亚洲日韩每日更新| 国产一区二区福利| 欧美精品黑人粗大| 国产h视频在线观看视频| 99热这里只有精品在线播放| 亚洲天堂福利视频| 国产高清精品在线91| 九色91在线视频| 播五月综合| 欧美在线导航| 亚洲第一区欧美国产综合| 97视频免费在线观看| 欧美一区二区自偷自拍视频| 91热爆在线| 精品三级网站| 欧美一级99在线观看国产| 欧美日韩一区二区三区四区在线观看| 91啦中文字幕| 国产欧美一区二区三区视频在线观看| 亚洲国产看片基地久久1024| 国产欧美日韩91| 久久青草免费91观看| 凹凸国产分类在线观看| av在线无码浏览|