微博轉(zhuǎn)發(fā)是微博網(wǎng)絡(luò)中信息得以傳播的基礎(chǔ),對用戶影響力評估以及網(wǎng)絡(luò)營銷等具有重要意義。現(xiàn)有的方法在考慮影響用戶轉(zhuǎn)發(fā)行為的因素時,大多只考慮微博以及用戶屬性等特征,沒有考慮用戶興趣和用戶歷史行為規(guī)律等個性化特征,本文提出了基于LDA主題模型的用戶興趣與微博相似度計算方法,將計算結(jié)果作為用戶興趣特征,還提出了基于用戶轉(zhuǎn)發(fā)率、與上游用戶交互頻率的用戶歷史行為特征,最后融合用戶興趣特征、用戶歷史行為特征、上游用戶特征、微博特征,建立基于幾種常見分類模型的預(yù)測方法,在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提升預(yù)測準(zhǔn)確性,取得較好的預(yù)測效果。
【關(guān)鍵詞】微博轉(zhuǎn)發(fā) LDA主題模型 用戶興趣 用戶歷史行為規(guī)律 分類模型
1 引言
微博,作為web2.0的典型應(yīng)用之一,是近年來興起的信息交流與傳播平臺,表現(xiàn)出非常強(qiáng)勁的發(fā)展勢頭。由于具有龐大的用戶規(guī)模以及便捷快速的消息發(fā)布與傳播方式,微博已發(fā)展成為當(dāng)前信息傳播與輿論擴(kuò)散的重要平臺。如何對微博的信息傳播機(jī)制進(jìn)行有效的檢測與管控,增強(qiáng)對熱點(diǎn)事件的預(yù)見性,使其能夠更好地服務(wù)于社會是當(dāng)下亟需重視的問題。因此,微博轉(zhuǎn)發(fā)作為微博信息傳播的重要過程,研究其具有重要意義,現(xiàn)有的研究將用戶轉(zhuǎn)發(fā)問題看成是二分類問題,但大多沒考慮用戶的興趣和用戶的歷史行為對用戶轉(zhuǎn)發(fā)行為的影響。
2 問題描述
若給出了用戶的歷史轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā)微博集合,對用戶轉(zhuǎn)發(fā)行為的預(yù)測問題可看成是機(jī)器學(xué)習(xí)中的二分類問題,通過對微博集合進(jìn)行訓(xùn)練,可得到用戶轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā)微博的分類結(jié)果。
3 融合興趣和行為的用戶轉(zhuǎn)發(fā)行為預(yù)測
3.1 用戶興趣特征
本文通過LDA主題模型去建立用戶的興趣并計算用戶興趣與微博的相似性,再將計算結(jié)果作為用戶興趣特征。
3.2 用戶歷史行為特征
用戶的歷史行為包括用戶轉(zhuǎn)發(fā)活躍度以及用戶與上游用戶的交互強(qiáng)度。
本文按如下方式定義用戶的轉(zhuǎn)發(fā)活躍度frr:
其中,nrepost表示用戶最近發(fā)布的微博中轉(zhuǎn)發(fā)微博的數(shù)量,npost表示用戶最近發(fā)布所有微博的數(shù)量,frr越大說明用戶最近發(fā)表的微博中轉(zhuǎn)發(fā)微博的比例越高。
本文按如下方式定義用戶的接受用戶與上游用戶之間的交互強(qiáng)度fuv。
其中u表示上游用戶,v表示接受用戶, nv表示一段時間t內(nèi)接受用戶轉(zhuǎn)發(fā)微博的次數(shù),nuv表示一段時間t接受用戶轉(zhuǎn)發(fā)的微博中上游用戶微博的數(shù)量。
3.3 上游用戶特征
上游用戶的特征包括上游用戶的粉絲數(shù)、注冊年限、上游用戶身份、認(rèn)證狀態(tài)。
3.4 微博內(nèi)容特征
微博內(nèi)容特征包括微博中是否@他人,是否含有主題標(biāo)簽,微博發(fā)表時間段以及是否含有超鏈接。
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
本文基于新浪微博開放平臺提供的API來抓取所需的數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)整體分布見表1。
表1:實(shí)驗(yàn)數(shù)據(jù)集分布
轉(zhuǎn)發(fā)微博 不轉(zhuǎn)發(fā)微博 總數(shù)
62,966 497,130 560,126
4.2 實(shí)驗(yàn)結(jié)果及分析
轉(zhuǎn)發(fā)行為預(yù)測結(jié)果如圖1所示,使用不同的分類模型將有不同的預(yù)測效果,其中使用邏輯回歸進(jìn)行預(yù)測時準(zhǔn)確率達(dá)到0.73,召回率達(dá)到0.75,F(xiàn)1度量值達(dá)到0.75。
為了證明本文考慮的用戶興趣和行為特征的有效性,將結(jié)果和Zhang等人的工作進(jìn)行比較,都使用邏輯回歸模型進(jìn)行預(yù)測,比較結(jié)果如表2所示。
表2:預(yù)測結(jié)果對比
分類方法 準(zhǔn)確率 召回率 F1度量值
本文的方法 0.735 0.752 0.752
張的方法 0.708 0.733 0.735
可以看出本文所提出的的方法預(yù)測結(jié)果更加準(zhǔn)確,能夠?qū)?zhǔn)確率提升將近3%,說明本文考慮的用戶興趣和行為特征能夠提高預(yù)測準(zhǔn)確性。
參考文獻(xiàn)
[1]Xu Z,Yang Q.Analyzing user retweet behavior on Twitter.In:Proc.of the ASONAM 2012.Washington: IEEE Computer Society,2012.46-50.[doi: 10.1109/ASONAM.2012.18]
[2]張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測研究[J].中文信息學(xué)報,2012,26(04):109-114
[3]曹玖新,吳江林,石偉,劉波,鄭嘯,羅軍舟.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機(jī)學(xué)報,2014,37(04):779-790.
[4]Zhang J,Liu B,Tang J,Chen T,et al.Social influence locality for modeling retweeting behaviors[C]//Proceedings of the 23rd International Joint Conference on Artificial Intelligence (IJCAI),2013: 2761-2767.
作者簡介
劉清(1993-),男,江蘇省淮安市人。工學(xué)碩士,同濟(jì)大學(xué)學(xué)生。主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)數(shù)據(jù)挖掘研究。
作者單位
同濟(jì)大學(xué) 上海市 201800