999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征學習的微博轉發預測方法

2016-12-26 08:14:50馬曉峰陳觀淡
計算機應用與軟件 2016年11期
關鍵詞:特征用戶模型

馬曉峰 王 磊 陳觀淡

1(上海數據分析與處理技術研究所 上海 201112)2(中國科學院自動化研究所復雜系統管理與控制國家重點實驗室 北京 100190)

?

基于混合特征學習的微博轉發預測方法

馬曉峰1王 磊2陳觀淡2

1(上海數據分析與處理技術研究所 上海 201112)2(中國科學院自動化研究所復雜系統管理與控制國家重點實驗室 北京 100190)

微博轉發預測是研究信息傳播的關鍵問題之一,對于輿情監控、廣告投放、商業決策具有重要意義。用戶興趣、微博作者影響力及微博內容等信息均影響信息傳播過程。轉發行為預測的挑戰性問題在于如何捕獲更多有意義的影響因素以提高預測性能。提出基于混合特征學習的轉發預測方法,該方法首先引入并分析了局部社會影響力特征、用戶特征、微博內容特征的計算方法;接著,基于分類器建立預測模型;最后,比較了不同類型微博的轉發預測效果。在新浪微博平臺數據的實驗結果表明,局部社會影響力特征、用戶特征、微博內容特征都對轉發預測有較大影響,其中微博內容特征的影響最大。隨機森林預測效果最好,準確率達到83.1%;與樸素貝葉斯、邏輯回歸、支持向量機模型相比,準確率平均提高約7.4%,最高提高約10.8%。另外,該方法對自然災害、環境、審判、維權等類型的微博進行轉發預測時,效果更加明顯,說明這類事件轉發的規律性更強。

微博 混合特征學習 轉發預測

0 引 言

隨著Web2.0技術的快速發展,以微博等為代表的社會媒體平臺以其內容豐富、交互性強、實時便捷等特點深受用戶喜愛。截至2015年9月30日,國內最大的微博平臺之一的新浪微博的月活躍人數達到2.22億,較2014年同期相比增長33%,日活躍用戶達到1億,較去年同期增長30%。可見,微博用戶群保持著持續快速增長[1]。當某一社會事件發生后,人們可以通過該平臺第一時間獲取事件信息,發表自己的觀點,轉發感興趣的信息等。用戶的轉發行為影響著微博中信息的傳播趨勢,具有傳播快、覆蓋廣的特點。通過轉發,某些微博可快速成為關注,造成影響。如何有效從轉發行為中學習用戶的興趣和行為規律,挖掘影響用戶轉發行為的重要要素,進而充分利用這些要素對未知的用戶轉發行為進行準確預測,對于熱點話題檢測與跟蹤、輿情監管及商業營銷至關重要。這是當前的研究熱點,具有廣闊的應用前景[2,3]。

基于混合特征學習的預測方法將轉發行為預測作為二元分類問題,具有簡單、直觀的特點。其關鍵挑戰性問題是分析影響用戶轉發行為的因素,將其作為特征,然后訓練分類器得到分類模型進行預測。目前,微博轉發行為預測模型所采用的特征集中在用戶特征及微博內容特征。社會影響力反映了人們間觀點、行為的相互影響方式,用戶在社交網絡中的社會關系,即與其關聯較緊密的其他人的行為對該用戶的轉發行為也有重要影響。新近研究表明,根據用戶自我網絡計算得到的用戶成對影響力和結構影響力有效量化了局部社會影響力,具有較強的預測能力[4]。同時,面向領域的不同社會事件類型對于轉發預測也有影響。因此,本文首先設計了有效融合用戶特征、微博內容特征及體現局部社會影響力的自我網絡特征的集成化微博轉發行為預測方法。以周邊用戶的影響力特征為基礎,輔以其他類型的社會特征、話題特征、微博特征、作者特征和時間特征,再結合機器學習方法對人物的轉發行為進行預測。接著,基于面向領域的事件分類體系,在新浪微博的實際數據集上進行了測試,并細致分析了不同事件的轉發預測效果,以便于更深層次理解用戶轉發行為的深層次原因,為輿情監管提供有效的輔助決策支持。

1 相關研究

微博轉發預測依賴于對轉發影響因素的分析,Guan等分析了熱點事件中用戶轉發行為的影響因素,包括微博用戶性別、身份、是否插入圖片、URL等[5];Rudat等分析了用戶引導、微博主題以及信息量因素對微博轉發行為的影響[6];Morchid等從微博內容和用戶方面采用PCA多微博轉發的主要影響因素進行了分析[7];吳凱等構建了基于興趣相似度、社會關系、文本特征與用戶屬性影響、用戶受激活次數的影響4種指標的信息傳播模型[8]。

微博轉發預測方面,Petrovic等對Twitter平臺的轉發預測進行研究,考慮了粉絲數、關注數、tweet發布量等在內的用戶相關特征以及標簽、URL、tweet長度等微博本身特征,基于passive-aggressive算法構建轉發預測模型[9];張旸等采用特征加權算法構建了微博轉發預測模型[10];Suh等人選取了URL、標簽、關注人數等因素,使用主成份分析方法(PCA)分析了影響用戶轉發的主要因素,最后結合所選因素應用廣義線性模型分析影響因素與轉發行為之間的關系。但這些研究僅僅是對轉發行為的統計分析,缺少對用戶行為的預測[11]。文獻[3]提出融合背景熱點信息的轉發興趣、轉發活躍度、行為模式等特征,基于分類算法構建了面向熱點話題相關微博的轉發預測模型;文獻[12]提取了用戶間的微網絡結構、權重比率、用戶個人信息等特征,提出了一個隨機森林微博轉發預測算法;文獻[13,14]選取用戶名、關注人數、微博包含的單詞個數等特征,采用基于概率的協同過濾模型對用戶的轉發行為進行預測;文獻[15,16]選取了22個影響因素,并采用因子圖模型進行預測分析,對于用戶轉發行為預測取得了較高的精度。李英樂等從5個影響指標出發提出了基于支持向量機(SVM)的微博轉發規模預測模型[17]。Bandari等將微博轉發數量劃分為(1~20,20~100,100~2400)不同等級,以此為基礎構建多分類模型來預測微博轉發規模[18]。文獻[19]采用BP神經網絡對突發事件下的微博轉發量進行了預測,并通過改變樣本數對預測結果的穩定性進行了測試,得到了有一定參考價值的預測結果。

2 問題描述

微博轉發行為預測可形式化地定義為如下問題:給定微博m,用戶v,預測用戶v是否會對微博m進行轉發。用sv,m代表用戶的轉發狀態,sv,m=1代表已轉發,sv,m=0代表尚未轉發,轉發行為預測問題即對sv,m的狀態進行預測。

3 集成的微博轉發預測方法

3.1 方法框架

預測方法整體框架如圖1所示。

圖1 微博轉發行為預測框架

3.2 特征選取

本文設計了考慮局部社會影響力特征、用戶特征及微博內容特征的集成化的特征選取體系,如表1所示。

表1 微博特征選取體系

各特征的計算描述方法如下:

1) 用戶影響力特征

文獻[4]證明用戶的影響力有利于提升用戶轉發預測準確率。受此啟發,本文首先分析影響力特征,提取特定用戶的1-ego網絡G,即由該特定用戶、其關注者和被關注者組成的完整網絡。設網絡中已對m進行轉發的用戶為激活用戶,沒有進行轉發的用戶為未激活用戶。通過以上信息,本文提取該網絡中針對特定人物的成對影響力特征和結構影響力特征。

成對影響力是網絡中已有的各激活用戶對特定用戶的影響力之和。已有研究證明[4],基于重啟隨機游走(RWR)計算得到的成對影響力與轉發概率之間存在較強的正相關關系。因此本文基于重啟隨機游走來計算成對影響力。

具體算法步驟如下:

(2) 從網絡中提取鄰接矩陣A;

(1)

f(Sv,t,G)=e-d|C(Sv,t)|

(2)

將成對影響力和結構影響力結合,總的影響力計算式如下:

Q(Sv,t,G)=w×g(Sv,t,G)+(1-w)×f(Sv,t,G)

(3)

其中w為平衡兩項的系數,Q(Sv,t,G)即為影響力特征。

2) 社會特征

除影響力特征外,還有一些其他類型的社會特征,包括:

用戶之前轉發v′發布的微博的次數;

用戶之前在自己的微博中提到v′的次數。

3)話題特征

微博m的內容是否是用戶感興趣的話題也是影響用戶轉發行為的重要因素之一。因此,我們提取以下話題特征:

TF-IDF特征:根據用戶以往發布的微博構建詞袋(BOW)模型,得到以TF-IDF為權重的詞向量,計算其與微博m的TF-IDF詞向量的余弦相似度;

隱話題特征:用LDA對用戶以往發布的微博進行分析得到代表用戶興趣的話題向量,同樣用LDA對微博m進行分析,計算兩話題向量之間的KL散度,即:

(4)

其中p、q分別是用戶以往發布微博、微博m的LDA話題分布;

彈指一輝間,每次看到《農家致富顧問》,我就想起與她二十余年的情緣,翻開我多年珍藏的《農家致富顧問》剪貼簿和雜志社編輯、記者寄給我的厚厚一疊泛黃的信和樣刊,禁不住思潮翻涌,思緒萬千。我與《農家致富顧問》感情之深,在這里還要特別感謝《農家致富顧問》曾經刊登了我編寫的“農家致富顧問助我走上致富路”……,豆腐塊小文!使我久久難以忘懷,《農家致富顧問》真好,平易近人。

實體特征:從用戶以往發布的微博得到其使用過的實體的分布,計算該分布與微博m中的實體分布的余弦相似度。

4) 微博自身的特征

微博自身的特征包括:URL數目、Hashtag數目、@他人的數目、微博m中的文字數目。

5) 微博作者的特征

微博作者特征包括:該作者的關注者數量、關注該作者的用戶數量、作者是否是認證用戶、作者發布的微博的總量。

4 實驗結果分析

4.1 數據集描述與評價準則

本文從新浪微博平臺隨機抽樣了1522個用戶,如表2所示,爬取了2014年1月23日到2015年3月26日期間27 094條轉發記錄,涉及原創微博6892條。另外從微博作者的直接粉絲以及間接粉絲(粉絲的粉絲)中隨機采樣非轉發記錄,為保證類平衡性,采樣的負樣本與正樣本個數相同,最終總共得到54 188條數據。

表2 新浪微博隨機采樣數據

利用該實驗數據集,分別訓練樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型,并利用10折交叉驗證對預測效果進行評價。使用的性能指標包括:精度、召回率、F1、準確率。精度Precision、召回率Recall、F1、準確率Accuracy的計算式為:

(5)

(6)

(7)

(8)

其中TP表示測試數據中系統預測轉發并且實際數據也是轉發的實例個數;FP表示系統預測轉發并且實際數據沒有轉發的實例個數;TN表示系統預測不轉發并且實際數據也不轉發的實例個數;FN表示系統預測不轉發但實際數據轉發的實例個數。

4.2 實驗結果

1) 分類算法比較

樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型的預測效果如表3所示。可以看出隨機森林準確率達到了83.1%,取得了最好的分類效果。

表3 不同分類算法預測效果

2) 特征重要性比較

為了比較各類特征對于預測效果的作用,本文對比去除某類特征后的轉發預測準確率和原模型預測準確率。不同類別特征對于預測準確率的影響如表4所示,可以看出三個類別的特征對于預測準確率都有較大的影響。其中,微博內容特征對預測效果影響最大,不使用微博內容特征的模型預測準確率將會降低至68.5%;未使用局部影響力特征將會使準確率降低將近2%。可見,綜合考慮微博內容特征、用戶特征及局部影響力特征可以有效提高預測準確率。

表4 不同微博特征預測效果

3) 不同事件類型的微博影響力預測效果對比

本文基于事件分類體系,采用不同關鍵詞從實驗數據集中的微博中選取了自然災害、環境、公共突發、暴恐、犯罪、審判、公共衛生、政治、反腐、維權、活動類、周邊國家、政策出臺、軍事等14個類別的微博,比較不同類別中微博轉發預測的準確率。各個類別的數據情況如表5所示。

表5 不同類型的微博數據情況

不同類型中微博轉發預測準確率如表6所示。可以看出,在所有類別中隨機森林都取得了最好的預測準確率。在對自然災害、環境、審判、維權等類型的微博進行轉發預測時,效果更加明顯,說明這類事件轉發的規律性更強。而對于公共突發、暴恐、軍事等類型的事件,轉發預測的準確率相對較低。

表6 不同類型微博轉發預測效果

續表6

5 結 語

微博轉發預測是研究信息傳播的關鍵問題之一,對于輿情監控、廣告投放、商業決策有著重要意義。本文綜合局部社會影響力特征、用戶特征、微博內容特征,提出了基于混合特征學習的轉發預測方法。利用新浪微博平臺數據,本文對比了樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型的預測效果,結果表明隨機森林取得了最好的效果,準確率達到83.1%。另外,本文還對比不同特征對于轉發預測的影響,結果表明局部社會影響力特征、用戶特征、微博內容特征都對轉發預測有著較大影響,其中微博內容特征的影響最大。最后,本文比較了不同類型微博的轉發預測準確率,結果表明,在對自然災害、環境、審判、維權等類型的微博進行轉發預測時,效果更加明顯,說明這類事件轉發的規律性更強。而對于公共突發、暴恐、軍事等類型的事件,轉發預測的準確率相對較低。

[1] 樊博.2015微博用戶發展報告[R/OL].[2015-12-15].http://data.weibo.com/report/reportDetail?id=297.

[2] 李洋,陳毅恒,劉挺.微博信息傳播預測研究綜述[J].軟件學報,2016,27(2):247-263.

[3] 陳江,劉瑋,巢文涵,等.融合熱點話題的微博轉發預測研究[J].中文信息學報,2015,29(6):150-158.

[4] Zhang J,Liu B,Tang J,et al.Social Influence Locality for Modeling Retweeting Behaviors[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2013:2761-2767.

[5] Guan W,Gao H,Yang M,et al.Analyzing user behavior of the micro-blogging website Sina Weibo during hot social events[J].Physica A:Statistical Mechanics and Its Applications,2014,395:340-351.

[6] Rudat A,Buder J,Hesse F W.Audience design in Twitter:Retweeting behavior between informational value and followers’ interests[J].Computers in Human Behavior,2014,35:132-139.

[7] Morchid M,Dufour R,Bousquet P M,et al.Feature selection using Principal Component Analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.

[8] 吳凱,季新生,劉彩霞.基于行為預測的微博網絡信息傳播建模[J].計算機應用研究,2013,30(6):1809-1812.

[9] Sasa Petrovic,Miles Osborne,Victor Lavrenko.RT to Win! Predicting Message Propagation in Twitter[C]//Fifth International AAAI Conference on Weblogs and Social Media(ICWSM),2011.

[10] 張旸,路榮,楊青.微博客中轉發行為的預測研究[J].中文信息學報,2012,26(4):109-114,121.

[11] Bongwon Suh,Lichan Hong,Peter Pirolli,et al.Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing (SocialCom). Minneapolis,USA:IEEE,2010:177-184.

[12] 羅知林,陳挺,蔡皖東.一個基于隨機森林的微博轉發預測算法[J].計算機科學,2014,41(4),62-64,74.

[13] Zaman T R,Herbrich R,Gael J V,et al.Predicting information spreading in Twitter[J].Computational Social Science and the Wisdom of Crowds Workshop,2010.

[14] Stern D H,Herbrich R,Graepel T.Matchbox:Large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,2009:111-120.

[15] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th International Conference on Information and Knowledge Management,Toronto,Canada,2010:1633-1636.

[16] 楊子.社會網絡分析中的預測模型[D].北京:清華大學,2011.

[17] 李英樂,于洪濤,劉力雄.基于SVM的微博轉發規模預測方法[J].計算機應用研究,2013,30(9):2594-2597.

[18] Roja Bandari,Sitaram Asur,Bernardo A.Huberman.The Pulse of News in Social Media: Forecasting Popularity[C]//6th International AAAI Conference on Weblogs and Social Media(ICWSM),2012.

[19] 鄧青,馬曄風,劉藝,等.基于BP神經網絡的微博轉發量的預測[J].清華大學學報:自然科學版,2015,55(12):1342-1347.

A MICROBLOGGING RETWEET PREDICTION METHOD BASED ON HYBRID FEATURES LEARNING

Ma Xiaofeng1Wang Lei2Chen Guandan2

1(Shanghai Data Analysis and Processing Technology Research Institute,Shanghai 201112,China)=2(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

Microblogging retweet prediction is one of the key problems in information dissemination, which plays important roles in public opinion monitoring, advertising, and business decision making. The process of information dissemination is influenced by many factors such as user interest, microblogging author’s influence, and content of post, etc. The challenge of improving prediction performance is how to capture the important features for retweet prediction. In this paper, we propose a retweet prediction method based on hybrid features learning. Firstly, the method introduces and analyses the impacts of hybrid features including social influence locality, user features, and microblogging content features. Then, it builds the retweet prediction model based on classification algorithms. Finally, it compares the results of different types of microblog. Experimental results on Sina Weibo datasets show that local social influence features, user features and microblogging content features affect the retweet prediction,and the greatest impact is the micro-blog content features. Random forest method has the best performance, and the accuracy rate can reach 83.1%. Compared to Naive Bayes, logistic regression and SVM, the accuracy rate increased by an average of about 7.4%, the highest increase of about 10.8%. In addition, the method has an advantage on topics about natural disasters, environment, trial, rights, which shows that these kinds of events contain stronger retweet patterns.

Microblogging Hybrid features learning Retweet prediction

2016-08-01。馬曉峰,博士生,主研領域:社會媒體分析與處理。王磊,高工。陳觀淡,博士生。

TP181

A

10.3969/j.issn.1000-386x.2016.11.058

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 在线a视频免费观看| 操国产美女| 激情五月婷婷综合网| 亚洲精品在线观看91| 91精品福利自产拍在线观看| 91久久国产热精品免费| 亚洲国产综合精品中文第一| 国产高清不卡| 天天综合网色中文字幕| 亚洲va精品中文字幕| 欧亚日韩Av| 欧美福利在线观看| 国产午夜不卡| 国产毛片高清一级国语| 精品自拍视频在线观看| 日韩欧美国产三级| 国产91小视频| 欧美精品另类| 中文字幕无码电影| 亚洲黄网在线| 色偷偷av男人的天堂不卡| 亚洲中文久久精品无玛| 国产精品永久免费嫩草研究院| 亚洲欧美自拍视频| 99在线免费播放| 亚洲国产天堂在线观看| 麻豆精品国产自产在线| 18禁高潮出水呻吟娇喘蜜芽| 国产午夜福利在线小视频| 激情六月丁香婷婷| 亚洲欧美另类日本| 久久夜色精品| 91精品国产一区自在线拍| 亚洲日韩国产精品综合在线观看| 国产成人午夜福利免费无码r| 美女免费黄网站| 亚洲成a人片在线观看88| 日韩福利视频导航| 亚洲国产高清精品线久久| 九九热这里只有国产精品| 国产香蕉97碰碰视频VA碰碰看| 精品五夜婷香蕉国产线看观看| 99热这里只有精品在线观看| 久久久久国产精品熟女影院| 亚洲激情99| 久久亚洲黄色视频| 一本大道视频精品人妻 | 国产精品亚洲αv天堂无码| 国产精品分类视频分类一区| aⅴ免费在线观看| 亚洲 欧美 中文 AⅤ在线视频| 亚洲国产在一区二区三区| 久久久久无码精品| 日本欧美中文字幕精品亚洲| 婷婷色中文网| 欧美日韩一区二区在线播放| 中文字幕在线一区二区在线| 国产黄网永久免费| 欧美日韩动态图| 国产毛片片精品天天看视频| 色网站免费在线观看| 国产精品亚洲日韩AⅤ在线观看| 国产微拍一区| 亚洲精品无码久久毛片波多野吉| 伊人激情综合| 狠狠操夜夜爽| 国产精品专区第1页| 久久国产拍爱| 国产自在线拍| 91av成人日本不卡三区| 人妻精品全国免费视频| 91av成人日本不卡三区| 美女扒开下面流白浆在线试听| 国产欧美精品一区aⅴ影院| 亚洲成人高清无码| 日韩免费视频播播| 国产乱子伦无码精品小说| 欧美日韩中文国产va另类| 日韩欧美综合在线制服| 久操线在视频在线观看| 国产精品久久久免费视频| 综合色婷婷|