999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征學(xué)習(xí)的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法

2016-12-26 08:14:50馬曉峰陳觀淡
關(guān)鍵詞:特征用戶模型

馬曉峰 王 磊 陳觀淡

1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190)

?

基于混合特征學(xué)習(xí)的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法

馬曉峰1王 磊2陳觀淡2

1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190)

微博轉(zhuǎn)發(fā)預(yù)測(cè)是研究信息傳播的關(guān)鍵問題之一,對(duì)于輿情監(jiān)控、廣告投放、商業(yè)決策具有重要意義。用戶興趣、微博作者影響力及微博內(nèi)容等信息均影響信息傳播過程。轉(zhuǎn)發(fā)行為預(yù)測(cè)的挑戰(zhàn)性問題在于如何捕獲更多有意義的影響因素以提高預(yù)測(cè)性能。提出基于混合特征學(xué)習(xí)的轉(zhuǎn)發(fā)預(yù)測(cè)方法,該方法首先引入并分析了局部社會(huì)影響力特征、用戶特征、微博內(nèi)容特征的計(jì)算方法;接著,基于分類器建立預(yù)測(cè)模型;最后,比較了不同類型微博的轉(zhuǎn)發(fā)預(yù)測(cè)效果。在新浪微博平臺(tái)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,局部社會(huì)影響力特征、用戶特征、微博內(nèi)容特征都對(duì)轉(zhuǎn)發(fā)預(yù)測(cè)有較大影響,其中微博內(nèi)容特征的影響最大。隨機(jī)森林預(yù)測(cè)效果最好,準(zhǔn)確率達(dá)到83.1%;與樸素貝葉斯、邏輯回歸、支持向量機(jī)模型相比,準(zhǔn)確率平均提高約7.4%,最高提高約10.8%。另外,該方法對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。

微博 混合特征學(xué)習(xí) 轉(zhuǎn)發(fā)預(yù)測(cè)

0 引 言

隨著Web2.0技術(shù)的快速發(fā)展,以微博等為代表的社會(huì)媒體平臺(tái)以其內(nèi)容豐富、交互性強(qiáng)、實(shí)時(shí)便捷等特點(diǎn)深受用戶喜愛。截至2015年9月30日,國(guó)內(nèi)最大的微博平臺(tái)之一的新浪微博的月活躍人數(shù)達(dá)到2.22億,較2014年同期相比增長(zhǎng)33%,日活躍用戶達(dá)到1億,較去年同期增長(zhǎng)30%。可見,微博用戶群保持著持續(xù)快速增長(zhǎng)[1]。當(dāng)某一社會(huì)事件發(fā)生后,人們可以通過該平臺(tái)第一時(shí)間獲取事件信息,發(fā)表自己的觀點(diǎn),轉(zhuǎn)發(fā)感興趣的信息等。用戶的轉(zhuǎn)發(fā)行為影響著微博中信息的傳播趨勢(shì),具有傳播快、覆蓋廣的特點(diǎn)。通過轉(zhuǎn)發(fā),某些微博可快速成為關(guān)注,造成影響。如何有效從轉(zhuǎn)發(fā)行為中學(xué)習(xí)用戶的興趣和行為規(guī)律,挖掘影響用戶轉(zhuǎn)發(fā)行為的重要要素,進(jìn)而充分利用這些要素對(duì)未知的用戶轉(zhuǎn)發(fā)行為進(jìn)行準(zhǔn)確預(yù)測(cè),對(duì)于熱點(diǎn)話題檢測(cè)與跟蹤、輿情監(jiān)管及商業(yè)營(yíng)銷至關(guān)重要。這是當(dāng)前的研究熱點(diǎn),具有廣闊的應(yīng)用前景[2,3]。

基于混合特征學(xué)習(xí)的預(yù)測(cè)方法將轉(zhuǎn)發(fā)行為預(yù)測(cè)作為二元分類問題,具有簡(jiǎn)單、直觀的特點(diǎn)。其關(guān)鍵挑戰(zhàn)性問題是分析影響用戶轉(zhuǎn)發(fā)行為的因素,將其作為特征,然后訓(xùn)練分類器得到分類模型進(jìn)行預(yù)測(cè)。目前,微博轉(zhuǎn)發(fā)行為預(yù)測(cè)模型所采用的特征集中在用戶特征及微博內(nèi)容特征。社會(huì)影響力反映了人們間觀點(diǎn)、行為的相互影響方式,用戶在社交網(wǎng)絡(luò)中的社會(huì)關(guān)系,即與其關(guān)聯(lián)較緊密的其他人的行為對(duì)該用戶的轉(zhuǎn)發(fā)行為也有重要影響。新近研究表明,根據(jù)用戶自我網(wǎng)絡(luò)計(jì)算得到的用戶成對(duì)影響力和結(jié)構(gòu)影響力有效量化了局部社會(huì)影響力,具有較強(qiáng)的預(yù)測(cè)能力[4]。同時(shí),面向領(lǐng)域的不同社會(huì)事件類型對(duì)于轉(zhuǎn)發(fā)預(yù)測(cè)也有影響。因此,本文首先設(shè)計(jì)了有效融合用戶特征、微博內(nèi)容特征及體現(xiàn)局部社會(huì)影響力的自我網(wǎng)絡(luò)特征的集成化微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法。以周邊用戶的影響力特征為基礎(chǔ),輔以其他類型的社會(huì)特征、話題特征、微博特征、作者特征和時(shí)間特征,再結(jié)合機(jī)器學(xué)習(xí)方法對(duì)人物的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè)。接著,基于面向領(lǐng)域的事件分類體系,在新浪微博的實(shí)際數(shù)據(jù)集上進(jìn)行了測(cè)試,并細(xì)致分析了不同事件的轉(zhuǎn)發(fā)預(yù)測(cè)效果,以便于更深層次理解用戶轉(zhuǎn)發(fā)行為的深層次原因,為輿情監(jiān)管提供有效的輔助決策支持。

1 相關(guān)研究

微博轉(zhuǎn)發(fā)預(yù)測(cè)依賴于對(duì)轉(zhuǎn)發(fā)影響因素的分析,Guan等分析了熱點(diǎn)事件中用戶轉(zhuǎn)發(fā)行為的影響因素,包括微博用戶性別、身份、是否插入圖片、URL等[5];Rudat等分析了用戶引導(dǎo)、微博主題以及信息量因素對(duì)微博轉(zhuǎn)發(fā)行為的影響[6];Morchid等從微博內(nèi)容和用戶方面采用PCA多微博轉(zhuǎn)發(fā)的主要影響因素進(jìn)行了分析[7];吳凱等構(gòu)建了基于興趣相似度、社會(huì)關(guān)系、文本特征與用戶屬性影響、用戶受激活次數(shù)的影響4種指標(biāo)的信息傳播模型[8]。

微博轉(zhuǎn)發(fā)預(yù)測(cè)方面,Petrovic等對(duì)Twitter平臺(tái)的轉(zhuǎn)發(fā)預(yù)測(cè)進(jìn)行研究,考慮了粉絲數(shù)、關(guān)注數(shù)、tweet發(fā)布量等在內(nèi)的用戶相關(guān)特征以及標(biāo)簽、URL、tweet長(zhǎng)度等微博本身特征,基于passive-aggressive算法構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)模型[9];張旸等采用特征加權(quán)算法構(gòu)建了微博轉(zhuǎn)發(fā)預(yù)測(cè)模型[10];Suh等人選取了URL、標(biāo)簽、關(guān)注人數(shù)等因素,使用主成份分析方法(PCA)分析了影響用戶轉(zhuǎn)發(fā)的主要因素,最后結(jié)合所選因素應(yīng)用廣義線性模型分析影響因素與轉(zhuǎn)發(fā)行為之間的關(guān)系。但這些研究?jī)H僅是對(duì)轉(zhuǎn)發(fā)行為的統(tǒng)計(jì)分析,缺少對(duì)用戶行為的預(yù)測(cè)[11]。文獻(xiàn)[3]提出融合背景熱點(diǎn)信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,基于分類算法構(gòu)建了面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型;文獻(xiàn)[12]提取了用戶間的微網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)重比率、用戶個(gè)人信息等特征,提出了一個(gè)隨機(jī)森林微博轉(zhuǎn)發(fā)預(yù)測(cè)算法;文獻(xiàn)[13,14]選取用戶名、關(guān)注人數(shù)、微博包含的單詞個(gè)數(shù)等特征,采用基于概率的協(xié)同過濾模型對(duì)用戶的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè);文獻(xiàn)[15,16]選取了22個(gè)影響因素,并采用因子圖模型進(jìn)行預(yù)測(cè)分析,對(duì)于用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)取得了較高的精度。李英樂等從5個(gè)影響指標(biāo)出發(fā)提出了基于支持向量機(jī)(SVM)的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)模型[17]。Bandari等將微博轉(zhuǎn)發(fā)數(shù)量劃分為(1~20,20~100,100~2400)不同等級(jí),以此為基礎(chǔ)構(gòu)建多分類模型來預(yù)測(cè)微博轉(zhuǎn)發(fā)規(guī)模[18]。文獻(xiàn)[19]采用BP神經(jīng)網(wǎng)絡(luò)對(duì)突發(fā)事件下的微博轉(zhuǎn)發(fā)量進(jìn)行了預(yù)測(cè),并通過改變樣本數(shù)對(duì)預(yù)測(cè)結(jié)果的穩(wěn)定性進(jìn)行了測(cè)試,得到了有一定參考價(jià)值的預(yù)測(cè)結(jié)果。

2 問題描述

微博轉(zhuǎn)發(fā)行為預(yù)測(cè)可形式化地定義為如下問題:給定微博m,用戶v,預(yù)測(cè)用戶v是否會(huì)對(duì)微博m進(jìn)行轉(zhuǎn)發(fā)。用sv,m代表用戶的轉(zhuǎn)發(fā)狀態(tài),sv,m=1代表已轉(zhuǎn)發(fā),sv,m=0代表尚未轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)行為預(yù)測(cè)問題即對(duì)sv,m的狀態(tài)進(jìn)行預(yù)測(cè)。

3 集成的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法

3.1 方法框架

預(yù)測(cè)方法整體框架如圖1所示。

圖1 微博轉(zhuǎn)發(fā)行為預(yù)測(cè)框架

3.2 特征選取

本文設(shè)計(jì)了考慮局部社會(huì)影響力特征、用戶特征及微博內(nèi)容特征的集成化的特征選取體系,如表1所示。

表1 微博特征選取體系

各特征的計(jì)算描述方法如下:

1) 用戶影響力特征

文獻(xiàn)[4]證明用戶的影響力有利于提升用戶轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率。受此啟發(fā),本文首先分析影響力特征,提取特定用戶的1-ego網(wǎng)絡(luò)G,即由該特定用戶、其關(guān)注者和被關(guān)注者組成的完整網(wǎng)絡(luò)。設(shè)網(wǎng)絡(luò)中已對(duì)m進(jìn)行轉(zhuǎn)發(fā)的用戶為激活用戶,沒有進(jìn)行轉(zhuǎn)發(fā)的用戶為未激活用戶。通過以上信息,本文提取該網(wǎng)絡(luò)中針對(duì)特定人物的成對(duì)影響力特征和結(jié)構(gòu)影響力特征。

成對(duì)影響力是網(wǎng)絡(luò)中已有的各激活用戶對(duì)特定用戶的影響力之和。已有研究證明[4],基于重啟隨機(jī)游走(RWR)計(jì)算得到的成對(duì)影響力與轉(zhuǎn)發(fā)概率之間存在較強(qiáng)的正相關(guān)關(guān)系。因此本文基于重啟隨機(jī)游走來計(jì)算成對(duì)影響力。

具體算法步驟如下:

(2) 從網(wǎng)絡(luò)中提取鄰接矩陣A;

(1)

f(Sv,t,G)=e-d|C(Sv,t)|

(2)

將成對(duì)影響力和結(jié)構(gòu)影響力結(jié)合,總的影響力計(jì)算式如下:

Q(Sv,t,G)=w×g(Sv,t,G)+(1-w)×f(Sv,t,G)

(3)

其中w為平衡兩項(xiàng)的系數(shù),Q(Sv,t,G)即為影響力特征。

2) 社會(huì)特征

除影響力特征外,還有一些其他類型的社會(huì)特征,包括:

用戶之前轉(zhuǎn)發(fā)v′發(fā)布的微博的次數(shù);

用戶之前在自己的微博中提到v′的次數(shù)。

3)話題特征

微博m的內(nèi)容是否是用戶感興趣的話題也是影響用戶轉(zhuǎn)發(fā)行為的重要因素之一。因此,我們提取以下話題特征:

TF-IDF特征:根據(jù)用戶以往發(fā)布的微博構(gòu)建詞袋(BOW)模型,得到以TF-IDF為權(quán)重的詞向量,計(jì)算其與微博m的TF-IDF詞向量的余弦相似度;

隱話題特征:用LDA對(duì)用戶以往發(fā)布的微博進(jìn)行分析得到代表用戶興趣的話題向量,同樣用LDA對(duì)微博m進(jìn)行分析,計(jì)算兩話題向量之間的KL散度,即:

(4)

其中p、q分別是用戶以往發(fā)布微博、微博m的LDA話題分布;

彈指一輝間,每次看到《農(nóng)家致富顧問》,我就想起與她二十余年的情緣,翻開我多年珍藏的《農(nóng)家致富顧問》剪貼簿和雜志社編輯、記者寄給我的厚厚一疊泛黃的信和樣刊,禁不住思潮翻涌,思緒萬千。我與《農(nóng)家致富顧問》感情之深,在這里還要特別感謝《農(nóng)家致富顧問》曾經(jīng)刊登了我編寫的“農(nóng)家致富顧問助我走上致富路”……,豆腐塊小文!使我久久難以忘懷,《農(nóng)家致富顧問》真好,平易近人。

實(shí)體特征:從用戶以往發(fā)布的微博得到其使用過的實(shí)體的分布,計(jì)算該分布與微博m中的實(shí)體分布的余弦相似度。

4) 微博自身的特征

微博自身的特征包括:URL數(shù)目、Hashtag數(shù)目、@他人的數(shù)目、微博m中的文字?jǐn)?shù)目。

5) 微博作者的特征

微博作者特征包括:該作者的關(guān)注者數(shù)量、關(guān)注該作者的用戶數(shù)量、作者是否是認(rèn)證用戶、作者發(fā)布的微博的總量。

4 實(shí)驗(yàn)結(jié)果分析

4.1 數(shù)據(jù)集描述與評(píng)價(jià)準(zhǔn)則

本文從新浪微博平臺(tái)隨機(jī)抽樣了1522個(gè)用戶,如表2所示,爬取了2014年1月23日到2015年3月26日期間27 094條轉(zhuǎn)發(fā)記錄,涉及原創(chuàng)微博6892條。另外從微博作者的直接粉絲以及間接粉絲(粉絲的粉絲)中隨機(jī)采樣非轉(zhuǎn)發(fā)記錄,為保證類平衡性,采樣的負(fù)樣本與正樣本個(gè)數(shù)相同,最終總共得到54 188條數(shù)據(jù)。

表2 新浪微博隨機(jī)采樣數(shù)據(jù)

利用該實(shí)驗(yàn)數(shù)據(jù)集,分別訓(xùn)練樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型,并利用10折交叉驗(yàn)證對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。使用的性能指標(biāo)包括:精度、召回率、F1、準(zhǔn)確率。精度Precision、召回率Recall、F1、準(zhǔn)確率Accuracy的計(jì)算式為:

(5)

(6)

(7)

(8)

其中TP表示測(cè)試數(shù)據(jù)中系統(tǒng)預(yù)測(cè)轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)也是轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);FP表示系統(tǒng)預(yù)測(cè)轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)沒有轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);TN表示系統(tǒng)預(yù)測(cè)不轉(zhuǎn)發(fā)并且實(shí)際數(shù)據(jù)也不轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù);FN表示系統(tǒng)預(yù)測(cè)不轉(zhuǎn)發(fā)但實(shí)際數(shù)據(jù)轉(zhuǎn)發(fā)的實(shí)例個(gè)數(shù)。

4.2 實(shí)驗(yàn)結(jié)果

1) 分類算法比較

樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型的預(yù)測(cè)效果如表3所示??梢钥闯鲭S機(jī)森林準(zhǔn)確率達(dá)到了83.1%,取得了最好的分類效果。

表3 不同分類算法預(yù)測(cè)效果

2) 特征重要性比較

為了比較各類特征對(duì)于預(yù)測(cè)效果的作用,本文對(duì)比去除某類特征后的轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率和原模型預(yù)測(cè)準(zhǔn)確率。不同類別特征對(duì)于預(yù)測(cè)準(zhǔn)確率的影響如表4所示,可以看出三個(gè)類別的特征對(duì)于預(yù)測(cè)準(zhǔn)確率都有較大的影響。其中,微博內(nèi)容特征對(duì)預(yù)測(cè)效果影響最大,不使用微博內(nèi)容特征的模型預(yù)測(cè)準(zhǔn)確率將會(huì)降低至68.5%;未使用局部影響力特征將會(huì)使準(zhǔn)確率降低將近2%。可見,綜合考慮微博內(nèi)容特征、用戶特征及局部影響力特征可以有效提高預(yù)測(cè)準(zhǔn)確率。

表4 不同微博特征預(yù)測(cè)效果

3) 不同事件類型的微博影響力預(yù)測(cè)效果對(duì)比

本文基于事件分類體系,采用不同關(guān)鍵詞從實(shí)驗(yàn)數(shù)據(jù)集中的微博中選取了自然災(zāi)害、環(huán)境、公共突發(fā)、暴恐、犯罪、審判、公共衛(wèi)生、政治、反腐、維權(quán)、活動(dòng)類、周邊國(guó)家、政策出臺(tái)、軍事等14個(gè)類別的微博,比較不同類別中微博轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率。各個(gè)類別的數(shù)據(jù)情況如表5所示。

表5 不同類型的微博數(shù)據(jù)情況

不同類型中微博轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率如表6所示??梢钥闯?,在所有類別中隨機(jī)森林都取得了最好的預(yù)測(cè)準(zhǔn)確率。在對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。而對(duì)于公共突發(fā)、暴恐、軍事等類型的事件,轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率相對(duì)較低。

表6 不同類型微博轉(zhuǎn)發(fā)預(yù)測(cè)效果

續(xù)表6

5 結(jié) 語

微博轉(zhuǎn)發(fā)預(yù)測(cè)是研究信息傳播的關(guān)鍵問題之一,對(duì)于輿情監(jiān)控、廣告投放、商業(yè)決策有著重要意義。本文綜合局部社會(huì)影響力特征、用戶特征、微博內(nèi)容特征,提出了基于混合特征學(xué)習(xí)的轉(zhuǎn)發(fā)預(yù)測(cè)方法。利用新浪微博平臺(tái)數(shù)據(jù),本文對(duì)比了樸素貝葉斯、邏輯回歸、支持向量機(jī)、隨機(jī)森林模型的預(yù)測(cè)效果,結(jié)果表明隨機(jī)森林取得了最好的效果,準(zhǔn)確率達(dá)到83.1%。另外,本文還對(duì)比不同特征對(duì)于轉(zhuǎn)發(fā)預(yù)測(cè)的影響,結(jié)果表明局部社會(huì)影響力特征、用戶特征、微博內(nèi)容特征都對(duì)轉(zhuǎn)發(fā)預(yù)測(cè)有著較大影響,其中微博內(nèi)容特征的影響最大。最后,本文比較了不同類型微博的轉(zhuǎn)發(fā)預(yù)測(cè)準(zhǔn)確率,結(jié)果表明,在對(duì)自然災(zāi)害、環(huán)境、審判、維權(quán)等類型的微博進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)時(shí),效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強(qiáng)。而對(duì)于公共突發(fā)、暴恐、軍事等類型的事件,轉(zhuǎn)發(fā)預(yù)測(cè)的準(zhǔn)確率相對(duì)較低。

[1] 樊博.2015微博用戶發(fā)展報(bào)告[R/OL].[2015-12-15].http://data.weibo.com/report/reportDetail?id=297.

[2] 李洋,陳毅恒,劉挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào),2016,27(2):247-263.

[3] 陳江,劉瑋,巢文涵,等.融合熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2015,29(6):150-158.

[4] Zhang J,Liu B,Tang J,et al.Social Influence Locality for Modeling Retweeting Behaviors[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2013:2761-2767.

[5] Guan W,Gao H,Yang M,et al.Analyzing user behavior of the micro-blogging website Sina Weibo during hot social events[J].Physica A:Statistical Mechanics and Its Applications,2014,395:340-351.

[6] Rudat A,Buder J,Hesse F W.Audience design in Twitter:Retweeting behavior between informational value and followers’ interests[J].Computers in Human Behavior,2014,35:132-139.

[7] Morchid M,Dufour R,Bousquet P M,et al.Feature selection using Principal Component Analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.

[8] 吳凱,季新生,劉彩霞.基于行為預(yù)測(cè)的微博網(wǎng)絡(luò)信息傳播建模[J].計(jì)算機(jī)應(yīng)用研究,2013,30(6):1809-1812.

[9] Sasa Petrovic,Miles Osborne,Victor Lavrenko.RT to Win! Predicting Message Propagation in Twitter[C]//Fifth International AAAI Conference on Weblogs and Social Media(ICWSM),2011.

[10] 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2012,26(4):109-114,121.

[11] Bongwon Suh,Lichan Hong,Peter Pirolli,et al.Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing (SocialCom). Minneapolis,USA:IEEE,2010:177-184.

[12] 羅知林,陳挺,蔡皖東.一個(gè)基于隨機(jī)森林的微博轉(zhuǎn)發(fā)預(yù)測(cè)算法[J].計(jì)算機(jī)科學(xué),2014,41(4),62-64,74.

[13] Zaman T R,Herbrich R,Gael J V,et al.Predicting information spreading in Twitter[J].Computational Social Science and the Wisdom of Crowds Workshop,2010.

[14] Stern D H,Herbrich R,Graepel T.Matchbox:Large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,2009:111-120.

[15] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th International Conference on Information and Knowledge Management,Toronto,Canada,2010:1633-1636.

[16] 楊子.社會(huì)網(wǎng)絡(luò)分析中的預(yù)測(cè)模型[D].北京:清華大學(xué),2011.

[17] 李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597.

[18] Roja Bandari,Sitaram Asur,Bernardo A.Huberman.The Pulse of News in Social Media: Forecasting Popularity[C]//6th International AAAI Conference on Weblogs and Social Media(ICWSM),2012.

[19] 鄧青,馬曄風(fēng),劉藝,等.基于BP神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)量的預(yù)測(cè)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2015,55(12):1342-1347.

A MICROBLOGGING RETWEET PREDICTION METHOD BASED ON HYBRID FEATURES LEARNING

Ma Xiaofeng1Wang Lei2Chen Guandan2

1(Shanghai Data Analysis and Processing Technology Research Institute,Shanghai 201112,China)=2(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

Microblogging retweet prediction is one of the key problems in information dissemination, which plays important roles in public opinion monitoring, advertising, and business decision making. The process of information dissemination is influenced by many factors such as user interest, microblogging author’s influence, and content of post, etc. The challenge of improving prediction performance is how to capture the important features for retweet prediction. In this paper, we propose a retweet prediction method based on hybrid features learning. Firstly, the method introduces and analyses the impacts of hybrid features including social influence locality, user features, and microblogging content features. Then, it builds the retweet prediction model based on classification algorithms. Finally, it compares the results of different types of microblog. Experimental results on Sina Weibo datasets show that local social influence features, user features and microblogging content features affect the retweet prediction,and the greatest impact is the micro-blog content features. Random forest method has the best performance, and the accuracy rate can reach 83.1%. Compared to Naive Bayes, logistic regression and SVM, the accuracy rate increased by an average of about 7.4%, the highest increase of about 10.8%. In addition, the method has an advantage on topics about natural disasters, environment, trial, rights, which shows that these kinds of events contain stronger retweet patterns.

Microblogging Hybrid features learning Retweet prediction

2016-08-01。馬曉峰,博士生,主研領(lǐng)域:社會(huì)媒體分析與處理。王磊,高工。陳觀淡,博士生。

TP181

A

10.3969/j.issn.1000-386x.2016.11.058

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 精品無碼一區在線觀看 | 国产在线观看第二页| 国产乱视频网站| 毛片视频网| 亚洲a级毛片| 91精品视频播放| 毛片视频网址| 久久91精品牛牛| 亚洲欧美不卡视频| 91精品国产自产在线老师啪l| 成人日韩精品| 国产aaaaa一级毛片| 亚洲人成在线精品| 亚洲第一区欧美国产综合| 青青草一区| 亚洲欧美成人在线视频| 亚洲第一黄色网| 香蕉久久国产超碰青草| 成人年鲁鲁在线观看视频| 午夜视频日本| 色久综合在线| 欧美色图第一页| 狠狠亚洲五月天| 黄色污网站在线观看| 国产情精品嫩草影院88av| 色欲综合久久中文字幕网| 亚洲av无码成人专区| 永久成人无码激情视频免费| 国产电话自拍伊人| 久久国产精品电影| 91小视频版在线观看www| igao国产精品| 精品欧美视频| 亚洲无码不卡网| 天堂成人av| 高清欧美性猛交XXXX黑人猛交| 97人人做人人爽香蕉精品| 国产九九精品视频| 国产精品区视频中文字幕 | 污视频日本| 亚洲精选高清无码| 国产麻豆91网在线看| 永久免费精品视频| 2021天堂在线亚洲精品专区| 国产成人一二三| 91无码视频在线观看| 欧洲亚洲一区| 91精品国产一区| 国产成人综合网| 69免费在线视频| 国产在线八区| 九九热视频精品在线| 97se亚洲综合在线天天| 国产成人亚洲毛片| 精品91自产拍在线| 欧美无遮挡国产欧美另类| 国产无码精品在线播放| 免费国产在线精品一区| 国产最爽的乱婬视频国语对白 | 亚洲一区第一页| 69av免费视频| 热九九精品| 久久综合九色综合97婷婷| 激情综合网激情综合| 成人年鲁鲁在线观看视频| 伊人91在线| 亚洲成aⅴ人片在线影院八| 久久久精品无码一区二区三区| 婷婷五月在线| 国产区免费精品视频| 99偷拍视频精品一区二区| 亚洲天堂视频网站| 视频二区中文无码| 国产一区二区在线视频观看| 在线欧美日韩| 亚洲人成成无码网WWW| 天天躁狠狠躁| 亚洲人成亚洲精品| 精品撒尿视频一区二区三区| 欧美日韩中文国产va另类| 国产第八页| 久视频免费精品6|