999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

TSL:基于連接強(qiáng)度的Facebook 消息流行度預(yù)測模型

2019-11-03 07:18:26王曉萌方濱興張宏莉王星
通信學(xué)報(bào) 2019年10期
關(guān)鍵詞:用戶模型

王曉萌,方濱興,2,張宏莉,王星

(1.哈爾濱工業(yè)大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)與信息安全技術(shù)研究中心,黑龍江 哈爾濱 150001;2.廣州大學(xué)網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院,廣東 廣州 510006)

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,尤其是Web2.0技術(shù)出現(xiàn)之后,在線社交網(wǎng)絡(luò)應(yīng)用逐漸涌現(xiàn)并迅猛發(fā)展,使人類使用互聯(lián)網(wǎng)的方式產(chǎn)生了深刻變革。借助在線社交網(wǎng)絡(luò)發(fā)布和接收信息的簡便性,社交網(wǎng)絡(luò)用戶社區(qū)化、意見領(lǐng)袖化加速了新內(nèi)容的創(chuàng)造與傳播,各類話題和觀點(diǎn)可以隨時(shí)發(fā)布并爆炸式傳播擴(kuò)散。根據(jù)歐盟社會計(jì)算報(bào)告,有別于以發(fā)布消息為主的 Twitter、微博和以共享空間為主的YouTube 視頻網(wǎng)站,F(xiàn)acebook 是一種典型的提供在線交友服務(wù)的社交網(wǎng)絡(luò)[1]。以Facebook 為代表的在線社交網(wǎng)絡(luò)逐漸成為當(dāng)代社會信息傳播的重要集散地,其信息活躍性達(dá)到了前所未有的程度。很多名人或者組織都已在Facebook 上開設(shè)公共主頁,通過頻繁地發(fā)布實(shí)時(shí)的動態(tài)消息來吸引公眾注意力。例如,新聞主頁搶發(fā)最新頭條、電影主頁網(wǎng)羅粉絲等。因此,針對Facebook 的熱門主頁開展消息的流行度預(yù)測研究,如在線內(nèi)容的轉(zhuǎn)發(fā)量、視頻的點(diǎn)擊數(shù)量和在線新聞的評論數(shù)量等,對媒體廣告投放效果評估、話題傳播趨勢預(yù)測[2]、電影票房收益評估[3]和選舉預(yù)測[4]等問題都有著重要應(yīng)用價(jià)值。

流行度預(yù)測問題本質(zhì)上源于少數(shù)樣本獲得多數(shù)關(guān)注的統(tǒng)計(jì)分布上的不均勻現(xiàn)象,如財(cái)富分布、國家人口分布、交友網(wǎng)站的朋友數(shù)分布等。已有研究表明,大部分的網(wǎng)絡(luò)內(nèi)容只有很少的人關(guān)注,而少數(shù)內(nèi)容卻獲得了大量的用戶關(guān)注。針對這種非均勻分布現(xiàn)象的研究最早可以上溯至意大利經(jīng)濟(jì)學(xué)者維爾弗雷多·帕累托(Vilfredo Pareto)在研究19 世紀(jì)英國人的財(cái)富和收益模式時(shí),提出的著名的“二八定律”,即20%的人口占據(jù)了80%的社會財(cái)富。在互聯(lián)網(wǎng)時(shí)代,Albert-laszlo 等[5]在《自然》雜志上發(fā)表的文章中指出,電影演員合作網(wǎng)、萬維網(wǎng)、美國西部電力網(wǎng)等復(fù)雜網(wǎng)絡(luò)的度分布符合冪律指數(shù)滿足2<γ<3的冪率分布。在線社交網(wǎng)絡(luò)時(shí)代,Kwak 等[6]發(fā)現(xiàn)YouTube上10%的最受歡迎的用戶發(fā)布內(nèi)容吸引了近80%的用戶關(guān)注,然而剩余的90%內(nèi)容至多獲得了20%的用戶關(guān)注。在線社會網(wǎng)絡(luò)中,流行度預(yù)測的主要任務(wù)是預(yù)測用戶生成內(nèi)容的流行度,該問題的一般定義為根據(jù)對用戶生成內(nèi)容發(fā)布后初期傳播過程的觀測,預(yù)測該內(nèi)容在未來某個(gè)時(shí)間點(diǎn)的流行度值。

針對Facebook 的消息流行度預(yù)測具有較高研究價(jià)值,但是也存在很多難點(diǎn)。首先,數(shù)據(jù)規(guī)模龐大。惠普實(shí)驗(yàn)室的Golder 等[7]發(fā)現(xiàn)Facebook 的好友數(shù)(度值)的中值為144,均值為179.53。截止到2015 年9 月,F(xiàn)acebook 擁有約10 億用戶,包括社科、名人、政府機(jī)構(gòu)等知名主頁以及眾多普通用戶主頁,其用戶規(guī)模與繁榮程度已經(jīng)在某種程度上可以理解為人類社會在網(wǎng)絡(luò)社會的映射;其次,信息傳播與演化受多種因素控制,如關(guān)系結(jié)構(gòu)、網(wǎng)絡(luò)群體和信息內(nèi)容等,其中很多因素由于測量手段以及隱私保護(hù)等因素的限制而難以獲取;最后,多種干擾因素導(dǎo)致傳播過程具有隨機(jī)性,不同的信息間也存在著競爭與搶占關(guān)系。

雖然實(shí)時(shí)預(yù)測一個(gè)消息的流行度演化很難,但是基于信息發(fā)布后一段時(shí)間內(nèi)的傳播表現(xiàn)來預(yù)測最終流行度是可行的。其中最著名的就是Szabo 等[8]于2008 年提出的SH(Szabo and Huberman)模型,他們發(fā)現(xiàn)文章評分網(wǎng)站Digg 上的新聞討論帖、視頻分享網(wǎng)站YouTube 上的視頻的早期轉(zhuǎn)發(fā)量和最終轉(zhuǎn)發(fā)量在進(jìn)行取對數(shù)后存在一定程度的線性相關(guān),并首先提出了基于線性回歸(linear regression)的流行度預(yù)測模型。Facebook 作為典型的在線交友網(wǎng)絡(luò),其消息傳播速度介于Digg 和YouTube 之間,傳播機(jī)制也更接近人類社會網(wǎng)絡(luò),因此有必要針對Facebook 的消息流行度預(yù)測問題展開研究。現(xiàn)在方法很少從社會學(xué)角度研究信息傳播的機(jī)理,并且對轉(zhuǎn)發(fā)過程中潛在用戶的特征挖掘不充分。然而已有研究表明,社交網(wǎng)絡(luò)中的弱連接可以增益信息傳播,它們對信息傳播的深度和廣度起到非常重要的作用[9],通過對一些Facebook 知名主頁的消息流行度演化趨勢進(jìn)行分析,本文發(fā)現(xiàn)那些在傳播早期就能聚集較多弱連接用戶參與轉(zhuǎn)發(fā)的消息,其最終流行度都很高,且消息的最終轉(zhuǎn)發(fā)流行度與早期傳播過程中的忠實(shí)粉絲所占比例在雙對數(shù)坐標(biāo)系中存在線性相關(guān)。

基于以上發(fā)現(xiàn),本文提出了一種面向在線交友網(wǎng)絡(luò)的流行度預(yù)測模型。為了更好地量化信息傳播過程中的弱連接用戶的參與程度,本文提出了連接強(qiáng)度的概念,并根據(jù)消息傳播早期的流行度與連接強(qiáng)度構(gòu)建多元線性回歸方程,然后通過用戶活躍度對預(yù)測方程進(jìn)行修正,最終得到基于連接強(qiáng)度的預(yù)測模型(TSL,tie strength based linear)。本文將提出的模型與一些代表性的基準(zhǔn)方法如 SH、DSH(depth based SH)和 RPP(reinforced Poisson process)進(jìn)行比較,實(shí)驗(yàn)驗(yàn)證了所提模型對Facebook 主頁消息的最終流行度預(yù)測效果較好。本文貢獻(xiàn)介紹如下。

1)將“弱連接理論”引入流行度預(yù)測問題,并發(fā)現(xiàn)連接強(qiáng)度這一新的流行度預(yù)測特征。

2)提出了基于早期流行度和連接強(qiáng)度的線性回歸模型TSL。

3)引入多個(gè)基準(zhǔn)模型,針對Facebook 主頁消息的流行度預(yù)測效果進(jìn)行對比分析。

2 相關(guān)工作

近年來,流行度預(yù)測問題受到了越來越多研究者的關(guān)注,并涌現(xiàn)出了許多模型與方法,主要可以分為基于群體狀態(tài)的方法、基于回歸/分類的方法和基于時(shí)間序列的方法。

基于群體狀態(tài)的方法是將社交網(wǎng)絡(luò)中的節(jié)點(diǎn)分成幾種狀態(tài),通過模擬群體狀態(tài)轉(zhuǎn)移過程,建立信息傳播模型來分析流行度演化趨勢,主要包括傳染病模型、級聯(lián)傳播模型等。在傳染病模型中,系統(tǒng)中的個(gè)體一般被分為幾類,每一類個(gè)體都處于同一種狀態(tài)。基本狀態(tài)包括:易感狀態(tài)S(susceptible),即健康的狀態(tài),但有可能被感染;感染狀態(tài) I(infected),即染病的狀態(tài),具有傳染性;移除狀態(tài)R(recovered),即感染后被治愈并獲得了免疫力或感染后死亡的狀態(tài)。Abdulah 等[10]利用傳染病模型對Twitter 消息的傳播進(jìn)行了研究,他們認(rèn)為在社交網(wǎng)絡(luò)中處于感染狀態(tài)(I 類)的節(jié)點(diǎn)發(fā)布相關(guān)消息,則其粉絲成為新的易感者,總的人數(shù)不斷增大。Matsubara 等[11]發(fā)現(xiàn)博客流行度服從冪率分布,且用戶關(guān)注呈現(xiàn)周期性變化,在傳統(tǒng)SI 模型基礎(chǔ)上提出了一種動態(tài)感染率的流行度預(yù)測模型。Li 等[12]考慮網(wǎng)絡(luò)底層拓?fù)涮卣鲗鞑サ挠绊懀槍θ巳司W(wǎng)的外源性視頻流行度預(yù)測問題,提出了一種基于網(wǎng)絡(luò)級聯(lián)流行度預(yù)測方法。

基于回歸/分類的方法通過發(fā)現(xiàn)信息傳播過程中的關(guān)鍵影響因素,并探尋這些因素與消息流行度之間的關(guān)系,從而將流行度預(yù)測轉(zhuǎn)化為分類或回歸問題進(jìn)行求解。這類方法關(guān)注的重點(diǎn)在于提取對于分類或回歸有效的特征,能對未來流行度的數(shù)值給出一個(gè)具體的預(yù)測,例如Szabo 等[8]發(fā)現(xiàn)早期的某個(gè)特定時(shí)間的流行度與傳播晚期的流行度都取對數(shù)之后有強(qiáng)線性關(guān)系,并率先用回歸方法預(yù)測最終流行度。Chang 等[13]發(fā)現(xiàn)視頻網(wǎng)站的電視劇單集流行度與歷史發(fā)布過的劇集的流行度存在相關(guān)性,其收視群體中的隨機(jī)觀看者隨著時(shí)間推移越來越少,并基于以上發(fā)現(xiàn)提出了一種改進(jìn)的回歸模型。Bao等[14]發(fā)現(xiàn)早期傳播網(wǎng)絡(luò)的密度和消息轉(zhuǎn)發(fā)深度與最終流行度存在線性相關(guān),并基于這2 個(gè)特征提出了一種改進(jìn)的SH 模型。Kim 等[15]發(fā)現(xiàn)博文早期瀏覽量與最終瀏覽量有關(guān),提出了一種基于指數(shù)函數(shù)的回歸模型。Cheng 等[16]從時(shí)間角度分析了在線社交網(wǎng)絡(luò)的熱點(diǎn)話題傳播規(guī)律,提出了一種自回歸移動平均模型預(yù)測回帖數(shù)量。朱海龍等[17]提出了一種基于傳播加速度的微博流行度預(yù)測方法,該方法首先提出傳播加速度概念,并結(jié)合早期流行度建立多元回歸模型對微博轉(zhuǎn)發(fā)數(shù)量進(jìn)行預(yù)測。

基于時(shí)間序列的方法是假設(shè)消息的轉(zhuǎn)發(fā)過程在時(shí)間維度上具有延續(xù)性,利用觀測所得的歷史不同時(shí)間點(diǎn)上的數(shù)值序列進(jìn)行建模并預(yù)測未來變化趨勢。Crane 等[18]通過分析Youtube 網(wǎng)站的500 萬段視頻的傳播過程,發(fā)現(xiàn)絕大部分(約90%)視頻的傳播過程可以用泊松過程進(jìn)行精確刻畫,剩余視頻的傳播過程在經(jīng)歷流行度的峰值之后其單位時(shí)間內(nèi)增加的流行度服從冪律分布。Yang 等[19]研究了用戶生成內(nèi)容流行度隨時(shí)間的變化模式。該研究通過對5.8 億條推文和1.7 億篇博客文章流行度隨時(shí)間消漲模式的聚類分析,挖掘出6 類形態(tài)各異的流行度時(shí)序模式。Lerman 等[20]在Digg 網(wǎng)的消息投票模型中考慮了消息的興趣度和可見度,并利用所得模型進(jìn)行消息最終獲得票數(shù)的預(yù)測。Gao 等[21]提出了一種基于動態(tài)泊松過程的改進(jìn)方法,該方法建模了信息傳播過程中新穎性隨著時(shí)間的衰減過程以及優(yōu)先連接機(jī)制。

雖然上述方法已在流行度預(yù)測問題上取得了一些進(jìn)展,但是針對Facebook 這種超大規(guī)模在線社交網(wǎng)絡(luò)的預(yù)測效果仍然有待提高。造成這種現(xiàn)象的主要原因是Facebook 用戶群體龐大,消息的轉(zhuǎn)發(fā)迅速,傳播機(jī)理更為復(fù)雜。基于群體狀態(tài)的方法從微觀角度利用數(shù)學(xué)模型推演信息傳播的過程,但模型中的節(jié)點(diǎn)屬性與狀態(tài)轉(zhuǎn)移概率過于理想化,僅適用于在網(wǎng)絡(luò)拓?fù)湟阎獥l件下進(jìn)行粗粒度的傳播范圍估計(jì)。基于時(shí)間序列的方法的本質(zhì)是利用擬合函數(shù)刻畫實(shí)時(shí)流行度演化趨勢,這類方法針對短期預(yù)測有較好的效果,但是隨著預(yù)測時(shí)間的增加,誤差積累導(dǎo)致預(yù)測精度逐漸降低。基于回歸/分類的方法旨在建立信息傳播早期流行度與未來流行度的映射關(guān)系,需要對流行度演化數(shù)據(jù)進(jìn)行特征提取,適用于長期預(yù)測。本文針對Facebook 的信息傳播機(jī)制進(jìn)行深度分析,提出了一種基于回歸分析的流行度預(yù)測模型,該模型首先根據(jù)社會學(xué)中的“弱連接理論”以連接強(qiáng)度的形式作為關(guān)鍵特征引入回歸方程,同時(shí)結(jié)合早期流行度對消息最終流行度進(jìn)行預(yù)測,實(shí)驗(yàn)表明該方法可以有效地提升預(yù)測性能。

3 問題定義

本文的研究對象為Facebook 主頁的用戶生成消息(user generated content)。用戶可對這些消息進(jìn)行評論、點(diǎn)贊以及轉(zhuǎn)發(fā)操作。相比于評論數(shù)和點(diǎn)贊數(shù),消息的轉(zhuǎn)發(fā)數(shù)量可以更顯著地反映信息的傳播能力,因此本文將采用消息的轉(zhuǎn)發(fā)數(shù)來刻畫Facebook 信息傳播的流行度。

對于任意Facebook 開放主頁上用戶發(fā)布的消息,人們可以確定其發(fā)布時(shí)間以及截止觀測時(shí)的所有轉(zhuǎn)發(fā)者ID。對于給定消息m,定義其發(fā)布時(shí)間為T0,預(yù)測時(shí)間為Tpredict,參考時(shí)間為Treference。流行度預(yù)測示意如圖1 所示,其中參考時(shí)間為預(yù)測任務(wù)采集早期信息傳播情況所需要的時(shí)間長度,這段時(shí)間的信息傳播特征被用于模型訓(xùn)練。預(yù)測時(shí)間是從消息發(fā)布時(shí)間T0開始直至預(yù)測任務(wù)所設(shè)定的目標(biāo)時(shí)間,消息的轉(zhuǎn)發(fā)流行度隨著目標(biāo)時(shí)間的增長而不斷增加,當(dāng)時(shí)間超過消息生命周期后流行度近似保持不變,一般可以認(rèn)為T0<Treference<Tpredict。進(jìn)一步地,本文將消息m接收到第i次用戶轉(zhuǎn)發(fā)的時(shí)間用ti表示,截至Treference時(shí)刻的轉(zhuǎn)發(fā)過程可以記為{},其中k∈(0,nm),nm為全部訓(xùn)練時(shí)間段[0,Treference]內(nèi)消息m獲得的轉(zhuǎn)發(fā)數(shù),將Bm記為消息m在參考時(shí)間Treference的實(shí)際轉(zhuǎn)發(fā)數(shù),則為消息m在Tpredict時(shí)刻的分享數(shù)預(yù)測值。

圖1 流行度預(yù)測示意

綜上所述,流行度預(yù)測問題定義如下:已知消息m從發(fā)布時(shí)間T0到參考時(shí)間Treference的轉(zhuǎn)發(fā)數(shù)的累積過程{},估計(jì)消息m從發(fā)布時(shí)間T0到預(yù)測時(shí)間Tpredict所取得的轉(zhuǎn)發(fā)數(shù)。

4 流行度預(yù)測

4.1 數(shù)據(jù)集

本文通過模擬用戶以及頁面解析的方式爬取了部分Facebook 主頁數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,隨機(jī)選取了一些Facebook中排名前100的最熱門主頁作為數(shù)據(jù)抓取對象,包含名人主頁、新聞主頁以及娛樂主頁等,基于這些主頁抓取了2016 年1 月1 日—12 月31 日這些主頁的所有歷史發(fā)布信息共3 775 條,并將這些消息送入爬取列表,采集轉(zhuǎn)發(fā)過這些消息的用戶ID,總計(jì)得到消息的154 萬次轉(zhuǎn)發(fā)。

Facebook 數(shù)據(jù)采集詳細(xì)情況如表1 所示,本文將已抓取主頁分為2 類,A 興趣類(國家地理Geographic、福克斯新聞Fox News 等);B 娛樂類(哈利波特Harry Potter、電影明星威爾史密斯Will Smith 等)。

表1 Facebook 主頁采集信息

4.2 Facebook 消息的生命周期

社交網(wǎng)絡(luò)的信息傳播存在特定的生命周期,所以預(yù)測任務(wù)的首要問題是選取合適的時(shí)間粒度與時(shí)間窗口。一方面,本文需要在消息生命周期未知的條件下,提前設(shè)置預(yù)測時(shí)間Tpredict的取值范圍,而且預(yù)測任務(wù)的目的是估計(jì)消息最終的轉(zhuǎn)發(fā)量,所以基于完整性的考慮,預(yù)測時(shí)間應(yīng)涵蓋絕大部分轉(zhuǎn)發(fā)過程,這樣才能得到較為真實(shí)傳播情況。另一方面,消息發(fā)布早期往往會獲得更多的關(guān)注與傳播,參考時(shí)間Treference設(shè)置越大則轉(zhuǎn)發(fā)量累積越多,更容易估計(jì)最終轉(zhuǎn)發(fā)流行度,而Treference設(shè)置越小則預(yù)測難度越大。基于實(shí)時(shí)性的考慮,參考時(shí)間則應(yīng)盡可能地縮短以提升預(yù)測模型的響應(yīng)速度。例如文章評分網(wǎng)站Digg 上的推送新聞的生命周期較短,往往只需要一天時(shí)間就可以達(dá)到80%的最終總評論量[8],而視頻分享網(wǎng)站YouTube 上的內(nèi)容生命周期較長,平均7 天內(nèi)的用戶轉(zhuǎn)發(fā)量只占最終轉(zhuǎn)發(fā)量的50%。本文首先分析了Facebook 消息流行度的時(shí)間特征。Facebook 消息的生命周期如圖2 所示,其中縱坐標(biāo)表示一條消息在每小時(shí)內(nèi)所獲得的平均轉(zhuǎn)發(fā)量,橫坐標(biāo)表示距離消息發(fā)布時(shí)刻的時(shí)間長度。從圖2 可以看出,消息發(fā)布后在前幾小時(shí)內(nèi)流行度較高,但會在前24 h 內(nèi)迅速衰減,在150 h 之后每小時(shí)增量衰減為0,因此本文將預(yù)測時(shí)間Tpredict設(shè)置為7 天。此外,用戶的轉(zhuǎn)發(fā)行為在消息發(fā)布后的前12 h 最為集中,因此基于實(shí)時(shí)性的考慮將Treference設(shè)置為3 h。

圖2 Facebook 消息的生命周期

4.3 用戶活躍度(user activity)

很多在線社交網(wǎng)站的用戶活動都具有周期性規(guī)律,F(xiàn)acebook 用戶的轉(zhuǎn)發(fā)行為也具有周期性。以一天為例,本文統(tǒng)計(jì)了數(shù)據(jù)集中所有主頁每小時(shí)的消息平均轉(zhuǎn)發(fā)量,F(xiàn)acebook 用戶活躍度的變化趨勢如圖3 所示,其中橫坐標(biāo)表示一天中的第幾小時(shí),縱坐標(biāo)表示該小時(shí)一條消息所獲得的平均轉(zhuǎn)發(fā)量。從圖3 可以看出,用戶的活躍度在不同時(shí)間段內(nèi)存在顯著差異,每小時(shí)用戶轉(zhuǎn)發(fā)數(shù)越多,說明用戶在該時(shí)段活躍度越高。在凌晨4 時(shí)至中午12 時(shí)這段時(shí)間的用戶活躍度最低,而18 時(shí)至22 時(shí)為轉(zhuǎn)發(fā)最頻繁時(shí)間段,符合用戶的使用習(xí)慣與作息規(guī)律。此外,這種周期性差異可能會導(dǎo)致一個(gè)在冷門時(shí)間段發(fā)布的熱點(diǎn)消息并沒有在當(dāng)下時(shí)刻引起足夠多的關(guān)注,但是會在熱門時(shí)間段內(nèi)得到更多的轉(zhuǎn)發(fā),因此有必要在信息傳播早期將所有消息的傳播能力進(jìn)行統(tǒng)一比較。本文引入了相對活躍度的概念,相對活躍度是一個(gè)一維向量,表示一天中第i小時(shí)的用戶相對活躍強(qiáng)度。其計(jì)算過程為,首先求解數(shù)據(jù)集中所有消息平均每小時(shí)轉(zhuǎn)發(fā)量M,然后計(jì)算第i小時(shí)總轉(zhuǎn)發(fā)量S[i](1≤i≤24),則第i小時(shí)的相對活躍度為

式(1)從比例上反映出Facebook 平臺上每天任意小時(shí)內(nèi)的用戶活躍度,本文將在后面部分引入這個(gè)公式對預(yù)測模型進(jìn)行修正。

圖3 Facebook 用戶每日活躍度

4.4 Facebook 中的弱連接現(xiàn)象

Facebook 用戶可以瀏覽其他用戶的頁面墻并關(guān)注成為其粉絲,或者接受其他用戶的好友邀請,這種好友關(guān)系在宏觀層面上構(gòu)成了一種較為穩(wěn)定的拓?fù)浣Y(jié)構(gòu)。然而相比于靜態(tài)的好友關(guān)系拓?fù)洌鶕?jù)主頁發(fā)布信息的轉(zhuǎn)發(fā)情況構(gòu)建的交互圖可以更好地反映出信息的傳播能力。Ferrara 等[22]發(fā)現(xiàn)Facebook 中的弱關(guān)系邊對傳播有很明顯的增益效果。本文發(fā)現(xiàn)Facebook 的信息轉(zhuǎn)發(fā)規(guī)律符合社會學(xué)中的弱連接理論,通過將主頁與歷史上所有轉(zhuǎn)發(fā)過該主頁消息的用戶構(gòu)成一個(gè)交互圖,將其中極少參與轉(zhuǎn)發(fā)的用戶稱為弱連接節(jié)點(diǎn),將那些經(jīng)常參與轉(zhuǎn)發(fā)的忠實(shí)粉絲稱為強(qiáng)連接節(jié)點(diǎn),并基于節(jié)點(diǎn)交互關(guān)系提出了連接強(qiáng)度的概念,量化了用戶對于主頁消息的轉(zhuǎn)發(fā)的頻繁程度。連接強(qiáng)度系數(shù)f表示用戶j相對于主頁k的轉(zhuǎn)發(fā)頻率,具體計(jì)算式為

其中,cjk是用戶j轉(zhuǎn)發(fā)主頁k所有發(fā)布消息的總頻度,nk為歷史上參與主頁k上消息轉(zhuǎn)發(fā)的所有用戶數(shù),則f為用戶j在主頁k的連接強(qiáng)度系數(shù)。

通過反復(fù)實(shí)驗(yàn)可以發(fā)現(xiàn),在傳播早期強(qiáng)連接用戶比例較小且弱連接比例較大的消息,其最終流行度都很高。將各個(gè)主頁top 1%最頻繁參與轉(zhuǎn)發(fā)的用戶作為強(qiáng)連接節(jié)點(diǎn),并在參考時(shí)間Treference設(shè)置為3 h的條件下,將主頁發(fā)布的消息中強(qiáng)連接節(jié)點(diǎn)所占比例與該消息最終流行度構(gòu)成一組點(diǎn)對,圖4 描繪了數(shù)據(jù)集中所有消息發(fā)布后前3 h 內(nèi)強(qiáng)連接用戶所占比例與發(fā)布7 天后的最終流行度在雙對數(shù)坐標(biāo)系中構(gòu)成的散點(diǎn)圖,其中橫縱坐標(biāo)均以自然對數(shù)為底。從圖4 中可以明顯地觀測出,這些點(diǎn)對在雙對數(shù)坐標(biāo)系中呈現(xiàn)較為明顯的線性相關(guān)。根據(jù)弱連接理論,本文可以這樣認(rèn)為,如果在傳播早期轉(zhuǎn)發(fā)該消息的人中有較多忠實(shí)粉絲,那么傳播過程會更局限于較為封閉的社區(qū)從而導(dǎo)致最終流行度較小;如果一個(gè)消息在傳播早期可以吸引很多具有弱連接關(guān)系的陌生人進(jìn)行轉(zhuǎn)發(fā),更容易擴(kuò)散至多個(gè)圈子被更多的人關(guān)注并轉(zhuǎn)發(fā),從而獲得較大的最終流行度。通過將連接強(qiáng)度作為一個(gè)預(yù)測最終流行度的重要指標(biāo),在SH 模型基礎(chǔ)上添加連接強(qiáng)度這一特征,構(gòu)建了一個(gè)二元線性模型

圖4 傳播早期強(qiáng)連接用戶參與比例與最終流行度的關(guān)系

將每個(gè)主頁歷史發(fā)布消息總條數(shù)的75%作為訓(xùn)練集,剩余25%作為測試集,并采用最小二乘法估計(jì)進(jìn)行訓(xùn)練,得到參數(shù)α1、α2和α3。

進(jìn)一步地,考慮到信息發(fā)布時(shí)間會對用戶活躍度產(chǎn)生一定影響,從而導(dǎo)致早期流行度的觀測值與真實(shí)傳播能力不相符,因此本文引入相對流行度Bm*對其進(jìn)行修正

將式(5)代入預(yù)測模型中的早期流行度Bm項(xiàng),得到最終的TSL 預(yù)測模型,其計(jì)算式為

5 性能測試與分析

5.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

本節(jié)通過實(shí)驗(yàn)驗(yàn)證TSL 模型的性能,數(shù)據(jù)集為表1 所示的從2016 年1 月1 日—12 月31 日的部分熱門Facebook 主頁數(shù)據(jù),包含這些主頁歷史發(fā)布消息3 775 條以及154 萬次轉(zhuǎn)發(fā)ID。

實(shí)驗(yàn)環(huán)境為Intel酷睿i5-6500@ 3.2 GHz 四核,8.00 GB 內(nèi)存,操作系統(tǒng)為Microsoft Windows 7,編程語言為Python。

5.2 對比模型

為了比較并驗(yàn)證本文提出的基于弱連接理論的流行度預(yù)測模型,通過將本文模型與其他3 種主流模型進(jìn)行對比來說明本文提出模型的有效性,參與比較的基準(zhǔn)模型介紹如下。

1)SH 模型

SH 模型[8]是Szabo 和Huberman 研究在線視頻與圖片分享流行度時(shí)提出的經(jīng)典模型,該模型基于早期流行度與最終流行度值存在對數(shù)坐標(biāo)系下的線性關(guān)系。其計(jì)算式為

其中,N(Tpredict)為最終流行度,φ為通過最大似然估計(jì)得到的模型參數(shù),σ為修正項(xiàng)。這種線性回歸方法可以用來做長期預(yù)測,但是由于特征選取比較簡單,預(yù)測精度較低。

2)DSH 模型

DSH 模型是Bao 等[14]提出的一種改進(jìn)的線性回歸模型,該模型首先測定了微博最終流行度和連邊密度(link density)之間的關(guān)系。他們發(fā)現(xiàn)微博的最終流行度和連邊密度之間存在著很強(qiáng)的負(fù)相關(guān)性,這表明低連接度和高傳播深度的群體會更加促進(jìn)微博流行度的提升。基于以上發(fā)現(xiàn),研究者改進(jìn)了SH 模型。改進(jìn)后的模型為

3)RPP 模型

RPP 模型是一種基于動態(tài)泊松過程的時(shí)間序列模型[21,23],通過結(jié)合時(shí)間松弛方程、線性增強(qiáng)方程和事件映射過程,可以模擬新穎性隨時(shí)間衰減的過程。該模型針對短期預(yù)測效果較好,如時(shí)效性較強(qiáng)的微博、新聞等。

4)TSL 模型

本文提出的基于弱連接理論的線性回歸模型,如式(6)所示。

5.3 評價(jià)指標(biāo)

均方根誤差(RMSE,root mean square error)是在有限測量次數(shù)下,測量值與真實(shí)值差的平方均值的平方根,在評價(jià)擬合效果方面被廣泛使用,也能夠體現(xiàn)出樣本的離散程度。RMSE 越小表示測試數(shù)據(jù)與真實(shí)值偏差程度越小,其具體計(jì)算式為

其中,Xobs,i為n個(gè)測試樣本真實(shí)數(shù)據(jù)的第i個(gè)結(jié)果,Xmodel,i為模型輸出數(shù)據(jù)的第i個(gè)結(jié)果。

平均絕對百分誤差(MAPE,mean absolute percentage error)是一種預(yù)測模型的常用評價(jià)方法,它通常使用百分比的形式展現(xiàn)。MAPE 越小,說明模型輸出與真實(shí)值偏差越小。具體計(jì)算式為

其中,At為樣本的真實(shí)值,F(xiàn)t為模型輸出值。

皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)用于評價(jià)線性相關(guān)變量(X與Y之間相互關(guān)系)之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。皮爾遜相關(guān)系數(shù)的取值范圍為-1~1,當(dāng)絕對值為1 時(shí),稱X與Y完全相關(guān);當(dāng)絕對值為0 時(shí),稱X與Y不相關(guān);當(dāng)絕對值大于0.8 時(shí),X與Y高度相關(guān);當(dāng)絕對值小于0.3 時(shí),X與Y低度相關(guān)。皮爾遜相關(guān)系數(shù)r的計(jì)算式為

5.4 實(shí)驗(yàn)結(jié)果

本節(jié)設(shè)置了3 組實(shí)驗(yàn),首先分析模型中連接強(qiáng)度系數(shù)f的取值對預(yù)測性能的影響,然后在各個(gè)主頁數(shù)據(jù)集上測試本文TSL 模型與SH 模型的預(yù)測性能,最后對所選主頁進(jìn)行分類,用多個(gè)模型進(jìn)行對比分析。

首先,為了取得最優(yōu)預(yù)測效果,需要預(yù)先設(shè)定連接強(qiáng)度系數(shù)f的值,在這個(gè)過程中有2 個(gè)問題:當(dāng)f取值過小時(shí),訓(xùn)練數(shù)據(jù)也減少,從而導(dǎo)致預(yù)測模型失真,因?yàn)閭€(gè)別消息在發(fā)布前幾小時(shí)可能并沒有忠實(shí)粉絲進(jìn)行轉(zhuǎn)發(fā),其次強(qiáng)連接用戶為0 會導(dǎo)致不可進(jìn)行取對數(shù)操作,因此本文假設(shè)主頁自身就是一個(gè)忠實(shí)轉(zhuǎn)發(fā)者,這樣任意發(fā)布的消息至少存在一個(gè)忠實(shí)粉絲進(jìn)行轉(zhuǎn)發(fā),從而不會造成點(diǎn)對的缺失;當(dāng)f取值過大,即強(qiáng)連接節(jié)點(diǎn)門檻較低時(shí),模型逐漸退化為SH 模型。Fox News 主頁經(jīng)平滑后的隨f取值變化的預(yù)測性能趨勢如圖5 所示,其中參考時(shí)間Treference取值為3 h,橫坐標(biāo)為連接強(qiáng)度系數(shù)f。從圖5 可以看出,傳播初期隨著f逐漸增大,RMSE逐漸減小,相關(guān)系數(shù)r逐漸增大。當(dāng)f=1.8%時(shí),2個(gè)指標(biāo)同時(shí)達(dá)到極值點(diǎn)。

圖5 連接強(qiáng)度系數(shù)f 的取值對Fox News 主頁預(yù)測性能的影響

其次,為了驗(yàn)證模型的正確性,本文選取同樣基于線性回歸方法預(yù)測最終流行度的SH 模型進(jìn)行比較。采用SH 模型的Fox News 主頁預(yù)測散點(diǎn)如圖6(a)所示。其中橫坐標(biāo)為信息發(fā)布后參考時(shí)間Treference取值為3 h 的早期流行度,縱坐標(biāo)為消息發(fā)布7 天后的最終流行度,橫縱坐標(biāo)均以自然對數(shù)為底。將數(shù)據(jù)集中75%的點(diǎn)對作為訓(xùn)練集,數(shù)據(jù)集中另外25%的點(diǎn)對作為測試集。采用基于連接強(qiáng)度的TSL模型預(yù)測效果如圖6(b)所示。從圖6(b)可以明顯看出,采用該模型訓(xùn)練后離散點(diǎn)有減少趨勢,更多的點(diǎn)都匯聚在直線上,擬合效果更優(yōu),這說明融合連接強(qiáng)度的二元線性回歸模型可適用于流行度預(yù)測。

表2 給出了所有主頁的擬合結(jié)果的詳細(xì)參數(shù)。從表2 可以看出,各主頁RMSE 指標(biāo)均在0.35 以下,說明誤差較小,而相關(guān)系數(shù)r達(dá)到0.8 以上,為高相關(guān)。此外還發(fā)現(xiàn)連接強(qiáng)度f的最優(yōu)解因主頁的異同而波動較大,而轉(zhuǎn)發(fā)數(shù)較多的Harry Potter、The Simpsons 主頁分別為0.1%和0.4%,轉(zhuǎn)發(fā)數(shù)最多的NBA 主頁的值卻接近10%,由此可見,連接強(qiáng)度與轉(zhuǎn)發(fā)用戶的數(shù)量并沒有直接關(guān)聯(lián)。另一個(gè)發(fā)現(xiàn)是,娛樂類主頁的連接強(qiáng)度普遍小于1%,如Harry Potter、The Simpsons 等名人或電影的公共主頁。而NBA、History、Fox News 等屬性鮮明的興趣類主頁連接強(qiáng)度都較大,這意味著這些主頁中有比例更高的忠實(shí)粉絲進(jìn)行規(guī)律性的轉(zhuǎn)發(fā),連接強(qiáng)度特征將更適合預(yù)測轉(zhuǎn)發(fā)流行度。

圖6 Fox News 主頁的預(yù)測效果

表2 Facebook 主頁預(yù)測結(jié)果

接下來,本文將TSL 模型與其他3 種較為主流的流行度預(yù)測模型在表1 所示的A(興趣類)、B(娛樂類)2 類數(shù)據(jù)集中進(jìn)行預(yù)測效果對比,如圖7 所示。其中,參考時(shí)間Treference設(shè)置為3 h,通過調(diào)整預(yù)測時(shí)間Tpredict來觀察各模型的長期預(yù)測效果。對于RPP 模型,本文將初始參數(shù)設(shè)置為10,圖7(b)給出了這幾種模型在娛樂類主頁數(shù)據(jù)集上的MAPE測度評價(jià)。從圖7(b)可以看出,RPP 模型在中短期的預(yù)測誤差要優(yōu)于其他模型,但隨著預(yù)測時(shí)間Tpredict的增長和轉(zhuǎn)發(fā)量的積累,TSL 模型的長期流行度預(yù)測效果逐漸顯現(xiàn)優(yōu)勢。在興趣類主頁數(shù)據(jù)集上,如圖7(a)所示,當(dāng)Tpredict≥4.5 天時(shí),TSL 模型的長期流行度預(yù)測優(yōu)勢更為明顯,表明TSL 模型對于長期預(yù)測性能更優(yōu)。這可能是由于興趣類主頁的關(guān)注群體較為固定,忠實(shí)粉絲群體轉(zhuǎn)發(fā)活動較為規(guī)律,在這種場景下連接強(qiáng)度對最終流行度有更強(qiáng)的指示作用。

圖7 各模型的MAPE 隨時(shí)間變化趨勢

6 結(jié)束語

本文研究了Facebook 消息轉(zhuǎn)發(fā)流行度的早期傳播特征與最終流行度之間的關(guān)系,提出了一種Facebook 流行度預(yù)測TSL 模型。首先介紹了社會學(xué)中的弱連接理論,提出了連接強(qiáng)度系數(shù),進(jìn)而發(fā)現(xiàn)在信息傳播早期具有強(qiáng)連接屬性的忠實(shí)粉絲比例與最終流行度在雙對數(shù)坐標(biāo)系中呈現(xiàn)線性相關(guān)。其次,通過融合早期流行度與連接強(qiáng)度系數(shù)提出了一種面向Facebook 交友網(wǎng)絡(luò)的流行度預(yù)測模型。最后,根據(jù)Facebook 真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析表明,所提模型可以對消息的最終轉(zhuǎn)發(fā)流行度進(jìn)行有效預(yù)測,相較于同類主流模型有較好的預(yù)測效果。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 欧美性天天| 亚洲国产av无码综合原创国产| 亚洲人成网站色7777| 一级在线毛片| 国产精品自拍露脸视频| 国产欧美视频一区二区三区| 国产成人精品无码一区二| 国产精品一区在线观看你懂的| 亚洲一区二区无码视频| 午夜a级毛片| 先锋资源久久| 欧美在线综合视频| 亚洲欧美不卡| 婷婷激情五月网| 亚洲欧洲自拍拍偷午夜色无码| 色成人亚洲| 九色综合伊人久久富二代| 97se亚洲综合不卡| 免费人欧美成又黄又爽的视频| 一本一本大道香蕉久在线播放| 欧美亚洲日韩中文| 中日无码在线观看| 国产成人1024精品下载| 自拍欧美亚洲| 青青久视频| 国产原创演绎剧情有字幕的| 国产精欧美一区二区三区| 中文字幕久久亚洲一区| 有专无码视频| 欧美日本在线一区二区三区| 毛片在线区| 人人爱天天做夜夜爽| 亚洲一区二区无码视频| 国产精品福利一区二区久久| 国产18在线播放| 亚洲有无码中文网| 色综合热无码热国产| 亚洲av无码久久无遮挡| 99久久国产综合精品2020| 色首页AV在线| 91久久偷偷做嫩草影院免费看| 色老头综合网| 国产精品美人久久久久久AV| 国产高潮流白浆视频| 思思热在线视频精品| 在线观看免费黄色网址| 亚洲狼网站狼狼鲁亚洲下载| 狼友视频一区二区三区| 日本人妻丰满熟妇区| 国产一区二区色淫影院| 91精品综合| 精品欧美日韩国产日漫一区不卡| 国产网友愉拍精品视频| 久久久久免费看成人影片 | 国产尤物jk自慰制服喷水| 青青青国产在线播放| 在线播放91| 4虎影视国产在线观看精品| 嫩草在线视频| 国产精品丝袜在线| 中文国产成人久久精品小说| 午夜啪啪网| 91精品国产一区自在线拍| 91精品视频在线播放| 久久五月天综合| 亚洲国产精品成人久久综合影院| 99精品国产高清一区二区| 一级毛片在线免费看| 思思热在线视频精品| 亚洲人成成无码网WWW| 久久精品人人做人人爽电影蜜月 | 中文字幕亚洲电影| 天天干天天色综合网| 亚洲日韩第九十九页| 东京热av无码电影一区二区| 日韩a在线观看免费观看| 亚洲精品另类| AV熟女乱| 欧美国产综合色视频| 91麻豆精品视频| 成人毛片免费在线观看| 亚洲精品欧美日韩在线|