999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多度量融合的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法

2022-06-07 06:14:04張中軍張少輝張文娟
關(guān)鍵詞:內(nèi)容用戶(hù)實(shí)驗(yàn)

張中軍 ,張少輝,張文娟

(1.周口師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 周口 466001;2.農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)河南省工程實(shí)驗(yàn)室,河南 周口 466001;3.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450000)

0 引言

轉(zhuǎn)發(fā)微博是微博用戶(hù)的主要活動(dòng),隨著微博用戶(hù)的增多和活躍度的提高,各類(lèi)信息在微博社交網(wǎng)絡(luò)中傳播,成為重要的信息傳播機(jī)制,微博用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)主要是獲得用戶(hù)轉(zhuǎn)發(fā)特定微博的行為發(fā)生的概率,精確掌握微博用戶(hù)信息傳播路徑,這對(duì)于阻斷網(wǎng)絡(luò)謠言傳播和輿情監(jiān)測(cè)有重要作用。對(duì)社交網(wǎng)絡(luò)的研究與分析,主要是用戶(hù)在社交網(wǎng)絡(luò)中的行為和社交網(wǎng)絡(luò)對(duì)用戶(hù)行為的影響,其中,信息轉(zhuǎn)發(fā)傳播就是受復(fù)雜因素影響的社交網(wǎng)絡(luò)行為[1-2]。

用戶(hù)在社交網(wǎng)絡(luò)中的活動(dòng)以瀏覽或發(fā)布微博為主,所以用戶(hù)行為與微博內(nèi)容或微博內(nèi)容潛在的情感相關(guān)。Nesi等[3-5]使用離散時(shí)間方法分析不同時(shí)間段參與主題的用戶(hù)數(shù)量,獲得主題發(fā)展變化的趨勢(shì),動(dòng)態(tài)感知熱點(diǎn)話題;王紹卿等[6]提出聯(lián)合概率模型,把用戶(hù)之間的多重信任關(guān)系融入傳統(tǒng)的貝葉斯Poisson因子分解模型,可以靈活地捕獲用戶(hù)之間的各種社交影響,從而預(yù)測(cè)轉(zhuǎn)發(fā)行為;用戶(hù)對(duì)微博的轉(zhuǎn)發(fā)意味著用戶(hù)對(duì)微博內(nèi)容的關(guān)注,微博內(nèi)容是決定用戶(hù)是否轉(zhuǎn)發(fā)的關(guān)鍵因素之一,F(xiàn)irdaus等[7]基于微博內(nèi)容進(jìn)行深層分析,挖掘微博內(nèi)容相關(guān)的情感和情緒,在不同的情感層次上發(fā)現(xiàn)用戶(hù)對(duì)不同主題的偏好,繼而探討用戶(hù)的主題特定情緒對(duì)其轉(zhuǎn)發(fā)決策的影響,證明了微博內(nèi)容潛在的情感也是用戶(hù)轉(zhuǎn)發(fā)決策的一個(gè)重要因素。

用戶(hù)的社交網(wǎng)絡(luò)行為受多種復(fù)雜因素影響,用戶(hù)的轉(zhuǎn)發(fā)決策也不僅僅依賴(lài)于微博的內(nèi)容或者情感。Chen等[8]從內(nèi)容語(yǔ)義、用戶(hù)擴(kuò)散行為和網(wǎng)絡(luò)結(jié)構(gòu)三個(gè)維度生成各種特征,提出新的集成學(xué)習(xí)方法預(yù)測(cè)轉(zhuǎn)發(fā)行為;Fu等[9-10]抽取影響微博轉(zhuǎn)發(fā)的特征集,如用戶(hù)特征、網(wǎng)絡(luò)結(jié)構(gòu)特征、互動(dòng)行為、用戶(hù)轉(zhuǎn)發(fā)率、交互頻率等,結(jié)合多種因素來(lái)度量用戶(hù)歷史行為模式和用戶(hù)影響力對(duì)用戶(hù)轉(zhuǎn)發(fā)行為的影響;Zhang等[11-12]將用戶(hù)社會(huì)影響力整合到轉(zhuǎn)發(fā)預(yù)測(cè)模型中,共同提高預(yù)測(cè)性能;Kadhom等[13]發(fā)現(xiàn)用戶(hù)轉(zhuǎn)發(fā)行為與其他用戶(hù)轉(zhuǎn)發(fā)行為具有相關(guān)性,即用戶(hù)之間的相關(guān)度對(duì)用戶(hù)轉(zhuǎn)發(fā)行為有一定的影響。Li等[14]通過(guò)分析影響微博用戶(hù)轉(zhuǎn)發(fā)行為的多種特征因素,建立了微博用戶(hù)轉(zhuǎn)發(fā)行為的預(yù)測(cè)模型,然后根據(jù)交互時(shí)間和用戶(hù)關(guān)系的拓?fù)浣Y(jié)構(gòu)計(jì)算用戶(hù)的影響,確定轉(zhuǎn)發(fā)關(guān)鍵路徑;Zou等[15]采用PCA算法對(duì)網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行精確分析,通過(guò)對(duì)社交網(wǎng)絡(luò)信息傳播的建模和正向預(yù)測(cè),獲得網(wǎng)絡(luò)信息傳播的趨勢(shì)和規(guī)律。除此之外,社交網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)在用戶(hù)的轉(zhuǎn)發(fā)行為預(yù)測(cè)中也有重要的作用。Hoang等[16-17]發(fā)現(xiàn)用戶(hù)所屬社區(qū)結(jié)構(gòu)對(duì)用戶(hù)轉(zhuǎn)發(fā)行為產(chǎn)生影響,并在轉(zhuǎn)發(fā)行為預(yù)測(cè)中加以應(yīng)用;Li等[18]挖掘用戶(hù)潛在社區(qū),分析外部社區(qū)驅(qū)動(dòng)效應(yīng)和內(nèi)部社區(qū)驅(qū)動(dòng)效應(yīng),采用概率圖模型對(duì)轉(zhuǎn)發(fā)行為進(jìn)行建模,預(yù)測(cè)轉(zhuǎn)發(fā)行為。Yin等[19]將用戶(hù)瀏覽和轉(zhuǎn)發(fā)的微博行為成功應(yīng)用于COVID-19的輿論趨勢(shì)分析,能準(zhǔn)確預(yù)測(cè)重大新聞事件的發(fā)生。

現(xiàn)有的微博社交網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測(cè)方法多數(shù)依賴(lài)于對(duì)微博正文的挖掘,以此來(lái)分析用戶(hù)的興趣或情感,通過(guò)對(duì)興趣或情感的衡量預(yù)測(cè)轉(zhuǎn)發(fā)行為,有些方法過(guò)于強(qiáng)調(diào)社交網(wǎng)絡(luò)結(jié)構(gòu)的影響,用網(wǎng)絡(luò)結(jié)構(gòu)緊密度來(lái)預(yù)測(cè)用戶(hù)之間轉(zhuǎn)發(fā)行為,都忽略了用戶(hù)本身的行為習(xí)慣和用戶(hù)之間的行為相關(guān)性,即用戶(hù)行為對(duì)其他用戶(hù)行為的影響。本文利用網(wǎng)絡(luò)爬蟲(chóng)獲取某時(shí)間段內(nèi)的新浪微博數(shù)據(jù)并提取用戶(hù)微博特征,設(shè)計(jì)了轉(zhuǎn)發(fā)行為習(xí)慣度、歷史微博認(rèn)同度、微博內(nèi)容相似度和轉(zhuǎn)發(fā)行為相似度計(jì)算方法,并綜合多種度量標(biāo)準(zhǔn)預(yù)測(cè)用戶(hù)轉(zhuǎn)發(fā)行為,避免了衡量標(biāo)準(zhǔn)的片面性和對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的過(guò)度依賴(lài)。

1 轉(zhuǎn)發(fā)行為預(yù)測(cè)方法

微博社交網(wǎng)絡(luò)由用戶(hù)作為網(wǎng)絡(luò)節(jié)點(diǎn)、用戶(hù)之間的關(guān)注關(guān)系作為網(wǎng)絡(luò)連邊,現(xiàn)實(shí)情況下,用戶(hù)之間的關(guān)注關(guān)系具有方向性,所以,微博社交網(wǎng)絡(luò)中的邊為有向邊,微博社交網(wǎng)絡(luò)可以看成一個(gè)有向圖D=<V,E>,其中V是D中的節(jié)點(diǎn)集,E是有向邊的集合,E中的每一個(gè)元素均是序偶<u,v>。

1.1 轉(zhuǎn)發(fā)行為習(xí)慣度

用戶(hù)發(fā)布微博數(shù)量中轉(zhuǎn)發(fā)的微博所占的比例反映用戶(hù)在社交網(wǎng)絡(luò)微博活動(dòng)中更可能發(fā)生轉(zhuǎn)發(fā)行為還是原創(chuàng)發(fā)布行為,這個(gè)比例本文稱(chēng)之為轉(zhuǎn)發(fā)行為習(xí)慣度,轉(zhuǎn)發(fā)行為習(xí)慣度越高,說(shuō)明用戶(hù)更習(xí)慣于轉(zhuǎn)發(fā)別人的微博,否則,說(shuō)明用戶(hù)更習(xí)慣于發(fā)布原創(chuàng)微博。用戶(hù)i的轉(zhuǎn)發(fā)行為習(xí)慣度計(jì)算公式如下:

其中,F(xiàn)ocusi表示用戶(hù)i關(guān)注的所有用戶(hù)節(jié)點(diǎn)的集合,nk→i表示用戶(hù)i從用戶(hù)k轉(zhuǎn)發(fā)的微博數(shù)量,Ni表示用戶(hù)i發(fā)布的微博總數(shù),包括轉(zhuǎn)發(fā)和原創(chuàng)微博。

1.2 歷史微博認(rèn)同度

用戶(hù)轉(zhuǎn)發(fā)其他用戶(hù)微博,可以認(rèn)為是對(duì)其所發(fā)布微博的觀點(diǎn)和內(nèi)容的認(rèn)同。如果用戶(hù)j的微博被用戶(hù)i轉(zhuǎn)發(fā)數(shù)量較多,那么可以合理地認(rèn)為用戶(hù)i對(duì)用戶(hù)j的認(rèn)同是穩(wěn)定的,用戶(hù)j再次發(fā)布的微博被用戶(hù)i轉(zhuǎn)發(fā)的可能性更大。所以,本文采用用戶(hù)i轉(zhuǎn)發(fā)用戶(hù)j微博的頻率Pj→i來(lái)衡量用戶(hù)i對(duì)用戶(hù)j歷史微博的認(rèn)同度,即用戶(hù)j發(fā)布的微博被用戶(hù)i轉(zhuǎn)發(fā)的比例,計(jì)算公式如下:

其中,nj→i表示用戶(hù) i轉(zhuǎn)發(fā)用戶(hù) j的微博數(shù)量,Nj表示用戶(hù)j發(fā)布的微博總數(shù)。

1.3 微博內(nèi)容相似度

用戶(hù)發(fā)布的微博內(nèi)容能反映用戶(hù)的興趣偏好,可以分析用戶(hù)近期微博內(nèi)容獲得該用戶(hù)的興趣偏好,根據(jù)待預(yù)測(cè)微博與該用戶(hù)歷史微博的相似性來(lái)衡量用戶(hù)轉(zhuǎn)發(fā)該微博的可能性,如果待預(yù)測(cè)微博與該用戶(hù)歷史微博內(nèi)容高度相似,那么該用戶(hù)轉(zhuǎn)發(fā)行為發(fā)生概率較大。事實(shí)上,用戶(hù)的興趣偏好容易隨著時(shí)間的推移發(fā)生變化,所以久遠(yuǎn)的歷史微博記錄只能代表用戶(hù)以前的興趣。本文只對(duì)用戶(hù)近期發(fā)表的微博以及轉(zhuǎn)發(fā)的微博內(nèi)容進(jìn)行分析,既能減少數(shù)據(jù)處理開(kāi)銷(xiāo),也能保證用戶(hù)興趣挖掘的精確性。

文中收集用戶(hù)近三個(gè)月的微博內(nèi)容數(shù)據(jù),對(duì)需要計(jì)算內(nèi)容相似度的用戶(hù)ui的歷史微博數(shù)據(jù)和uj的待預(yù)測(cè)微博,使用NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)相應(yīng)微博數(shù)據(jù)進(jìn)行分詞,得到總的詞匯列表 L={t1,t2,…,tn},tk為所分析微博數(shù)據(jù)中出現(xiàn)的詞匯,n表示總的詞語(yǔ)數(shù),然后對(duì)L中每個(gè)詞語(yǔ)計(jì)算TF-IDF值,記作tdi:

其中,qi表示詞語(yǔ)ti在總微博樣本中出現(xiàn)的次數(shù),n代表總詞語(yǔ)數(shù)量,|D|表示總的微博數(shù)量,|{d∶ti∈d}|表示含有詞語(yǔ) ti的微博數(shù)量。對(duì)于用戶(hù)ui歷史微博數(shù)據(jù)和uj的待預(yù)測(cè)微博數(shù)據(jù),根據(jù)微博詞語(yǔ)的TF-IDF值分別用向量表示為Vui和Vuj,那么微博內(nèi)容相似度可以使用其向量余弦值表示:

其中:Vui·VTuj是Vui和Vuj兩者的點(diǎn)積,分母中分別表示Vui和Vuj的歐幾里得范數(shù)。

1.4 轉(zhuǎn)發(fā)行為相似度

微博內(nèi)容相同或相似的用戶(hù)之間具有相同的興趣愛(ài)好,轉(zhuǎn)發(fā)行為發(fā)生的可能性較大,但是,根據(jù)對(duì)微博數(shù)據(jù)的分析發(fā)現(xiàn),用戶(hù)轉(zhuǎn)發(fā)的微博與其歷史微博內(nèi)容毫無(wú)相關(guān)性的現(xiàn)象也時(shí)常存在,這種轉(zhuǎn)發(fā)行為反映出用戶(hù)之間觀點(diǎn)的相似性。本文使用用戶(hù)轉(zhuǎn)發(fā)行為相似性來(lái)衡量用戶(hù)之間觀點(diǎn)的相似性,如果兩個(gè)用戶(hù)轉(zhuǎn)發(fā)第三個(gè)用戶(hù)微博的比例、被第三個(gè)用戶(hù)轉(zhuǎn)發(fā)的比例較大,則認(rèn)為兩者觀點(diǎn)高度相似,那么這類(lèi)用戶(hù)之間發(fā)生轉(zhuǎn)發(fā)行為的可能性也較大。用戶(hù)i與用戶(hù)j的轉(zhuǎn)發(fā)行為相似度可以通過(guò)用戶(hù)i,j從所有共同關(guān)注節(jié)點(diǎn)的轉(zhuǎn)發(fā)比例的平均值以及被所有共同粉絲節(jié)點(diǎn)轉(zhuǎn)發(fā)的比例平均值來(lái)計(jì)算,公式如下:

其中,F(xiàn)ocusij表示節(jié)點(diǎn)i,j共同關(guān)注的節(jié)點(diǎn)集合;Followij表示節(jié)點(diǎn)i,j共同粉絲節(jié)點(diǎn)集合;n表示節(jié)點(diǎn)i,j共同關(guān)注的節(jié)點(diǎn)個(gè)數(shù);m表示節(jié)點(diǎn)i,j共 同 粉 絲 節(jié) 點(diǎn) 個(gè) 數(shù) 。 pk→ij=Agree(i,k)×Agree(j,k)表示用戶(hù)i和j轉(zhuǎn)發(fā)k的微博比例,pij→k=Agree(k,i)×Agree(k,j)表 示 用 戶(hù) k 轉(zhuǎn) 發(fā)用戶(hù)i和用戶(hù)j的微博比例。

1.5 用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)

用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)就是根據(jù)上述多個(gè)度量綜合判斷轉(zhuǎn)發(fā)行為發(fā)生的可能性。用戶(hù)i對(duì)用戶(hù)j發(fā)布的微博發(fā)生轉(zhuǎn)發(fā)行為的概率就是通過(guò)用戶(hù)i的轉(zhuǎn)發(fā)行為習(xí)慣度、用戶(hù)i對(duì)用戶(hù)j的歷史微博認(rèn)同度、用戶(hù)j所發(fā)微博與用戶(hù)i近期微博內(nèi)容的相似度以及兩者轉(zhuǎn)發(fā)行為相似度綜合衡量。為防止單項(xiàng)為0時(shí)對(duì)結(jié)果造成的影響,對(duì)各度量做簡(jiǎn)單變換,用戶(hù)i對(duì)用戶(hù)j發(fā)布的微博轉(zhuǎn)發(fā)行為發(fā)生的概率計(jì)算公式如下:

其中,系數(shù)Eij表示在微博社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中節(jié)點(diǎn)i到節(jié)點(diǎn)j是否存在連邊,存在連邊為1,否則為0。節(jié)點(diǎn)i到節(jié)點(diǎn)j存在連邊,說(shuō)明用戶(hù)i關(guān)注了用戶(hù)j,用戶(hù)j所發(fā)布的微博對(duì)用戶(hù)i可見(jiàn),可能被用戶(hù)i轉(zhuǎn)發(fā),否則,不可能發(fā)生轉(zhuǎn)發(fā)行為,即轉(zhuǎn)發(fā)概率為零。在轉(zhuǎn)發(fā)行為預(yù)測(cè)時(shí),當(dāng)滿足Retweet(i,j)≥θ時(shí),則認(rèn)為會(huì)發(fā)生轉(zhuǎn)發(fā)行為,否則,認(rèn)為不轉(zhuǎn)發(fā)。用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)過(guò)程如圖1所示。

圖1 用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)過(guò)程Fig.1 Prediction process of user retweet behavior

在上面的過(guò)程中,分為特征提取及相似度計(jì)算階段、訓(xùn)練階段和預(yù)測(cè)階段。在特征提取及相似度計(jì)算階段中,轉(zhuǎn)發(fā)行為相似度的計(jì)算主要提取待預(yù)測(cè)用戶(hù)發(fā)布微博的總量和其中的轉(zhuǎn)發(fā)數(shù)量;歷史微博認(rèn)同度的計(jì)算主要提取已知用戶(hù)發(fā)布微博的總量和被待預(yù)測(cè)用戶(hù)轉(zhuǎn)發(fā)的數(shù)量;微博內(nèi)容相似度的計(jì)算主要獲得已知用戶(hù)所發(fā)新微博與待預(yù)測(cè)用戶(hù)興趣的契合度;轉(zhuǎn)發(fā)行為相似度主要提取兩者對(duì)共同關(guān)注的用戶(hù)微博的轉(zhuǎn)發(fā)行為和第三方對(duì)兩者微博的轉(zhuǎn)發(fā)行為。訓(xùn)練階段主要是利用訓(xùn)練數(shù)據(jù)集確定閾值θ的值。轉(zhuǎn)發(fā)行為預(yù)測(cè)階段則可以看作分類(lèi)問(wèn)題,結(jié)果只有轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā)兩類(lèi)。本文微博轉(zhuǎn)發(fā)行為預(yù)測(cè)算法MRBP-MMF(Microblog retweet behavior prediction method based on multiple metrics fusion)偽代碼如下:

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文所用實(shí)驗(yàn)數(shù)據(jù)采集于新浪微博平臺(tái),數(shù)據(jù)包括微博用戶(hù)及關(guān)注關(guān)系、發(fā)布微博的時(shí)間、內(nèi)容(包括原創(chuàng)與轉(zhuǎn)發(fā)內(nèi)容)、是否轉(zhuǎn)發(fā)、評(píng)論及點(diǎn)贊等信息。由于在微博社交網(wǎng)絡(luò)中存在大量僵尸用戶(hù)等噪聲數(shù)據(jù),直接影響實(shí)驗(yàn)結(jié)果,所以實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行清洗,去除在指定時(shí)間窗口內(nèi)從未發(fā)布或轉(zhuǎn)發(fā)過(guò)任何微博的無(wú)效用戶(hù),保留73 508個(gè)用戶(hù)和1 054 563條關(guān)注關(guān)系、8 032 649條微博,其中轉(zhuǎn)發(fā)微博1 296 254條、原創(chuàng)微博6 736 395條,形成實(shí)驗(yàn)數(shù)據(jù)集。后面將針對(duì)本文提出的基于多度量融合的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法(MRBP-MMF)進(jìn)行反復(fù)實(shí)驗(yàn),以測(cè)試算法的有效性。

2.2 評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于分類(lèi)問(wèn)題,衡量準(zhǔn)確性的評(píng)價(jià)方法常選用信息檢索的評(píng)價(jià)指標(biāo):查準(zhǔn)率、查全率和F1值。微博轉(zhuǎn)發(fā)預(yù)測(cè)結(jié)果只有轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā),故可看作二分類(lèi)問(wèn)題,可用分類(lèi)評(píng)價(jià)指標(biāo)衡量,在微博轉(zhuǎn)發(fā)預(yù)測(cè)中,查準(zhǔn)率(precision)等于正確預(yù)測(cè)為“被轉(zhuǎn)發(fā)”的數(shù)量與所有預(yù)測(cè)為“被轉(zhuǎn)發(fā)”的數(shù)量的比值,查全率(recall),也稱(chēng)靈敏度,等于正確預(yù)測(cè)為“被轉(zhuǎn)發(fā)”的數(shù)量與實(shí)際“被轉(zhuǎn)發(fā)”的總量的比值。

查準(zhǔn)率和查全率容易被極端情況影響,F(xiàn)1度量是可以用來(lái)同時(shí)描述查準(zhǔn)率和查全率的一個(gè)綜合指標(biāo),計(jì)算公式如下:

對(duì)于微博轉(zhuǎn)發(fā)行為研究的應(yīng)用,比如網(wǎng)絡(luò)謠言傳播的預(yù)測(cè),目的是盡可能準(zhǔn)確預(yù)測(cè)到要發(fā)生的轉(zhuǎn)發(fā)行為,所以,下面實(shí)驗(yàn)中轉(zhuǎn)發(fā)行為預(yù)測(cè)結(jié)果主要用F1值和靈敏度來(lái)衡量,靈敏度高,說(shuō)明能發(fā)現(xiàn)更多的轉(zhuǎn)發(fā)行為。

2.3 實(shí)驗(yàn)結(jié)果分析

針對(duì)本文提出的MRBP-MMF方法設(shè)計(jì)實(shí)驗(yàn)以驗(yàn)證算法在轉(zhuǎn)發(fā)行為預(yù)測(cè)中的效果,首先進(jìn)行消融實(shí)驗(yàn),即轉(zhuǎn)發(fā)預(yù)測(cè)模型中只保留微博內(nèi)容相似度單一特征,這也是早期轉(zhuǎn)發(fā)預(yù)測(cè)研究采用的方法(下文稱(chēng)為MRBP)。然后將本文MRBP-MMF算法與經(jīng)典的樸素貝葉斯和支持向量機(jī)分類(lèi)算法以及PM3[7]和RBMHDRN轉(zhuǎn)發(fā)預(yù)測(cè)算法[8]進(jìn)行對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)中,采用K折交叉驗(yàn)證方法驗(yàn)證在不同規(guī)模訓(xùn)練數(shù)據(jù)下各算法的預(yù)測(cè)效果。K折交叉驗(yàn)證是數(shù)據(jù)分類(lèi)中常用的測(cè)試方法,它將實(shí)驗(yàn)數(shù)據(jù)隨機(jī)分成K份,依次將其中K-1份作為訓(xùn)練數(shù)據(jù)集,剩余1份作為測(cè)試數(shù)據(jù),將K次執(zhí)行的結(jié)果的平均值作為算法的執(zhí)行的結(jié)果,在本文實(shí)驗(yàn)中,K從2到10依次取值。

圖2是MRBP-MMF方法與消融后的MRBP方法K折交叉驗(yàn)證結(jié)果的F1值,從圖中可以看出,本文的MRBP-MMF方法的預(yù)測(cè)結(jié)果F1值整體上明顯優(yōu)于MRBP方法,并且隨著訓(xùn)練數(shù)據(jù)的增多,MRBP-MMF的預(yù)測(cè)結(jié)果F1值大幅升高,整體提高了約16%,相比而言,MRBP的預(yù)測(cè)結(jié)果的F1值整體偏低,雖有提高,但增幅較小,并且在K取值為8之后,預(yù)測(cè)結(jié)果沒(méi)有明顯提高。圖3是消融前后靈敏度對(duì)比,圖中顯示,MRBP-MMF靈敏度遠(yuǎn)遠(yuǎn)高于消融后的MRBP方法,并且整體來(lái)看,MRBP方法的靈敏度隨著訓(xùn)練數(shù)據(jù)增加,并沒(méi)有明顯提高,甚至有下降現(xiàn)象。實(shí)驗(yàn)表明,相對(duì)于單一特征,多度量融合的方法在訓(xùn)練數(shù)據(jù)較少的情況下,能夠取得更好的預(yù)測(cè)效果,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,預(yù)測(cè)效果明顯提高。總體來(lái)講,MRBP-MMF方法對(duì)用戶(hù)轉(zhuǎn)發(fā)行為的預(yù)測(cè)靈敏度比消融后平均高出12%。此實(shí)驗(yàn)結(jié)果的產(chǎn)生,原因在于MRBP方法采用微博內(nèi)容相似度單一特征來(lái)判斷用戶(hù)轉(zhuǎn)發(fā)行為發(fā)生的可能性,忽略了用戶(hù)在微博社交網(wǎng)絡(luò)行為中轉(zhuǎn)發(fā)別人微博的習(xí)慣、對(duì)關(guān)注對(duì)象的認(rèn)同等現(xiàn)實(shí)因素,甚至訓(xùn)練數(shù)據(jù)較多時(shí)卻導(dǎo)致訓(xùn)練結(jié)果過(guò)度依賴(lài)微博內(nèi)容,反而靈敏度下降,所以,多度量融合的MRBP-MMF方法能夠取得更好的結(jié)果。

圖2 消融前后預(yù)測(cè)結(jié)果F1值對(duì)比Fig.2 Comparison of F1 values before and after fusion

圖3 消融前后靈敏度對(duì)比Fig.3 Comparison of sensitivity before and after fusion

Naive Bayes算法和SVM算法都是經(jīng)典的分類(lèi)算法。下面將兩種分類(lèi)算法用于轉(zhuǎn)發(fā)行為預(yù)測(cè),并將預(yù)測(cè)結(jié)果與MRBP-MMF方法對(duì)比。圖4是三者預(yù)測(cè)結(jié)果的F1值對(duì)比,從圖中可以看出,MRBP-MMF的預(yù)測(cè)結(jié)果F1值均明顯高于Naive Bayes算法和SVM算法,在2折交叉驗(yàn)證實(shí)驗(yàn)時(shí),MRBP-MMF與Naive Bayes、SVM相比,預(yù)測(cè)結(jié)果F1值相差較小,隨著訓(xùn)練數(shù)據(jù)的增多,預(yù)測(cè)結(jié)果F1值差距逐漸增大,在10折交叉驗(yàn)證實(shí)驗(yàn)中,本文MRBP-MMF預(yù)測(cè)結(jié)果F1值相比Naive Bayes和SVM分別高出約0.09和0.12,并且兩種分類(lèi)算法的預(yù)測(cè)結(jié)果F1值增幅較小。圖5是三者靈敏度對(duì)比,顯然,MRBPMMF靈敏度高于兩種分類(lèi)算法,并呈上升趨勢(shì),而Naive Bayes算法和SVM算法靈敏度上升之后出現(xiàn)下降,整體較低。實(shí)驗(yàn)表明,與Naive Bayes和SVM相比,在訓(xùn)練數(shù)據(jù)較少的情況下,本文MRBP-MMF方法能夠獲得更高的預(yù)測(cè)效果,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,其預(yù)測(cè)效果有更大的提升。產(chǎn)生此實(shí)驗(yàn)結(jié)果的原因在于傳統(tǒng)的Naive Bayes和SVM算法主要用于分類(lèi),特別是文本分類(lèi),雖然微博用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)可以視為分類(lèi)問(wèn)題,但傳統(tǒng)的經(jīng)典分類(lèi)方法并不適應(yīng)于社交網(wǎng)絡(luò)數(shù)據(jù)。MRBP-MMF方法充分考慮了用戶(hù)轉(zhuǎn)發(fā)行為相似度和轉(zhuǎn)發(fā)習(xí)慣,所以在轉(zhuǎn)發(fā)行為預(yù)測(cè)方面表現(xiàn)出了更好的效果。

圖4 與Naive Bayes和SVM預(yù)測(cè)結(jié)果F1值對(duì)比Fig.4 Comparison of F1 with Naive Bayes and SVM

圖5 與Naive Bayes和SVM靈敏度對(duì)比Fig.5 Comparison of sensitivity with Naive Bayes and SVM

PM3算法和RBMHDRN算法均與傳統(tǒng)分類(lèi)方法不同,PM3算法是針對(duì)社交網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測(cè)而設(shè)計(jì)的一種強(qiáng)調(diào)用戶(hù)情感因素的方法,重點(diǎn)研究?jī)?nèi)容包含情感和情緒對(duì)轉(zhuǎn)發(fā)決策的影響,而RBMHDRN算法與本文MRBP-MMF方法類(lèi)似,集成多種特征實(shí)現(xiàn)轉(zhuǎn)發(fā)預(yù)測(cè),但抽取的特征有所不同。

圖6是MRBP-MMF方法與PM3算法、RBMHDRN算法預(yù)測(cè)結(jié)果的F1值對(duì)比,圖中顯示,MRBP-MMF的預(yù)測(cè)結(jié)果F1值均高于PM3算法,針對(duì)不同規(guī)模的訓(xùn)練數(shù)據(jù)實(shí)驗(yàn),多數(shù)預(yù)測(cè)結(jié)果的F1值略高于RBMHDRN算法,偶爾略低于RBMHDRN算法,但差距不大,并且訓(xùn)練數(shù)據(jù)量少的情況下,MRBP-MMF方法較優(yōu)。圖7是三者靈敏度對(duì)比,MRBP-MMF的靈敏度明顯高于PM3算法,與RBMHDRN算法相比,MRBP-MMF靈敏度多數(shù)情況下略高,偶爾略低,整體相差不大,在訓(xùn)練數(shù)據(jù)增多的情況下,RBMHDRN算法靈敏度較優(yōu)。總體來(lái)講,MRBP-MMF方法轉(zhuǎn)發(fā)行為預(yù)測(cè)靈敏度分別比PM3和RBMHDRN平均高出4%和0.7%。

圖6 轉(zhuǎn)發(fā)行為預(yù)測(cè)算法預(yù)測(cè)結(jié)果F1值對(duì)比Fig.6 Comparison of F1 with other algorithms

圖7 轉(zhuǎn)發(fā)行為預(yù)測(cè)算法靈敏度對(duì)比Fig.7 Comparison of sensitivity of MRBP-MMF with that of PM3 and RBMHDRN

實(shí)驗(yàn)表明,在訓(xùn)練數(shù)據(jù)較少的情況下,本文提出的MRBP-MMF方法能夠獲得更高的準(zhǔn)確性和靈敏度,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,均有所提高,同樣,PM3算法預(yù)測(cè)結(jié)果F1值也有提升,說(shuō)明對(duì)用戶(hù)情感和情緒的挖掘有助于轉(zhuǎn)發(fā)行為的預(yù)測(cè)。實(shí)際上,情感詞所反映的用戶(hù)情感是多樣的,比如,“哭”可能代表傷心,也可能代表開(kāi)心或恐懼,所以,轉(zhuǎn)發(fā)行為預(yù)測(cè)不能完全依賴(lài)于用戶(hù)情感,MRBP-MMF方法綜合多種衡量標(biāo)準(zhǔn),更能取得穩(wěn)定的預(yù)測(cè)結(jié)果。

3 結(jié)論

本文提出一種基于多度量融合的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)方法,綜合考慮了用戶(hù)轉(zhuǎn)發(fā)習(xí)慣度、內(nèi)容相似度、轉(zhuǎn)發(fā)行為相似度等多種度量標(biāo)準(zhǔn),實(shí)驗(yàn)證明本文算法取得了較好的預(yù)測(cè)結(jié)果。但是,預(yù)測(cè)方法還需要進(jìn)一步的研究探討,比如,轉(zhuǎn)發(fā)時(shí)間的預(yù)測(cè),能進(jìn)一步確定用戶(hù)在什么時(shí)間轉(zhuǎn)發(fā)微博將有更重要的意義。下一步工作的重點(diǎn)是深入分析用戶(hù)轉(zhuǎn)發(fā)時(shí)間規(guī)律,結(jié)合最新技術(shù),設(shè)計(jì)轉(zhuǎn)發(fā)時(shí)間預(yù)測(cè)模型,進(jìn)一步細(xì)化用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)結(jié)果。

猜你喜歡
內(nèi)容用戶(hù)實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
內(nèi)容回顧溫故知新
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
關(guān)注用戶(hù)
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶(hù)
關(guān)注用戶(hù)
如何獲取一億海外用戶(hù)
主站蜘蛛池模板: 激情乱人伦| 国内精品小视频在线| 国产乱子伦一区二区=| 欧美精品啪啪| 亚洲视频色图| av在线无码浏览| 国产网站一区二区三区| 亚洲免费成人网| 少妇精品网站| a级毛片视频免费观看| 在线毛片免费| 一级全黄毛片| 国内熟女少妇一线天| 亚洲中文字幕97久久精品少妇| 91网址在线播放| 日日拍夜夜嗷嗷叫国产| 中文字幕在线看视频一区二区三区| 免费在线观看av| 国产又色又爽又黄| 欧美午夜性视频| 大陆精大陆国产国语精品1024| 国产乱子伦无码精品小说| 精品夜恋影院亚洲欧洲| 91小视频在线观看免费版高清| 呦女亚洲一区精品| 国产一区二区三区日韩精品| 久久综合五月| 91丨九色丨首页在线播放| 国产a网站| 国产激情在线视频| 中日韩欧亚无码视频| 国产福利一区二区在线观看| 久青草免费在线视频| 国产视频欧美| 极品国产在线| 国产内射一区亚洲| 国产精品.com| 女人爽到高潮免费视频大全| 欧美另类精品一区二区三区| 无码网站免费观看| 亚洲精品777| 国产呦视频免费视频在线观看| 中文字幕 欧美日韩| 青草国产在线视频| 久久久久久久久18禁秘 | 91福利在线观看视频| 日韩欧美综合在线制服| 国产成人h在线观看网站站| 最新国产午夜精品视频成人| 国产高清在线丝袜精品一区| 最近最新中文字幕在线第一页| 免费黄色国产视频| 国产99免费视频| 91www在线观看| 精品国产电影久久九九| 久久久国产精品无码专区| 久久永久免费人妻精品| 最新国产你懂的在线网址| 99re热精品视频中文字幕不卡| 免费jizz在线播放| 亚洲成aⅴ人在线观看| 亚洲床戏一区| 精品久久久久久中文字幕女| 无码中文字幕精品推荐| 亚洲va视频| 亚洲人成网站在线播放2019| 九九久久99精品| 99色亚洲国产精品11p| 黄色污网站在线观看| 欧美日韩激情在线| 女人一级毛片| 69av在线| 自偷自拍三级全三级视频| 日本一本正道综合久久dvd | 四虎成人在线视频| 亚洲美女久久| 久久人人爽人人爽人人片aV东京热 | 免费毛片视频| 18禁影院亚洲专区| 欧美成人手机在线观看网址| 日韩精品毛片| 自慰高潮喷白浆在线观看|