999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于去噪自編碼器的微博傳播流行度演化研究

2020-03-05 03:29:50段淑鳳朱立谷
關(guān)鍵詞:分析模型

段淑鳳,朱立谷

(1.中國傳媒大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院,北京 100024; 2.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,石家莊 050043)

1 研究背景

隨著互聯(lián)網(wǎng)的興起和相關(guān)軟硬件的高速發(fā)展,尤其智能手機的出現(xiàn),全球的網(wǎng)民人數(shù)日益增多,而相關(guān)技術(shù)在近二十年也得到了快速提高,尤其Web2.0時代的到來,社交媒體快速興起,信息傳播開始步入自媒體時代,因此網(wǎng)絡(luò)傳播學(xué)作為傳播學(xué)的一個分支應(yīng)運而生。由于網(wǎng)絡(luò)用戶的結(jié)構(gòu)復(fù)雜,并出于不同的傳播目的,在傳播過程中會產(chǎn)生大量的人為噪音,造成信息混亂。為達到穩(wěn)定社會氛圍,形成良性的傳播影響的目的,從新聞的傳播態(tài)勢中析取實際的傳播效果,并分析發(fā)現(xiàn)規(guī)律,始終是社交媒體網(wǎng)絡(luò)傳播研究的熱點問題,而本研究的目標(biāo)是基于微博事件的流行度演化過程挖掘網(wǎng)絡(luò)傳播過程的基本規(guī)律。

傳播過程的定性分析主要包括宏觀和微觀兩個角度。對整個傳播過程宏觀的分析,即單純考慮傳播結(jié)果,根據(jù)某個指標(biāo)將傳播過程量化,建立傳播曲線,通過數(shù)學(xué)模型尋找指標(biāo)間的規(guī)律,用于傳播趨勢的預(yù)測。比如,文獻[1]中運用馬爾可夫分析方法建立網(wǎng)絡(luò)輿情熱度趨勢模型,即根據(jù)之前的流行度值預(yù)測當(dāng)前的傳播階段,但是這種方法泛化性比較弱。而微觀分析,則從動力學(xué)角度,基于網(wǎng)絡(luò)特征,從成因角度建立數(shù)學(xué)模型,擬合最終的傳播結(jié)果。傳染病SIR模型[2]是最廣泛應(yīng)用的模型,其核心思想是S 定義為易感染節(jié)點,I定義為傳染節(jié)點,R定義為免疫節(jié)點,節(jié)點之間相互轉(zhuǎn)化,通過概率規(guī)則進行演化仿真。在此基礎(chǔ)上一些改進模型,如SEIR[3]、SIRS[4]和SEIRS[5]等,通過融入潛在節(jié)點E或是改變節(jié)點感染流程進而獲得改良。這些模型為理想化模型,網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容固定,并不適用于實際分析。此外,文獻[6]中將Galton-Waston過程模型引入流行度分析中,該模型是一種分支隨機過程,原用于模擬家族姓氏的演化和滅絕。而隨著機器學(xué)習(xí)技術(shù)研究的流行,文獻[7]中提出了一個多元線性回歸模型,把流行度分成N種類別,根據(jù)用戶活躍度及傳播加速度進行預(yù)測。后兩種方法建立了微觀特征與宏觀結(jié)果的聯(lián)系,但是對數(shù)據(jù)的清潔度有很高的要求。

目前我們在分析過程中利用爬蟲所獲取到的數(shù)據(jù),包含多種噪音成分,因此在進行實際分析時擬合和分類效果比較差,人工分析雖然能夠提高準(zhǔn)確度,但是耗費大量的人力物力。因此,本研究提出將去噪自編碼器引入傳播流行度分析,可直接使用粗糙數(shù)據(jù)集挖掘共性傳播特征,感知異常節(jié)點,削減處理和分析工作量。

2 相關(guān)概念及原理

2.1 流行度演化概念

流行度是給定某則網(wǎng)絡(luò)信息i和某時刻t,該信息的流行度yi(t)定義為人們在時刻t對其的關(guān)注程度,多數(shù)工作中,研究者通常將流行度量化為人們在某時刻采取在網(wǎng)絡(luò)信息上的積極的網(wǎng)絡(luò)行為(觀看、點贊、轉(zhuǎn)發(fā)、評論)的次數(shù)[8]。在本研究中,流行度的主要觀測指標(biāo)則是在該時刻人們針對該事件進行討論所發(fā)布的相關(guān)微博的個數(shù)。

流行度演化則是某個新聞在微博上傳播時,基于時間維度的流行度數(shù)值序列。流行度的演化過程反映了社會熱點事件在網(wǎng)絡(luò)中的傳播態(tài)勢發(fā)展,可以得知網(wǎng)絡(luò)群體對該事件的關(guān)注程度的變化經(jīng)過,對傳播過程中趨勢和規(guī)律的分析起著非常重要作用。

2.2 去噪自編碼器原理

隨著計算機的運算能力和并行處理能力的增強,人工神經(jīng)網(wǎng)絡(luò)模型由于其高度的并行性,良好的容錯和學(xué)習(xí)能力,以及聯(lián)想記憶功能等優(yōu)點,已經(jīng)成為當(dāng)前的研究熱門。自編碼器[9]是神經(jīng)網(wǎng)絡(luò)的一種,同樣是通過正向傳播獲取計算結(jié)果數(shù)據(jù),用反向傳播優(yōu)化網(wǎng)絡(luò)參數(shù),只不過與用于一般用于識別和分類的神經(jīng)網(wǎng)絡(luò)不同的時,它是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò),分成編碼和解碼兩個部分,編碼部分即編碼器用于從輸入數(shù)據(jù)中提取特征,解碼部分即解碼器則根據(jù)特征還原輸入數(shù)據(jù),整個網(wǎng)絡(luò)的輸入和輸出在數(shù)據(jù)結(jié)構(gòu)上是一致的,并且輸出和輸入應(yīng)該非常近似,網(wǎng)絡(luò)參數(shù)的優(yōu)化方向即使輸出和輸入的差值最小,其結(jié)構(gòu)如圖1所示。

圖1 自編碼器結(jié)構(gòu)圖

去噪自編碼器是在自編碼器的基礎(chǔ)上,為了防止直接將輸入轉(zhuǎn)換成輸出所提出的一種新型編碼器,主要方法是在輸入部分增加一些噪聲,最終訓(xùn)練結(jié)果使輸出更接近與原始輸入。即去噪自編碼器可以過濾噪聲獲得更為基礎(chǔ)的特征表示,因此利用這一特性,本實驗直接將包含噪聲成分的流行度演化數(shù)據(jù)作為輸入來獲取真正的傳播特征,并獲取真實的傳播效果。

3 數(shù)據(jù)集與算法模型

3.1 數(shù)據(jù)集說明

(1)訓(xùn)練集

訓(xùn)練集為利用爬蟲技術(shù)在微博中采集的1446條新聞發(fā)帖數(shù)據(jù),發(fā)帖時間從2015年1月2日到2017年7月12日之間,共計923天。其中包含娛樂、財經(jīng)、政治、科技等多種事件類型,最少新聞發(fā)帖總量為2篇,最多總量為69528篇,每個新聞都是以小時為單位進行發(fā)帖數(shù)量的統(tǒng)計,在事件基本平息后進行采集。為了從中了解到基本的網(wǎng)絡(luò)傳播特征,分別對不同時間段的平均發(fā)帖量和時間的持續(xù)時間進行了統(tǒng)計,其結(jié)果如圖2所示。

上圖為發(fā)帖量的統(tǒng)計結(jié)果,橫向坐標(biāo)為小時,縱向為微博數(shù)目,不同顏色的曲線代表不同的周目。如圖所示,在每周的不同日子里,隨時間變化的數(shù)目均值曲線基本相似,只是具體數(shù)值會有區(qū)別,而在同一天變化則比較劇烈。右圖為新聞持續(xù)時間統(tǒng)計,根據(jù)圖可知,最短的持續(xù)時間為1天,最長的持續(xù)時間是142天,持續(xù)時間新聞數(shù)最多的是6天,在2-10天內(nèi)完成的事件占74%,3-7天之內(nèi)完成的事件占57%。

圖2 基礎(chǔ)傳播特征統(tǒng)計

(2)測試集

發(fā)生在2017年1月1日到2017年9月16日之間的78條娛樂新聞相關(guān)詳情數(shù)據(jù),包含發(fā)帖人和發(fā)帖時間以及發(fā)帖內(nèi)容。同樣是在事件平息后進行采集,與訓(xùn)練集有33條新聞重合。最少新聞發(fā)帖數(shù)為12篇,最多為13114篇。最短持續(xù)時間為2天,最長為79天。

3.2 算法模型

(1)數(shù)據(jù)預(yù)處理

A.不同時值流行度指標(biāo)標(biāo)準(zhǔn)化

不同時間微博在線用戶數(shù)不同,導(dǎo)致微博發(fā)帖總量會產(chǎn)生很大的變化,而流行度應(yīng)該反映出當(dāng)前信息的影響能力,使事件的不同時間段待分析流行度值應(yīng)該具有相同的意義,即表示在同等用戶條件下所產(chǎn)生的微博數(shù)量。因此,為了進行一致性分析,以圖2在對不同時間特點的發(fā)帖量統(tǒng)計結(jié)果為基準(zhǔn),最終分析的流行度是各自時刻的相對值。

B.橫縱坐標(biāo)歸一化

為了方便對其進行統(tǒng)一訓(xùn)練,簡化分析過程,需要將所有新聞在時間維度和指標(biāo)維度上進行歸一化。在指標(biāo)維度上進行同步縮放,保持最大值為1。而為保證波形的完整形,對于持續(xù)時間較短的事件,用0進行填充,而對于持續(xù)事件較長的波形,則對相鄰數(shù)據(jù)進行均值計算的方法獲取實際波形。同時為了方便對比,并盡可能的保留細節(jié)信息,根據(jù)圖2的持續(xù)時間統(tǒng)計結(jié)果,實驗分別選擇7天和10天進行時間方向上的歸一化。

(2)去噪自編碼器

本算法的去噪自編碼器含有三個隱含層,除了必須的內(nèi)部表示層之外,編碼器和解碼器均為包含一個隱含層的全連接神經(jīng)網(wǎng)絡(luò),即在圖1的基礎(chǔ)上,在中間層的上下兩側(cè)各增加了一個隱含層。內(nèi)部表示層的節(jié)點數(shù)目在本實驗中設(shè)置為72,另外兩個隱含層的節(jié)點個數(shù)設(shè)置為100,每一批的樣本個數(shù)batch_size設(shè)置為64,隨機從訓(xùn)練數(shù)據(jù)集中無重復(fù)選擇,而訓(xùn)練輪數(shù)epoch設(shè)置為1000。參數(shù)利用Xavier[10]進行初始化,激活函數(shù)設(shè)置為softplus函數(shù),損失函數(shù)選擇平方誤差,優(yōu)化器是Adam,學(xué)習(xí)速率為0.001。

4 實驗結(jié)果及分析

4.1 訓(xùn)練集噪聲結(jié)果分析

訓(xùn)練損失即為噪聲,計算噪聲率,即噪音和信號的比值,根據(jù)結(jié)果分成了最低(<0.01)、低(<0.05)、高(<0.1)、最高(>0.1)四種類型,將實驗結(jié)果根據(jù)分解效果、年份、持續(xù)時間等條件分別統(tǒng)計對應(yīng)的新聞比例之后,再根據(jù)不同時間維度的歸一化值進行統(tǒng)一對比分析,7天為高歸一化程度,10天為低歸一化程度。

(1)時間維度歸一化對噪聲提取影響分析

表1中的數(shù)據(jù)是在當(dāng)前列所對應(yīng)的歸一化程度下,所對應(yīng)的行代表的噪音率的新聞數(shù)量占所有數(shù)據(jù)集中新聞數(shù)量的百分比。從表中我們可以發(fā)現(xiàn),隨著歸一化程度的降低,噪聲率低的新聞數(shù)量開始增加,因為在時間維度高歸一化程度的條件下,更多的新聞是通過降采樣的方式獲得訓(xùn)練數(shù)據(jù),而降采樣可以降低隨機噪聲。

表1 時間維度歸一化程度對噪聲影響對比

(2)噪聲在不同年份的對比分析

表2是在表1的基礎(chǔ)上重新根據(jù)發(fā)生年份進行的細化,即顯示的不再是在全部新聞中的比率,而是在當(dāng)前行對應(yīng)的年份中當(dāng)前噪聲率的新聞數(shù)的占比,用于觀察不同年份的噪音情況。我們可以看到在同一歸一化程度下不同年份的新聞,噪音率較低的占比有所下降,而其他噪聲率都有所上升,這與我們實際的情況一致,越來越多的用戶開始使用人為噪音來增加新聞的流行度。

表2 不同年份的噪聲對比

(3)噪聲與持續(xù)時間的關(guān)系分析

表3則是根據(jù)持續(xù)時間的不同而進行的分類統(tǒng)計,數(shù)值表示在不同的歸一化程度下,不同持續(xù)時間的新聞具有對應(yīng)行的噪聲率的比值。從中可以看出,越長持續(xù)時間的新聞噪聲率高的占比越多,越短持續(xù)時間的新聞噪聲率低的占比越多,同樣也符合實際的新聞傳播情況。

表3 噪聲與新聞持續(xù)時間的關(guān)系對比

4.2 測試集噪聲結(jié)果分析

(1)綜合分析

以表2中2017年的全類新聞不同噪聲率的占比作為基準(zhǔn),與測試集的噪聲率占比情況做對比,從而綜合分析娛樂類新聞的噪聲特點。通過表4的對比結(jié)果可知,娛樂新聞的噪音率明顯高于基準(zhǔn),說明娛樂新聞中人為推動因素較多。而且,時間維度歸一化程度越低,具有最高噪音率的娛樂新聞增多越明顯。

表4 測試集與訓(xùn)練集噪聲率對比

(2)應(yīng)用分析

將利用自編碼器所生成去噪波形與原始波形進行對比,其中藍色波形為預(yù)處理的原始訓(xùn)練波形,黃色波形為生成波形。分別在低噪聲波形新聞和高噪聲波形新聞中選擇一個實例進行分析,每個實例會展示兩個圖像,左圖將顯示高時間維度歸一化結(jié)果,右圖顯示低時間維度歸一化結(jié)果,并對高噪聲波形中差異明顯位置進行噪聲產(chǎn)生原因分析。

A.低噪聲新聞波形

圖3為林肯公園樂隊主唱自殺相關(guān)微博流行度波形,該事件為測試集新增新聞,可以發(fā)現(xiàn)生成波形與原始波形基本匹配,包括相鄰的雙峰值。因此推斷出該新聞的噪聲較少,基本符合正常的新聞網(wǎng)絡(luò)傳播特征,人為有意介入的概率比較低。

B.高噪聲新聞波形

圖4為第36屆香港電影金像獎頒獎典禮的相關(guān)新聞流行度波形,該事件為測試集與訓(xùn)練集重合新聞。從中可以發(fā)現(xiàn)中期的峰值波形匹配差異比較顯著,根據(jù)時間維度的偏移值確定高峰值時間應(yīng)該為2017年4月9日23時到2017年4月10日01時之間,通過查找細節(jié)微博數(shù)據(jù)并結(jié)合實際情況,確定因該時刻典禮結(jié)束,各公眾號頻發(fā)新聞而引發(fā)。

圖3 低噪聲新聞生成波形與原始波形對比圖

圖4 高噪聲新聞生成波形與原始波形對比圖

5 總結(jié)

本研究采用的去噪自編碼器來分析流行度演化波形,在對數(shù)據(jù)進行標(biāo)準(zhǔn)化和歸一化后,首先利用包含全類新聞的訓(xùn)練集數(shù)據(jù)優(yōu)化網(wǎng)絡(luò)參數(shù),挖掘傳播的基礎(chǔ)特征,并通過對其此數(shù)據(jù)集的噪聲結(jié)果分析,發(fā)現(xiàn)與實際傳播特點相符,進而驗證了該模型的泛化性和可行性。之后利用娛樂新聞的測試集數(shù)據(jù),對當(dāng)前模型進行應(yīng)用測試,即綜合分析挖掘出娛樂新聞的噪音特點,還利用生成結(jié)果,針對具體新聞對高異常噪音分析爆發(fā)原因,從而驗證了該模型的可用性。只是當(dāng)前自編碼模型比較簡單,并沒有考慮過擬合問題,后續(xù)研究需要進一步改進的地方是,對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整,尤其考慮如何體現(xiàn)時間先后的流行度關(guān)聯(lián)。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 欧美另类精品一区二区三区| 国产成人高清精品免费5388| 九九热精品视频在线| 亚洲国产欧洲精品路线久久| 国产va视频| 亚洲人成色77777在线观看| 国产精品999在线| 亚洲第一成网站| 热伊人99re久久精品最新地| 四虎影视永久在线精品| 尤物特级无码毛片免费| 日本在线欧美在线| 在线观看亚洲国产| 又猛又黄又爽无遮挡的视频网站| 国产最新无码专区在线| 欧美一区二区三区国产精品| 激情乱人伦| 欧美一区日韩一区中文字幕页| 亚洲综合18p| 久久精品人妻中文系列| 夜夜操国产| 人妻丰满熟妇αv无码| 激情爆乳一区二区| 人人艹人人爽| 伊人五月丁香综合AⅤ| 国产免费看久久久| 亚洲欧美日韩色图| 精品国产网站| 一本色道久久88亚洲综合| 国产内射一区亚洲| 国产麻豆91网在线看| 国产亚洲一区二区三区在线| 亚洲综合经典在线一区二区| 国产va在线观看免费| 国产AV毛片| 国产综合精品一区二区| 亚洲中文字幕97久久精品少妇| 国产三级视频网站| 在线日韩一区二区| 91麻豆国产精品91久久久| 色婷婷在线影院| 伊人久久久久久久久久| 国产美女丝袜高潮| 国产成人a在线观看视频| 欧美成人影院亚洲综合图| 广东一级毛片| 亚洲一区二区黄色| 91小视频版在线观看www| 国产特级毛片| 国产h视频在线观看视频| 免费大黄网站在线观看| 欧美天天干| 欧美午夜在线视频| 成人国产精品2021| 久久影院一区二区h| 亚洲中文久久精品无玛| 精品国产中文一级毛片在线看 | 69综合网| 午夜啪啪网| 亚洲天堂网视频| 91极品美女高潮叫床在线观看| 欧美www在线观看| 亚洲天堂区| www.狠狠| 国产午夜一级毛片| 国产成人亚洲综合A∨在线播放| 国产成人亚洲精品蜜芽影院| 国产日韩精品欧美一区喷| 在线色国产| 无码一区18禁| 国产成人精品视频一区二区电影| 久久国产亚洲偷自| 国产一区二区三区在线观看视频| 毛片网站观看| 亚洲电影天堂在线国语对白| 免费看一级毛片波多结衣| 国产福利不卡视频| 国产香蕉97碰碰视频VA碰碰看| 亚洲欧洲日韩综合色天使| 精品91在线| 麻豆国产在线不卡一区二区| 中日无码在线观看|