門玉霞
(自貢市第一人民醫(yī)院,四川,自貢 643000)
網(wǎng)絡新聞已經(jīng)成為當前網(wǎng)絡信息載體的主流,日益發(fā)展成為人類日常生活中不可缺少的一部分,傳統(tǒng)的新聞獲取方式已經(jīng)逐漸被網(wǎng)絡所代替[1]。由于網(wǎng)絡具有實時性、便捷性等優(yōu)勢[2-3],人們主要通過電子設備在網(wǎng)絡上了解最新的新聞資訊,不再需要購買報紙或者雜志等[4]。現(xiàn)階段如何預測網(wǎng)絡新聞信息傳播流行度成為研究的熱點話題。相關專家針對該方面的內(nèi)容展開了大量的研究,例如朱琛剛等[5]采用行為動力學分類方法將節(jié)目流行度演化過程劃分為4種不同類型,通過雙種群粒子優(yōu)化的最小二乘支持向量機對不同類型分別組建流行度預測模型,通過模型進一步構(gòu)建對應的預測系統(tǒng)。鮑鵬等[6]通過圖注意力機制學習在線內(nèi)容級聯(lián)結(jié)構(gòu)表示,采用時序卷積網(wǎng)絡捕獲傳播級聯(lián)的時序特征建立對應的系統(tǒng),同時通過全卷積映射在線內(nèi)容流行度預測。以上2種系統(tǒng)現(xiàn)階段雖然取得了較為滿意的研究成果,但是由于未能將短期記憶網(wǎng)絡(LSTM)算法應用到網(wǎng)絡新聞信息傳播流行度預測中,造成網(wǎng)絡新聞信息傳播流行度預測準確率減少,響應時間和預測費用大幅度增加。為了全面提升所設計系統(tǒng)的綜合性能,結(jié)合LSTM算法,提出一種網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)。仿真實驗結(jié)果表明,所設計系統(tǒng)能夠有效提升網(wǎng)絡新聞信息傳播流行度預測準確率,降低預測響應時間和預測費用。
建立網(wǎng)絡新聞信息傳播模型的主要目的是對網(wǎng)絡新聞的傳播方式進行描述,在網(wǎng)絡新聞中,用戶狀態(tài)可以劃分為4種不同的形式,分別為
(1) 傳播狀態(tài);
(2) 未知狀態(tài);
(3) 辨別狀態(tài);
(4) 免疫狀態(tài)。
在組建狀態(tài)轉(zhuǎn)移方程的過程中,需要全面考慮用戶對網(wǎng)絡新聞信息的感興趣程度[7],以此為基礎建立網(wǎng)絡新聞信息傳播模型。整個模型主要包含3種不同傳播規(guī)則,具體如下。
(1) 當系統(tǒng)運行初始階段只有一個用戶的狀態(tài)為傳播時,剩余用戶均為易感狀態(tài)。
(2) 通過自身概率完成狀態(tài)轉(zhuǎn)換。
(3) 將系統(tǒng)處于感染狀態(tài)的節(jié)點進行狀態(tài)轉(zhuǎn)換,確保其不會再次被感染。
SIR模型是傳染病模型中最經(jīng)典的模型。其中,S表示易感者,I表示感染者,R表示移除者。其中,SIR(susceptible infected recovered model)模型的傳播規(guī)則,如圖1所示。

圖1 SIR模型的傳播規(guī)則
隨著時間的推移,SIR模型可以表示為以下的形式[8]:

(1)
式中,a表示網(wǎng)絡新聞傳播的感染率,b表示網(wǎng)絡新聞傳播的恢復率,t為某個時刻,例如t=1,S(1)為第一天網(wǎng)絡新聞傳播的人數(shù)。無論t為什么時刻,總?cè)藬?shù)是不變的,即N(t)=S(t)+I(t)+R(t)。人口總數(shù)總保持一個常數(shù),即N(t)=k,不考慮人口的出生、死亡、遷移等因素。
在上述分析的基礎上,需要獲取模型的應用場景。網(wǎng)絡新聞信息傳播模型設定各個節(jié)點共計包含4種不同的狀態(tài),其中辨識狀態(tài)是未知狀態(tài)的下一個狀態(tài),主要目的是利用狀態(tài)節(jié)點接收鄰近節(jié)點所轉(zhuǎn)發(fā)的信息,同時該節(jié)點不會主動向其他節(jié)點轉(zhuǎn)發(fā)所接收到的信息。只有當系統(tǒng)內(nèi)的用戶對網(wǎng)絡新聞信息產(chǎn)生興趣或者是其本身具有一定的吸引力時,可以考慮是否進行信息轉(zhuǎn)發(fā)。當需要進行信息轉(zhuǎn)發(fā)時,將節(jié)點狀態(tài)轉(zhuǎn)換為傳播狀態(tài),同時主動將該條網(wǎng)絡新聞信息向鄰近節(jié)點傳播;反之,當不需要進行信息傳播時,則節(jié)點保持自身狀態(tài)不變。

在建立模型的過程中,主要是在傳播概率的基礎上進行計算,當組建狀態(tài)轉(zhuǎn)移方程時,需要引入網(wǎng)絡新聞信息價值和用戶行為,通過用戶影響因子和記憶效應因子、信息參與談論等信息進行分析研究。
在上述分析的基礎上,可以將信息傳播模型拓展為
G=(V,E,I,h,p)
(2)
式中,V表示網(wǎng)絡新聞信息初始狀態(tài)集合,h代表社會參與信息的熱度,I代表用戶對網(wǎng)絡新聞信息的感興趣程度;p表示為網(wǎng)絡新聞信息傳播狀態(tài)轉(zhuǎn)換的概率,在初始狀態(tài)集合V中任意選取一個節(jié)點i作為傳播節(jié)點,此時該節(jié)點已經(jīng)接收到信息[8-9],同時會主動向其它鄰近節(jié)點進行信息傳播。S(t)代表在t時間段內(nèi)接收到信息的用戶集合,在t+1時間段內(nèi)會有一個不屬于集合S(t)的新節(jié)點將來自鄰近節(jié)點轉(zhuǎn)發(fā)的消息一次性接收。其中,S(t)可以設定為以下的形式:

(3)
節(jié)點j的狀態(tài)主要是通過辨別狀態(tài)轉(zhuǎn)換為傳播狀態(tài)的概率進行設定[10],具體的計算式為

(4)
式中,wij代表節(jié)點i和節(jié)點j之間的連接權(quán)重,可以表示為式(5)的形式:
(5)

(6)
nj代表節(jié)點j在t時刻之前所接收到的信息次數(shù),即:

(7)
在上述分析的基礎上,模型的傳播過程可以描述為設定網(wǎng)絡新聞信息傳播的初始狀態(tài)只有一個隨機選取的傳播節(jié)點,剩余節(jié)點均為未知狀態(tài),此時辨別狀態(tài)和免疫狀態(tài)的節(jié)點數(shù)量均為0;然后,從初始傳播節(jié)點開始按照節(jié)點數(shù)量進行排序,將各個節(jié)點轉(zhuǎn)為辨別狀態(tài)。其中需要注意的是,需要結(jié)合節(jié)點自身信息的熱度以及用戶對網(wǎng)絡新聞信息的感興趣程度判定是否需要進行狀態(tài)轉(zhuǎn)換以及擴散[11-12];最后,傳播節(jié)點在成功將鄰近節(jié)點的狀態(tài)轉(zhuǎn)換為傳播狀態(tài)后,將被轉(zhuǎn)換的鄰近節(jié)點繼續(xù)傳播下去,直至整個網(wǎng)絡中不再有新的節(jié)點需要轉(zhuǎn)換。
需求分析是實現(xiàn)網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)設計的重要步驟。在當前的信息時代背景下,社會人士均需要在網(wǎng)上獲取有價值的信息,其中信息的獲取途徑也是多種多樣,主要包括:各類社交網(wǎng)絡以及網(wǎng)絡電視等。新聞信息傳播流行度預測系統(tǒng)的用戶用例圖如圖2所示。
需要使用新聞抓取模塊在互聯(lián)網(wǎng)上的新聞網(wǎng)站抓取對應的新聞數(shù)據(jù),系統(tǒng)抓取數(shù)據(jù)后,需要將其存儲到后臺數(shù)據(jù)中,用戶利用不同網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)。在用戶的訪問期間[13],需要通過Web服務器收集和記錄用戶的行為數(shù)據(jù),網(wǎng)絡新聞信息傳播流行度預測主要通過用戶的行為數(shù)據(jù)組建更新用戶的偏好模型,結(jié)合用戶的偏好模型進行網(wǎng)絡新聞信息傳播流行度預測。整個系統(tǒng)主要由以下幾個模塊組成,如圖3所示。

圖2 網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)用戶用例圖

圖3 網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)框架圖
(1) 網(wǎng)絡新聞信息抓取和存儲模塊
系統(tǒng)本身不具有產(chǎn)生新聞的功能,需要通過該模塊在互聯(lián)網(wǎng)上進行新聞網(wǎng)站爬取,重點需要新聞標題、子標題以及新聞URL等信息,確保網(wǎng)絡新聞信息的抓取具有較快的響應速度,同時盡量避免影響其它用戶。
(2) 網(wǎng)絡新聞信息展示模塊
搭建網(wǎng)站,確保用戶可以采用瀏覽器打開頁面進行訪問。用戶所看到的網(wǎng)絡新聞信息,可以劃分為3個部分,如圖4所示。
需要在系統(tǒng)的首頁為用戶展示網(wǎng)絡新聞信息傳播流行度預測結(jié)果。

圖4 網(wǎng)絡新聞信息展示模塊的組成
(3) 相關內(nèi)容引導模塊
當用戶瀏覽一篇新的文章時,可能會對網(wǎng)絡新聞中涉及到的內(nèi)容感興趣,所以想要更加深入了解信息的需求,需要通過該模塊提供對應新聞的跳轉(zhuǎn)連接。
(4) 數(shù)據(jù)預處理模塊
在網(wǎng)站中爬取的網(wǎng)絡新聞信息無法直接應用于網(wǎng)絡新聞信息傳播流行度預測中[14-15]。數(shù)據(jù)預處理是網(wǎng)絡新聞信息傳播流行度預測的基礎,通過該步驟能夠有效過濾無利用價值的詞語,同時節(jié)省計算時間,降低噪聲產(chǎn)生的影響。
(5) 網(wǎng)絡新聞信息傳播流行度預測模塊
進行網(wǎng)絡新聞信息傳播流行度預測是整個系統(tǒng)的核心,同時也是體現(xiàn)所設計系統(tǒng)和其它系統(tǒng)的不同所在。網(wǎng)絡新聞信息傳播流行度預測針對獲取的新聞數(shù)據(jù)進行傳播流行度預測。
(6) 網(wǎng)絡新聞信息管理模塊
對于系統(tǒng)而言,除了在網(wǎng)站爬取新聞數(shù)據(jù)外,還需要擁有獨家發(fā)布新聞的功能,從而促使所設計的系統(tǒng)更具有特色,所以該模塊重點負責網(wǎng)絡新聞信息管理工作。
為了驗證所設計基于LSTM算法的網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)的有效性,本文以自貢市第一人民醫(yī)院為實驗對象,實驗數(shù)據(jù)來自自貢市第一人民醫(yī)院論壇,將全部帖子進行加工處理,具體數(shù)據(jù)如表1所示。

表1 帖子數(shù)據(jù)集
(1) 網(wǎng)絡新聞信息傳播流行度預測準確率
經(jīng)過多次實驗和參數(shù)調(diào)整,獲取如圖5所示的網(wǎng)絡新聞信息傳播流行度預測準確率對比結(jié)果。

圖5 網(wǎng)絡新聞信息傳播流行度預測準確率
分析圖5中的實驗數(shù)據(jù)可知,當運行時間為0.5 s時,文獻[5]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為83%,文獻[6]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為87%,本文系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為94%。當運行時間為2.0 s時,文獻[5]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為72%,文獻[6]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為79%,本文系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測準確率為90%。本文方法具有較高的網(wǎng)絡新聞信息傳播流行度預測準確率。這是因為本文系統(tǒng)在實際應用的過程中將LSTM算法應用到系統(tǒng)中,促使整個系統(tǒng)的預測準確率得到大幅度提升。
(2) 網(wǎng)絡新聞信息傳播流行度預測響應時間
利用表2給出3種不同系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間對比結(jié)果。

表2 不同系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間對比結(jié)果
分析表2可知,當樣本數(shù)量為200個時,文獻[5]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為17 ms,文獻[6]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為20 ms,本文系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為15 ms。當樣本數(shù)量為300個時,文獻[5]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為23 ms,文獻[6]系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為27 ms,本文系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間為20 ms。相比另外2種系統(tǒng),所設計系統(tǒng)的網(wǎng)絡新聞信息傳播流行度預測響應時間明顯更低一些,最為主要的原因是本文系統(tǒng)在設計的過程中引入了LSTM算法進行網(wǎng)絡新聞信息傳播流行度預測,有效剔除無用的詞語,促使整個系統(tǒng)的響應時間得到有效降低。
(3) 預測費用
為了更加全面驗證所設計系統(tǒng)的有效性,以下實驗測試對比不同系統(tǒng)的預測費用,具體實驗對比結(jié)果如表3所示。

表3 不同系統(tǒng)的預測費用對比結(jié)果
分析表3可知,當樣本數(shù)量為200個時,文獻[5]系統(tǒng)的預測費用為176元,文獻[6]系統(tǒng)的預測費用為189元,本文系統(tǒng)系統(tǒng)的預測費用為163元。當樣本數(shù)量為350個時,文獻[5]系統(tǒng)的預測費用為236元,文獻[6]系統(tǒng)的預測費用為248元,本文系統(tǒng)的預測費用為223元。所設計系統(tǒng)的預測費用在3種系統(tǒng)中為最低,最為主要的目的是所設計系統(tǒng)通過LSTM算法進行網(wǎng)絡新聞信息傳播流行度預測,在計算的過程中濾除了大量無利用價值的信息,促使整個系統(tǒng)的預測費用得到有效降低。
由于現(xiàn)已有系統(tǒng)已經(jīng)無法滿足現(xiàn)階段的發(fā)展需求,為此結(jié)合LSTM算法,提出一種基于LSTM算法的網(wǎng)絡新聞信息傳播流行度預測系統(tǒng)。仿真實驗結(jié)果表明,所設計系統(tǒng)能夠有效提升網(wǎng)絡新聞信息傳播流行度預測準確率,降低網(wǎng)絡新聞信息傳播流行度預測響應時間以及預測費用。
盡管本文方法具有以上優(yōu)點,但是仍然存在各種外界突發(fā)因素的干擾,網(wǎng)絡新聞信息預測準確率需要進一步提高。