葉 鴻,張勤學
(華南理工大學,廣東 廣州 510641)
在線網絡的普及和網絡技術的發展,促進了線下網絡和線上網絡的融合,微博熱點事件特點的顯著性越來越大[1]。微博中熱點事件的演化會引發群體性事件,對社會的穩定產生一定的影響[2]。熱點事件在現實社會中不僅通過人們口述相傳,也在BBS論壇、微信、微博等互聯網平臺中進行演化和傳播。因為社會結構與網絡結構不同,因此在不同傳播領域中微博熱點事件的特點之間存在差異[3]。在上述背景下,研究微博熱點事件的演化過程具有重要意義[4]。
康偉等[5]提出基于SD模型的微博熱點事件演化方法,該方法以調研數據、網絡數據和文獻分析為基礎,提煉影響微博熱點事件演化的因素,通過系統動力學方法建立SD模型,利用SD模型對微博熱點事件的演化過程進行模擬,該方法沒有分析微博信息在網絡中的傳播特點,在熱點事件傳播過程中獲得的反對人數變化趨勢誤差較大,存在演化精準度低的問題。孫冰[6]提出基于科學知識圖譜視角的微博熱點事件演化方法,該方法將Web of Science核心集數據庫中的文獻作為樣本數據,在CiteSpace軟件中對樣本數據進行知識圖譜分析,獲得關鍵詞被引和時空分布等知識圖譜,實現微博熱點事件演化的分析,該方法沒有構建信息傳播模型,無法準確的獲取支持人數在微博熱點事件演化過程中的變化情況,導致演化精準度較低。朱立龍等[7]運用系統動態演化路徑圖和Matlab 2016軟件分析不同策略選擇的演變趨勢,求解了不同情況下演化博弈的穩定均衡解,討論對兩個行為主體演化策略的影響,但是其忽略了信息傳播機制。
為了解決上述方法中存在的問題,提出基于用戶行為屬性的微博熱點事件演化仿真,其關鍵在于通過分析熱點事件信息在微博中的傳播特點,分析用戶行為屬性,對微博熱點事件的演化過程進行模擬,以圖提高演化結果的精準度。
基于用戶行為屬性的微博熱點事件演化仿真方法以Python為主要工具利用網絡爬蟲獲取微博信息。
在數據挖掘中,信息獲取涉及到人工智能、計算機網絡、決策分析、文本處理等多個領域,是一項重要技術。微博文本信息獲取包括微博文本拓撲獲取、結構獲取和內容獲取等。在微博網絡中非結構化信息的采集和處理過程中,將統一格式的數據文件存儲在本地數據庫中,涉及正則表達式、數據結構和網絡爬蟲等關鍵技術。
網絡爬蟲根據設定的規則遍歷微博信息,自動獲取微博信息的腳本或程序。通常情況下網絡爬蟲分為以下兩種:
1)在互聯網上,搜索引擎提供商設計的網絡爬蟲可以利用網頁中的鏈接來實現跳轉,并收集不同微博頁面的信息。網絡搜索引擎利用網絡爬蟲獲得的信息建立相關引擎,用戶在通過已建立的搜索引擎搜索相關信息時將獲得所需的信息和數據[8]。
2)抓取指定網站中存在的數據,采集用戶所需的信息。
基于Python的網絡爬蟲采集信息的過程為:在種子采集中,微博頁面內容和頁面中的鏈接都是通過網絡獲取的。網絡爬蟲利用網頁中的鏈接獲取下層子網頁中存在的信息,并對收集到的信息進行分類整理。基于Python的網絡爬蟲信息采集結構如圖1所示。

圖1 基于Python的網絡爬蟲信息采集結構
基于用戶行為屬性的微博熱點事件演化仿真方法利用上述結構采集的信息構建信息傳播模型,模型假設條件為:當網絡處于全端可用度的情況,此時的傳播規則是在網絡中所確認的傳播節點感染的可識別性。
設s(k,t)表示無知節點在t時刻的密度;c(k,t)表示接觸節點在t時刻的密度;i(k,t)表示感染節點在t時刻的密度;r(k,t)表示免疫節點在t時刻的密度;psi(k,t)表示在時間間隔[t,t+Δt]內無知節點被感染的概率;pci(k,t)表示在時間間隔[t,t+Δt]內接觸節點被感染的概率。無知節點在網絡中通過傳播節點感染,因此度k節點在網絡中平均感染鄰居的密度P1可通過下述公式計算得到

(1)
式中,P(k′|k)表示節點度在網絡G中的相關性。
在網絡內指定源S的可用度AG為:

(2)
式中,表示節點度子參數反衍系數,P表示微博信息規則遍歷次數。
定義網絡內處于維修狀態下,G網絡的隨意一個節點間維持連通概率,即為網絡全端的可用度,標記成AG全端。在鏈路、節點故障率以及修復率都相等時,具體網絡的全端可用度AG全端公式為

(3)
在網絡G處于維修的狀態下,通信網絡G內規定兩個節點s-t間最少具有一條通路概率fi,即為網絡端對端的可用度,標記成AG端穩,在保證網絡可用度最高即AG端穩最大的情況下,密度的變換量如下
(4)
在上式的基礎上獲得感染節點密度i(k,t)的變化率

(5)
同理獲得t時刻無知節點密度s(k,t)、接觸節點密度c(k,t)和免疫節點密度r(k,t)的變化率

(6)
?tr(k,t)=δ×c(k,t)
(7)
對上述公式進行積分處理,獲得下式
s(k,t)=s(k,0)exp[-kφ(t)]
(8)
其中,參數φ(t)的計算公式如下

(9)
通過上述分析,構建信息傳播模型

(10)
式中,δ為狄拉克函數下的密度分布系數,λ為密度比不變的調節因子。
基于用戶行為屬性的微博熱點事件演化仿真方法,在信息傳播模型的基礎上分析用戶在微博熱點事件演化過程中的行為屬性。
設A表示采納或支持事件;B為拒絕或反對事件。個體對事件的認可程度可以通過個體的內在觀點進行反映,設pA表示個體對A的內在觀點;pB表示個體對B的內在觀點,兩者之間符合下式

(11)
設p表示個體對事件A的內在觀點,當p的值為1時,表明針對事件A,個體持完全同意的觀點;當p的值為0時,表明針對事件A,個體持完全反對的觀點。設置對數偏好Odd,在區間-∞ (12) 個體的觀點傾向也可以通過外在行為σ進行反映,外在行為σ的表達式如下 (13) 在n時間步長內,節點i的外在行為、對數偏好、對事件A的支持觀點分別用σi(n)、Oddi(n)和pi(n)進行表示。 社會作用描述的是想象的、隱含的或真實的其它個體的行為或表現,對個體事件能夠改變其行為、認知和感受的作用效果[11-12]。由社會作用理論可知,在社會環境中社會作用力是由作用群體、作用直接性和作用源強度一起決定的,設i表示目標個體在社會環境中受到的社會作用,其表達式如下 i=f(SIN) (14) 式中,f描述的是社會作用函數;N描述的是作用群體對應的規模、數量;I表示作用對應的直接性,用來描述在空間或時間上作用個體與作用源之間的親疏度。 信息在傳統網絡中接觸的方式較為單一,可用統一的常量描述作用直接性,為了反映目標個體受各個作用源的影響,用下式描述社會作用關系i i=Nts (15) 式中,指數t的作用是對個體數量增多產生的作用增益衰減現象進行反映,在區間(0,1)內取值,且相關實證數據分析研究表明,t取值在0.5附近波動;s表示社會作用力和相關常量特征在具體情境下縮放比例的綜合。 基于用戶行為屬性的微博熱點事件演化仿真方法在用戶行為屬性的基礎上實現微博熱點事件的演化,具體步驟如下: 1)設時間步長n=0為微博熱點事件演化的初始狀態。 2)節點i在第n時間步中觀察到其它個體在總數為N的群體中的外在行為,其中反對者和支持者的數量分別為Nn,-、Nn,+,兩者之間滿足下式 Nn,++Nn,-=N (16) 設impacti,+(n)表示支持者在微博熱點事件中施加的社會作用大小;impacti,-(n)表示反對者在微博熱點事件中施加的社會作用大小 (17) 式中,dij表示節點i與節點j之間存在的距離。接受個體的距離、影響力強度、作用源和觀點強度都會對個體對應的社會作用分量產生影響,基于用戶行為屬性的微博熱點事件演化仿真方法設定作用分量函數|σj(n)|=1。因此,在社會作用中個體的異質性主要受到傳播距離和影響力的影響。 3)降低隨機因素產生的干擾。根據灰色系統理論定義參考數列C0與比較數列Ci之間存在的關聯系數ξi(j) (18) 其中,xi(j)為隨機因素影響量,即 (19) 其中 (20) 式中,j=1,2,…,m,Cj表示微博熱點事件間的關聯系數,當關聯系數越高,隨機因素影響量的影響程度越小,降低之間存在的差異顯著性,進一步降低隨機因素產生的干擾。 4)勸說人群在本次觀點一次更新成功時,獲得相應的影響力反饋增益。勸說人群在影響力反饋機制的基礎上獲得一定影響力的增加量。 影響力反饋機制可通過下述公式進行描述 (21) 式中,fk(n)描述的是指示函數,當判斷條件屬于真實值時指示函數的值為1;當判斷條件屬于反之值時,指示函數的值為0。 5)重復上述步驟2)-步驟4),當系統穩定或觀點收斂時停止迭代,完成微博熱點事件的演化。 為了驗證基于用戶行為屬性的微博熱點事件演化仿真方法的整體有效性,需要對基于用戶行為屬性的微博熱點事件演化仿真方法進行測試,本次測試所用的實驗軟件為MyEclipse,實驗來源為data.gov(https:∥www.data.gov/)數據集,從中隨機選取350個有關微博熱點事件演化趨勢的樣本集,從中選出最優實驗價值的某微博熱點,本次研究中將其稱為熱點1,因該熱點參與人數眾多,因此,從中選取社會作用關系i相同的演化趨勢數據10000個,在操作系統為 JDK 1.7,內存為64G的實驗環境中進行對比實驗。 分別采用基于用戶行為屬性的微博熱點事件演化仿真方法(方法1)、基于SD模型的微博熱點事件演化方法(方法2)和基于科學知識圖譜視角的微博熱點事件演化方法(方法3)對微博熱點事件演化過程進行模擬,模擬微博熱點事件中支持人數和反對人數的變化,模擬結果如圖2所示。 圖2 不同方法的模擬結果 分析圖2中的數據可知,隨著微博熱點事件演化時間的不斷增加,方法1在演化模擬過程中獲得的支持人數和反對人數變化曲線與實際人數變化曲線基本相似,方法2和方法3在演化模擬過程中獲得的支持人數和反對人數變化曲線與實際人數變化曲線之間的誤差較大,通過分析可知,方法1在微博熱點事件中可準確的模擬支持和反對人數的變化情況,表明方法1的演化精準度較高,高達96%,因為方法1利用采集的微博信息構建信息傳播模型,分析信息在微博中的傳播特點,根據分析結果建立信息傳播模型,分析用戶在微博熱點事件中的行為屬性,根據分析結果模擬微博熱點事件的演化,提高了演化精準度。 1)互聯網的發展成為人們進行信息交流的重要平臺,而微博獨特的組織模式促進了觀點傳播的碎片化和網絡生態的復雜化,對此,提出了基于用戶行為屬性的微博熱點事件演化仿真。 2)針對微博熱點事件演化精準度低的問題,構建信息傳播模型并分析用戶在微博熱點事件中的行為屬性,其支持人數和反對人數的實際變化模擬程度與實際擬合度較高,達到96%和95%。 3)分析用戶行為屬性,根據分析結果在信息傳播模型的基礎上準確的模擬微博熱點事件的演化過程,為網絡輿論的應用和研究工作提供了重要依據。

3.2 微博熱點事件演化仿真





4 實驗結果與分析

5 結束語