王敬泉,王 凱
(河北省第二測繪院,河北 石家莊 050000)
目前政府鼓勵人民通過網(wǎng)絡參與國家大事討論,但是由于網(wǎng)民數(shù)量大且互聯(lián)網(wǎng)具有的開放性、實時性等原因,導致突發(fā)事件爆發(fā)后能夠迅速經(jīng)由社交媒體網(wǎng)絡平臺傳播、發(fā)酵,構(gòu)成網(wǎng)絡輿情,容易造成輿論危機。因此,如何迅速地了解網(wǎng)絡輿情信息、掌控網(wǎng)絡輿情態(tài)勢,迅速處理輿論危機,已成為政府部門眼下亟待解決的關鍵性需求。
在大數(shù)據(jù)時代,社交數(shù)據(jù)挖掘成為一種從大量數(shù)據(jù)中提取隱藏信息并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成一種可以理解的結(jié)構(gòu)化數(shù)據(jù)進行研究的常見方法[1],通過對采集到的社交媒體網(wǎng)絡數(shù)據(jù)進一步挖掘來獲取公眾輿論傳播模式。當一個地區(qū)發(fā)生惡性社會安全事故時,消息經(jīng)由社交媒體迅速地傳遍網(wǎng)絡世界,隨之而來的大量討論也會出現(xiàn)在大型的社交媒體上面,如微博、QQ空間及微信等。社交媒體為用戶提供了針對各類事件表達個人觀點和意見的平臺,社交媒體數(shù)據(jù)成為獲取公眾輿論的重要來源。
在中國,微博有著龐大的用戶群體,在2015年第三季度報告中,其每月平均活躍用戶數(shù)量已經(jīng)達到了2.22億[2]。目前很多研究只是專注于微博中虛擬人際關系,對于消息傳播與現(xiàn)實地理世界聯(lián)系研究并不多,本文主要是將網(wǎng)絡輿情的傳播與地理信息的時空關系相聯(lián)系[3],將用戶間的虛擬網(wǎng)絡聯(lián)系通過可視化的方式映射到現(xiàn)實地理空間中,探究基于可視化基礎上的網(wǎng)絡輿情傳播的空間分布規(guī)律。為了達到這一目標,利用微博的API接口獲取昆山工廠爆炸事故數(shù)據(jù)并進行挖掘。地理分析的方法應用到事故相關的網(wǎng)絡輿情空間分布分析中,最后利用統(tǒng)計分析挖掘用戶發(fā)布內(nèi)容與空間分布的關系,探究網(wǎng)絡輿情傳播的可視化結(jié)果。
本文選取的試驗實例是發(fā)生在2014年8月2日江蘇省蘇州市昆山市昆山經(jīng)濟技術開發(fā)區(qū)的昆山中榮金屬制品有限公司拋光二車間的特別重大鋁粉塵爆炸事故,最終共有97人死亡、163人受傷。該事件屬于涉及公共安全的突發(fā)事件[4],并且在2014年國內(nèi)重大網(wǎng)絡輿情事件排名第八,引起的新聞量有515 000條,與之相關的微博量高達82萬條,很具有代表性。
數(shù)據(jù)采集時,首先通過微博開放的API接口[5],利用代碼收集并存入數(shù)據(jù)庫中;然后利用查詢來提取并過濾數(shù)據(jù);最后用GIS技術進行地理空間的可視化表達。為了研究數(shù)據(jù)是否為隨機分布,采用平均最近鄰分析,如果結(jié)果是集群分布的,說明在一些地區(qū)存在熱點。隨后利用熱點分析來發(fā)現(xiàn)集群區(qū)域,接著使用回歸分析尋找輿情發(fā)生地與事件不同關注度的空間距離關系,用來探究輿情傳播的規(guī)律。
利用微博平臺的API接口獲取相關數(shù)據(jù),每小時平均收集到用戶實時發(fā)布的消息記錄可以達到9000多條[5]。采集到的記錄包括以下信息:用戶ID、微博名稱、微博消息、省、城市、性別和創(chuàng)建時間7個方面的信息,采集的數(shù)據(jù)存入本地數(shù)據(jù)庫中。本次選用的是非關系型數(shù)據(jù)庫——MongoDB,其強大的查詢和管理功能能夠滿足試驗需求。獲取的數(shù)據(jù)具有詳細地理位置坐標信息的數(shù)據(jù)只占整體數(shù)據(jù)的很小一部分,應用到研究中樣本總體數(shù)量過少。因此,將數(shù)據(jù)中可獲取到的省市信息作為用戶的地理位置信息,來增加試驗的樣本整體數(shù)量,以減少試驗個體性和隨機性。
將采集的數(shù)據(jù)利用關鍵詞查詢來提取相關記錄。本次研究我們關鍵詞選取“昆山”“工廠”“爆炸”中的兩個或三個來查詢收集,其中“昆山”與“爆炸”作為最高優(yōu)先級,得到記錄后進行噪音處理,將存在地理位置信息模糊、錯誤或者記錄重復等方面問題的記錄數(shù)據(jù)進行篩除,利用剩下關聯(lián)性強的記錄進行整理后準備進一步的處理。最終獲取2014年8月2日至8月8日期間用于本次研究的總共4462條獨特的微博記錄。圖1是樣本數(shù)據(jù)的數(shù)量時間變化折線圖。
處理具有位置信息的記錄時直接采用轉(zhuǎn)化后的經(jīng)緯度信息,若沒有具體位置信息,則使用記錄所屬用戶的注冊信息中對應位置的經(jīng)緯度作為對應記錄的地理位置信息。由于絕大多數(shù)人日常生活的活動范圍有限,因此利用用戶微博的城市屬性的地理坐標作為位置信息并被隨機標記進城市區(qū)域。相對于整體樣本數(shù)據(jù)的空間覆蓋大于3000 km2的事實,隨機分布的誤差可以被忽略。圖2是利用數(shù)據(jù)本身或被賦予的位置信息進行地圖分布可視化的結(jié)果。
平均最近鄰分析是一種用來找出分析對象分布模式是集中還是分散的有效工具。該分析可以測量每個要素的質(zhì)心與其最近鄰要素的質(zhì)心位置之間的距離[6],然后計算所有這些最近鄰距離的平均值。如果小于假設隨機的距離值,則表明所分析的要素點是聚類分布的; 反之即為分散分布[6]。
該方法返回值5個:平均觀測距離、預期平均距離、最近鄰比率、Z得分和P值。如果比率大于1.0,那么這些點發(fā)的分布被認為是分散的;反之,則被認為是集群的。Z得分是標準差的倍數(shù),描述的是最鄰近的重要性。P值是概率,表示所觀測到的空間波形是由某一隨機過程創(chuàng)建而成的概率,只有P值低于0.05才被認為數(shù)據(jù)具有統(tǒng)計學意義。
通過表1每個結(jié)果的最近鄰比率小于1.0,P值小于0.05并且有很小的Z得分,這就表明觀測的空間模式不可能反映零假設所表示的理論上的隨機性,因此可知這些維持高關注度的事件數(shù)據(jù)分布具有統(tǒng)計學意義,并且明顯存在熱點。

表1 8月2日事發(fā)至8月8日上午7點微博分布集群平均最近鄰分析結(jié)果
熱點分析通過對數(shù)據(jù)集的每個記錄計算其統(tǒng)計結(jié)果來找出具有更高或更低值的要素集群空間位置。統(tǒng)計學具有顯著意義的熱點不僅本身具有高值,同時也要有被其他具有高值的要素包圍的特征。熱點分析需要將每個要素與所預期的局部總和相比具有更大的差距時,這些要素被認為無法有隨機分布產(chǎn)生,進而被確認具有熱點特征[7]。
為了發(fā)現(xiàn)地圖上的熱點區(qū)域,將與事件相關的記錄數(shù)據(jù)點通過映射方式,使其屬性投射到格網(wǎng)上進行分析,首先將地圖上利用1600個被創(chuàng)建的格網(wǎng)來分割成單獨的地圖瓦片;然后以每個瓦片作為一個多邊形要素,計算落入格網(wǎng)中點的數(shù)量作為瓦片的數(shù)量屬性;最后,根據(jù)具有數(shù)量屬性的多邊形地圖瓦片進行熱點分析(如圖3所示)。
圖4是“8.2昆山工廠爆炸”事件發(fā)生后6天中每天與事件相關的微博消息數(shù)據(jù)圖上分布可視化與熱點分析結(jié)果展示圖。4(a)是事故發(fā)生后24 h內(nèi)收集的相關微博數(shù)據(jù)的圖上分布??梢园l(fā)現(xiàn)新聞在本地快速傳播擴散,并在附近分布最為密集,然后與本地關注度處于同一級別的是北京和廣州;接下來幾天新聞消息再進一步擴散并在全國各地都引起了關注,與第一天事故發(fā)生地有著同樣的熱點等級的地區(qū)出現(xiàn)在河北省、廣東省、山東省和河南省等地區(qū);隨著時間推移進入第五天,分布規(guī)律變化不大,但是熱點等級低于之前幾天一個等級,這標志著突發(fā)事件進入緩解期[8],同時網(wǎng)絡輿情也進入相對緩和的階段;最后一天的數(shù)據(jù)分布可以發(fā)現(xiàn)數(shù)量減少很多,熱點區(qū)域也主要集中在北京和廣州以及事發(fā)地附近。為了進一步挖掘更多的關于該事件網(wǎng)絡輿情的擴散模式,下一步會對整體的數(shù)據(jù)采用回歸分析進行分析處理。
回歸分析是一種確定兩種或兩種以上估計變量間相互依賴的定量關系的傳統(tǒng)統(tǒng)計分析方法,能夠幫助了解因變量變化時,其對應的獨立變量變化的特點。對上面的數(shù)據(jù)進行回歸分析,可以得到兩個返回值:顯著性和皮爾遜相關系數(shù)。獲得的顯著性值小于0.05時才會被認為具有統(tǒng)計學意義。在這個前提下,皮爾遜相關系數(shù)越接近±1.0意味著兩個變量之間的相關性就越高。
本次事件中,各地到事發(fā)地的歐氏距離被設定為一個探索性變量。計算圖5中含有數(shù)量屬性的地圖瓦片集合中心到事發(fā)地的歐氏距離。然后,每個瓦片網(wǎng)格的數(shù)量屬性和到事發(fā)地的歐氏距離被設為因變量和自變量來完成線性回歸分析。
從圖5(a)可以明顯看出,當距離在300 km范圍內(nèi)顯著性值大于0.05,300~800 km范圍內(nèi)的顯著性值小于0.05,即該范圍內(nèi)數(shù)據(jù)分布的差異并不是巧合,具有統(tǒng)計學意義的,可以經(jīng)由這個樣本數(shù)據(jù)的差異推論至其他事件。
圖5(b)所示的是在熱點位置與事發(fā)地點距離發(fā)生變化時,與事件相關的微博數(shù)據(jù)量同距離變化的相關性??傮w來說都是負相關的,隨距離增加,數(shù)據(jù)數(shù)逐漸減少。而在低于200 km的范圍內(nèi)皮爾遜相關系數(shù)值與其他截然不同,其顯著性值也遠遠高于0.05,并不具有代表性的統(tǒng)計學意義,原因是:處于事故發(fā)生地,數(shù)據(jù)具有獨特性。
將圖5(a)與圖6結(jié)合起來可以發(fā)現(xiàn),在低于300 km范圍內(nèi)即圖6中小圈內(nèi),每個地圖瓦片的微博記錄數(shù)量與事件發(fā)生地的距離沒有相關性。數(shù)據(jù)量大的原因是距離事發(fā)地近,附近的人對身邊惡性社會安全事件關注度極高;距離在300~800 km時,圖5(b)顯示了兩個變量間中等級別的負相關性;距離達到800~1200 km時,相關性逐漸消失。主要原因是:該距離內(nèi)兩個熱點區(qū)域被添加進來并且影響關聯(lián)性。這兩個熱點區(qū)域位于中國兩個特大城市:北京和廣州;這兩個城市盡管遠離昆山,但也在事故發(fā)生后幾天內(nèi)對事故保持一個較高的關注度。當距離達到1200 km時顯著值增加到0.130 5(遠大于0.05),且皮爾遜相關系數(shù)向0值靠攏,可以推斷兩個變量間的關聯(lián)關系逐漸消失。
該結(jié)果顯示,公眾對于熱點新聞的關注度在一定程度上受到距事故發(fā)生地點的距離影響;同時在大城市的集中度不太可能受到距離的影響,因此突發(fā)事件產(chǎn)生的網(wǎng)絡輿情分布也與事件關注度有著同樣規(guī)律。
本文探討了在微博中公眾對突發(fā)事件產(chǎn)生的輿情的傳播模式。通過數(shù)據(jù)挖掘分析地域差別下突發(fā)事件網(wǎng)絡輿情傳播的空間分布可視化。與之前專注于虛擬用戶之間關系的研究不同,本文將自然地理空間加入考慮范圍并使用GIS技術來進行可視化內(nèi)容,同時為了挖掘有關傳播規(guī)律,利用統(tǒng)計學來分析驗證結(jié)論。
在空間維度上,有公眾關注度的突發(fā)事件網(wǎng)絡輿情的分布與事故發(fā)生地的距離存在負相關關系。距離事件位置近的人們展現(xiàn)了對事故更高的關注度,同時這種關注度會隨著距離的增加而減小。當距離達到一定閾值時,關聯(lián)性消失。其中一個可能的原因是,人們住在像北京和廣州這種級別的大城市也顯示了對事件更高的關注度。這種突發(fā)事件的網(wǎng)絡輿情的分布和傳播模式可以發(fā)行并為公眾輿論監(jiān)督提供信息,同時當災害發(fā)生時可以幫助進行態(tài)勢感知。即使本研究使用的數(shù)據(jù)只占采集的全部數(shù)據(jù)中的一小部分,但發(fā)現(xiàn)的規(guī)律也可以在其他事故中證實,接下來的工作將會用更多的數(shù)據(jù)進行試驗并驗證這一發(fā)現(xiàn)。