孔 宇,王海起,李學偉
(1. 中國石油大學(華東) 海洋與空間信息學院,山東 青島 266580)
社交媒體應用已成為網民發表言論與分享信息的平臺,我國使用較廣泛的社交網絡平臺為新浪微博。社交用戶在新浪微博平臺上發表的微博文本內容,包含時間、地點、點贊量、轉發量等多種屬性的海量數據[1]。2020 年初新型冠狀病毒肺炎(以下簡稱新冠肺炎)爆發,隨著每日官方信息的發布以及研究的不斷深入,輿情隨之不斷升溫,關于疫情的話題頻上熱搜,公眾時刻關注著疫情的最新走向,并在社交媒體新浪微博平臺上發布求助信息和關于疫情的言論。在這種情況下,了解公眾對疫情相關話題的討論,掌握公眾的輿情熱度,有利于引導工作的開展和優化輔助決策。
用戶發表的社交媒體數據中蘊含著豐富的地理信息,很多學者利用社交媒體模擬預測了一些真實事件,如流感監測、地震災害探測、空氣質量監測等[2-3]。在微博輿情話題監測方面,閆俊伢[4]等提出了一種文檔生成主題模型LDA 與基于遺傳優化的K-means 相結合的文本分類算法,提高了聚類的準確率,可識別與追蹤微博輿情話題;謝衛紅[5]等研究了網絡輿情監控算法,分析了不同文本分類算法、情感傾向算法的優缺點,并探討了其未來發展趨勢。微博文本中蘊含著社交用戶的情感信息,如方夢靜[6]等利用微博數據分析了公園內游客情感的時空變化趨勢,并分析了情感值與影響因素之間的關系;王海起[7]等通過計算社交文本的情感信息,構建了中國居民的情感地圖,并分析了城市情感值的時空特征;裴頌文[8]等提出了結合詞性注意力機制和長短期記憶網絡的情感分類網絡模型,能充分挖掘情感極性詞與句子的情感目標詞之間的關系,具有較高的分類準確率。
隨著疫情的發展變化,國內很多學者開展了關于新冠肺炎疫情的研究,通過對求助信息的統計分析和可視化,有效獲得了流行病學特征,快速掌握了一線的真實情況[9];劉勇[10]等探究了河南省新冠肺炎疫情的時空擴散過程,評估了區縣春節后的疫情風險,得到病例呈顯著空間聚集性、遵循鄰近相似的特征的結論;周松[11]等從大數據的角度利用Logistic模型擬合了全省確診人數的變化趨勢,通過時空遷徙特征分析了疫情的空間分布與高危地區之間的相關性,采用的模型能較準確地預測江蘇省的確診人數;蘇理云[12]等利用空間統計分析方法分析了疫情的空間相關性和局部空間聚集性,得到全局Moran’s I 呈下降趨勢、湖北省主要為高—低型聚集、周圍的省份呈低—高型聚集的結論;孫宇婷[13]等將百度指數作為公眾關注度,通過時空分析方法發現,公眾關注度符合人口分布規律,東西差異較大,武漢“封城”后各省份對疫情的公眾關注度較“封城”前有所提高,并分析了其影響因素。
本文利用網絡爬蟲技術獲取了湖北省關于新冠肺炎的新浪微博輿情信息,并將微博文本與用戶地理信息相結合,利用情感分析、空間分析等方法進行研究,獲得了研究區的關注度指標和情感分值,探討了公眾對于疫情的關注度和情感的時空變化特征。本文采用的方法流程如圖1所示。

圖1 本文采用的方法流程圖
本文通過網絡爬蟲技術獲取新浪微博數據,利用Python 的Selenium 庫模擬用戶登錄,以“病毒”、“肺炎”、“疫情”為搜索關鍵詞,獲取新冠肺炎疫情受災最嚴重地區——湖北省2020年1月1日—2月20日共51 d的新浪微博數據。每條微博數據獲取的內容包括用戶ID 、微博文本內容、發布時間、發布位置等字段,共計725 806 條,附帶簽到位置的有63 673 條,8.77%的微博數據附帶地理位置。數據概況如表1所示。

表1 數據統計表
本文對獲取的微博數據進行預處理,具體步驟為:
1)文本過濾,刪除無簽到位置、文本內容重復、為空、字數小于5 個以及微博官方認證的微博數據,清除微博文本中的特殊字符。文本過濾后的微博數量剩余36 923條。
2)文本分詞,基于Python 編程語言采用jieba 中文分詞工具對過濾后的文本內容進行分詞。
3)去停用詞。停用詞為一些對識別文本內容無用或意義不大的語氣詞,如“的”、“了”、“這樣”等。
用戶對新冠肺炎疫情的關注可在社交網絡空間有所反映,結合用戶發文的簽到位置,可將用戶對疫情的關注映射到現實的地理空間。考慮到新浪微博用戶的空間分布存在偏差,且與經濟、人口因素密切相關,人口稠密、經濟發達的地區微博用戶的數量往往比較密集。本文將區域內微博用戶發布的與疫情相關的微博結合人口、經濟因素,構建了一個區域內微博用戶對新冠肺炎疫情的關注指數,計算公式為:

新冠肺炎的微博關注指數可有效削弱人口、經濟因素對微博用戶空間分布差異的影響,更真實地反映微博用戶對新冠肺炎疫情關注程度的空間分布情況。基于Python語言,通過地理編碼包Geocoder的ArcGIS接口獲取簽到位置的WGS84坐標系地理經緯度,統計得到湖北省各地市的微博發文數量,計算各市的微博用戶對新冠肺炎疫情的關注指數,其中省直轄行政單元包括仙桃市、潛江市、天門市3個縣級市,結果如表2所示。

表2 湖北省各地市的公眾關注指數
情感分析最早是由Nasukawa T[14]等提出的,是對文本內容的主題觀點、情感進行分析提取、分類的過程。文本情感值計算屬于文本情感分析,主要任務是將文本內容中所表達的情感用具體數值來表示,能較直觀地展示文本中的情感傾向和強度。微博文本中隱藏著豐富的潛在信息,發布的關于疫情的微博文本包含著社交用戶對于該事件的看法和情感態度,包括消極、中性、積極的情緒狀態。
本文采用Python 語言的SnowNLP 庫[15]對微博文本內容進行情感分析。SnowNLP庫是基于情感詞典的情感分析模型,可方便地處理中文文本。首先準備正、負樣本,并保存到文本neg.txt和pos.txt中;然后對數據進行訓練,對所有文本內容進行分詞、去停用詞處理;最后統計每個詞出現的頻次。貝葉斯模型是情感分析的基本模型,首先判斷正p(c1)、負p(c2)類的先驗概率,進行文本分詞;再計算每個詞語的后驗概率p(w|c1)和p(w|c2);最后根據式(2)計算得到概率較大的類別。
對于兩個分類問題c1和c2,其詞語為w1,…,wn,屬于c1類的貝葉斯模型為:

若P(c1|w1,…,wn)>P(c2|w1,…,wn),那么屬于c1類;若P(c1|w1,…,wn)<P(c2|w1,…,wn),則屬于c2類。
本文采用與疫情相關的微博文本作為語料庫,對SnowNLP情感分析模型進行訓練;再將預處理后的微博數據進行人工標注,分別保存為正、負樣本,從而進行情感分析模型訓練;最后結合jieba分詞,設定相對應的自定義詞庫,以提高情感判斷的準確率。返回結果的Score 范圍在0~1 之間,當數值大于0.5 時,情感為正面,數值越大表達的情緒越積極。
本文統計了每日微博發布數量在時間上的變化趨勢,結果如圖2 所示,可以看出,微博發文數量可分為4個階段:①1月1日—1月19日疫情相關發文量較少;②1月19日—1月25日發文量大幅上升,在25日達到峰值;③1 月25 日—1 月31 日發文量出現下降趨勢;④1 月31 日以后,發文量處于較穩定的波動期,其中在2月14日出現次峰值。

圖2 每日微博發文量的變化趨勢
2020 年1 月1 日—1 月19 日疫情相關的發文量較少,由于疫情初期公眾接觸到新冠肺炎疫情的信息較少,因此較少社交用戶發布有關疫情信息的內容;1月20日鐘南山院士稱新冠肺炎具有傳染性,肯定了人傳人的現象,因此1 月19 日之后發文量出現大幅上升,網民對事件的關注和重視程度越來越高;1月25日發文量達到最高值,這是由于1月25日為春節的第一天,較多網民表達出關于春節期間新冠肺炎的復雜心情;1月25日之后,微博發文量出現下降趨勢,隨著疫情發展得到控制,疫情熱度趨于下降;1 月31 日之后,每日發文量有較小的波動趨勢;由于2月14日為情人節,發文量出現次峰值。
湖北省疫情與公眾關注指數空間分布如圖3 所示,可以看出,各地市公眾關注指數與疫情嚴重程度具有大致相似的空間分布趨勢,疫情最嚴重的武漢市的公眾關注指數最高,其次為與武漢市相鄰的黃岡市、孝感市,神農架林區確診人數在全省中最少,公眾關注指數也最低;鄂州市公眾關注指數較低,恩施土家族苗族自治區公眾關注指數偏高,均出現了與疫情分布不一致的現象,鄂州市面積在全省中最小,相應微博用戶較少,因此公眾關注度結果不顯著,恩施土家族苗族自治區作為湖北省偏遠的縣級市,信息宣傳和醫療資源可能跟不上疫情的發展,前期很多人不夠重視,較多網民發布“恩施人民求關注”、“恩施請求支援”等相關內容的微博。

圖3 湖北省疫情與公眾關注指數空間分布(審圖號:GS(2016)1595)
每日情感分值變化曲線如圖4 所示,可將網民對于疫情的情感態度劃分為3個階段:

圖4 每日微博情感分值變化趨勢
1)2020年1月1日—1月19日公眾對于新冠肺炎的出現表現出非常恐慌的情緒,情感值較低且上下波動較大。1 月1 日是新年第一天,在發布疫情相關內容的同時多數網民會表達新年快樂等具有積極情緒的文本內容,1月16日為情感最低點,微博熱搜話題為“日本確認首例新型冠狀病毒病例”,該現象加劇了公眾對新冠肺炎疫情的恐慌以及對存在人傳人現象的擔憂等負面情緒。
2)2020 年1月19日—1月25日,1月19日國家衛健委宣布向各省派出工作組,指導做好疫情防控相關工作,1月20日習總書記做出重要指示,堅持把人民生命安全和身體健康放在第一位,黨中央的一系列防控措施使網民情緒逐漸上升,由擔憂恐懼轉為團結振作。
3)1 月25 日之后網民情感均值在0.5 上下波動,變化幅度較小,公眾的情緒基本穩定。微博熱搜話題為“萬眾一心抗擊新冠肺炎”、“鐘南山稱已有藥物將用于臨床治療”、“武漢協和醫護人員臨床癥狀得到控制”等,使廣大人民充滿信心,堅信中國能夠打贏疫情防控阻擊戰。
通過分析情感在時間上的變化可以發現,1月25日(春節)為公眾情緒趨于平穩的一個節點,因此本文選取1月25日為分割點,繪制春節前(2020年1月1日—1 月25 日)和春節后(2020 年1 月26 日—2 月20 日)兩個時期的情感空間分布圖(圖5),可以看出,全省春節后的情感態度基本高于春節前;春節前各地市情感偏向負面,情感低值與疫情嚴重區域具有相似的空間分布,其中武漢市及其相鄰的鄂州市、咸寧市情感值均較低,還包括疫情不太嚴重但情感值較低的襄陽市,襄陽市為湖北省重要的交通樞紐,很多從武漢返鄉的人員需要在這里中轉。鄂州市在前后兩個時期情感差異不明顯,作為湖北省最小的地級市,按照人口比例,鄂州市是除武漢市外確診率最高的城市。1 月26日因“黃石確診31例新型肺炎”的熱搜話題,使黃石市大量市民產生消極情緒,影響了春節后的黃石市情感值。

圖5 情感空間分布(審圖號:GS(2016)1595)
本文對高詞頻進行統計排序并生成詞云圖,頻數越大字體形狀越大。根據情感態度劃分的3 個階段統計發布微博中的高詞頻,并繪制詞云圖,如圖6 所示,可以看出,與時序情感分析結果一致。

圖6 疫情發展3個階段的詞云圖
1)疫情初期階段,高頻詞中包括“發現”,“不明”、“華南”等詞匯,還包括“害怕”、“恐慌”、“死亡”等許多表達情感的詞匯,面對突如其來未知的肺炎,廣大民眾處于極不穩定的情緒狀態。
2)疫情發展的第二階段,高詞頻中包括“封城”、“防控”、“加油”、“希望”等,微博話題集中在有序開展防控措施、共同抗擊疫情等內容,網民情緒逐漸上升,由擔憂恐懼轉為團結振作。
3)疫情發展的第三階段,微博中出現較多的詞匯包括“加油”、“希望”、“結束”、“中國”等,廣大人民充滿信心,堅信中國能夠打贏疫情防控阻擊戰,表達的都是積極、團結、對未來充滿希望的正能量。
本文以湖北省為例,爬取2020 年1 月1 日—2 月20日的新浪微博數據,經過文本預處理后,計算得到各地市的公眾關注指數;并利用情感分析、地理統計等方法分析了湖北省微博用戶對于疫情的關注度和情感上的時空差異,主要結論包括:
1)2020年1月1日—1月19日疫情相關發文量較少,1月19日之后疫情熱度高漲,發文量大幅增加,春節發文量達到頂峰;隨著疫情發展得到控制,疫情熱度趨于下降,發文量逐漸減少,1月31日之后發文量趨于平穩。疫情的公眾關注度與受災嚴重程度具有大致相似的空間分布,受災程度最大的武漢市的公眾關注度最高,關注度也受特殊事件、經濟水平的影響。
2)公眾情感態度大致可分為3個階段:疫情初期網民情緒波動較大、極不穩定;第二階段網民的情緒逐漸上升,由擔憂恐懼轉為團結振作;第三階段網民情感基本平穩,廣大網民表達的都是積極、充滿信心的正能量。從總體時間上來看,情感呈上升趨勢,公眾態度向好的方向發展;春節前全省各地市情感偏向負面,春節后情感態度基本高于春節前。
微博數據具有實時性、可獲得、成本低等特點,本文爬取了微博關于新冠肺炎的輿情信息,揭示了疫情事件在時空上的演化過程。然而,本文只爬取了2020 年1 月1 日—2 月20 日的微博數據,僅反映了該時間段的發展變化過程,今后將擴大時間范圍,進一步增加數據量,從更細粒度的尺度挖掘疫情在空間上的傳播過程。