高鑫月 宋沛林 薛潤生
(山東科技大學 測繪與空間信息學院, 山東 青島 266590)
新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)的爆發與蔓延,嚴重危害了人民的生命和財產安全,成為社會關注的焦點。自疫情暴發以來,我國采取了前所未有的努力[1],從不同方面展開應對,試圖阻止疫情的蔓延。
疫情期間,相關研究多從地理學視角入手,探究包括疫情的時空分布[2-3]、擴散特征[4]及風險走向[5-6]等,并據此制定防疫策略[7]和系統方案[8],以有效阻止疫情的傳播與蔓延。隨著社交媒體的普及,公眾更傾向于通過社交媒體軟件(如微博)獲取疫情發展的最新動態并發表自己的看法,極大地促進了人們之間的交流。因此,利用社交媒體數據參與疫情分析受到了不少學者的關注。有學者試圖從公眾輿情角度出發,研究社交距離與疫情傳播之間的關系[9],同時,社交媒體為公眾對熱點事件的表達和分享提供了便捷,逐漸應用于公眾輿情分析[10-12]、熱點事件的情感分析[13-14]和公眾關注的熱點話題[15-16]等層面。
然而這些研究沒有考慮病例位置與公眾情感信息之間的關系,而病例位置和公眾情感在城市疫情防控的過程中起著至關重要的作用。因此,本文提出一種基于病例位置及公眾情感分布的時空演化挖掘框架,構建了病例位置與公眾情感之間的關系,對疫情期間公眾情感做了細致分析,有利于相關部門制定適合當地的疫情防控策略。
(1)COVID-19數據。本研究基于青島市衛生健康委員會發布的疫情通告,收集了2020年1月21日至2020年2月20日59例新型冠狀病毒肺炎確診病例的詳細信息,提取確診時間、區域名稱、經度以及緯度等相關信息,如表1所示。

表1 COVID-19疫情示例數據
(2)社交媒體數據。采用2020年1月21日至2020年2月20日的新浪微博數據,對采集到的文本進行數據清洗等預處理,提取時間、文本、經度以及緯度等相關信息,最終得到5 414條社交媒體數據,形成了適用于分析的數據集,表2顯示了處理后的部分數據。

表2 社交媒體示例數據
(1)皮爾遜(Pearson)相關性分析。Pearson相關系數是最常用的一種相關系數,主要用來衡量兩個變量X和Y的線性相關程度,其數值介于-1到1之間,且絕對值越大相關性越強,如式(1)所示:
(1)
式中,ρX,Y為變量X與Y的相關系數;cov(X,Y)為X與Y的協方差;σX、σY分別是X、Y的標準差;E(XY)為X與Y乘積的數學期望;E(X)、E(Y)分別為X、Y的數學期望;E(X2)、E(Y2)分別為量X2、Y2的數學期望。
本文采用Pearson相關系數探究新增確診病例和社交媒體數據的時間分布關系,為探究疫情期間的公眾情感提供數據支持。
(2)核密度分析。核密度分析旨在計算要素在其周圍鄰域中的單位密度,可直觀反映離散測量值在連續區域內的分布情況。本文選用核密度分析研究青島市社交媒體數據的分布規律,并探究社交媒體數據與確診病例位置之間的空間關系。
(3)百度人工智能(artificial intelligence,AI)情感分析。百度 AI 開放平臺(https:∥ai. baidu.com/)是全球領先的人工智能服務平臺,其中情感傾向分析模塊可對包含主觀信息的文本進行情感傾向判斷,為輿情分析提供幫助。鑒于此,本文運用百度AI情感傾向分析探究COVID-19疫情期間的公眾情感特征,探究疫情期間確診病例位置與公眾情感空間分布的關系,以期幫助相關部門對公眾可能產生的行為做出評估,有效控制疫情的擴散。
(4)基于社交媒體的關鍵詞抽取。疫情期間,大量用戶通過社交媒體平臺發布自己的觀點來表達情感,因此,基于社交媒體的關鍵詞提取可反映公眾產生不同情感的原因。關鍵詞抽取的算法有很多,如詞頻-逆文檔頻率算法(term frequency-inverse document frequency,TF-IDF)、TextRank及LDA(latent dirichlet allocation)等。
在本文中,我們采取了TF-IDF,TF是詞語在文本中出現的頻率式中用F表示,IDF是文檔頻率的倒數,式中用FID表示,計算公式如式(2)所示:
(2)
式中,Ni表示詞i在該文檔中出現的次數;N表示所有文檔中全部詞的總數;|D|是語料庫中的文檔總數;Di是包含詞i的文檔總數。
從社交媒體數據中提取關鍵詞信息,可為探究疫情期間公眾關注的重點話題提供數據基礎。
2020年1月21日,青島市首次通報確診病例,之后確診人數逐漸增長。截至2月20日,共有確診病例59例,死亡病例1例。圖1顯示了該階段內確診病例的時間演變,大致可以分為3個階段。

圖1 青島市確診病例的時間分布
低速發展期(1月21日—1月25日)。這一階段確診病例呈小幅度變化趨勢,但新增確診病例不超過2例,增速較緩。
高速增長期(1月26日—2月14日)。在此期間,疫情在全國范圍內大規模爆發,青島市確診人數呈高速增長趨勢,日新增病例達7例,增速較快。
緩慢下降期(2月15日—2月20日)。該階段新增確診病例最高為1例,其中有3天出現“零新增”,COVID-19基本得到控制。
在疫情發展過程中,以社交媒體為代表的信息傳媒媒介表現異常活躍,大量與其相關的信息在社交媒體上傳播,并受到公眾的廣泛關注。新浪微博用戶覆蓋范圍廣,可實時獲取所需數據,因此具有很大的研究價值。
2.2.1 時間演變
本文收集了從1月21日至2月20日的5414條微博數據作為社交媒體數據,用于研究社交媒體數據與疫情發展變化之間的關系,新增病例與社交媒體數據的時間分布如圖2所示。

圖2 新增病例和社交媒體數據的時間分布
2.2.2 相關性分析
由圖2可知,新增病例與社交媒體數據的時間分布呈現出相似的規律,其散點圖分布如圖3所示。

圖3 新增病例及社交媒體數據的散點圖分布
采用SPSS 26.0統計學軟件中的Pearson相關性分析探究兩個變量之間的關系,評估了從1月21日至2月20日的新增確診病例與社交媒體數據之間的關聯性,檢驗結果如表3所示。

表3 新增確診病例和社交媒體數據的相關性
在相關性分析中,新增確診病例與社交媒體數據呈現出顯著的正相關性。因此,選擇社交媒體數據研究疫情的演變過程具有重要的參考意義,可為政府決策部門提供數據支持,更好地服務于人民。
2.3.1 數據的時空演變
將疫情期間的社交媒體數據進行空間地址匹配,為了增強可視化的效果,圖4采用核密度分析方法探究社交媒體數據的分布。
由圖4可知,社交媒體數據主要集中在確診病例的附近區域。低速發展期,新增病例較少,還未引起人們的重視,此時人們對于疫情的關注度較少;高速增長期,疫情不斷擴散與蔓延,新增確診病例增長迅速,引起了人們的高度重視,公眾對于疫情的關注度極高;緩慢下降期,新增確診病例增速明顯減緩,人們對疫情的關注度顯著降低,疫情基本得到控制。這得益于青島市政府對疫情的高度關注,在一定程度上對疫情的防控起到了積極的促進作用。

(a)低速發展期 (b)高速增長期 (c)緩慢下降期注:審圖號為魯SG (2020)019號圖4 社交媒體數據的空間分布
2.3.2 公眾情感分布
社交媒體數據中包含了許多用戶的主觀情感內容,為基于用戶情感分析的輿情演化研究提供了實時全面的文本數據,對于疫情的研究至關重要。為了分析疫情期間公眾的情感傾向特征,文章融合COVID-19官方病例數據以及相關的社交媒體數據,探究確診病例位置與公眾情感分布之間的關系。
本文應用百度AI自然語言處理的情感分析模塊,隨機選取正向情感和負向情感各500條作為訓練樣本,對社交媒體數據進行情感預測。將用戶的情感傾向劃分為積極情感、中性情感以及消極情感三種類型。積極情感表達人們戰勝疫情的信心,中性情感是對疫情的客觀描述,消極情感代表著人們對疫情擴散的擔憂。得到如圖5所示公眾情感的空間分布。

(a)低速發展期 (b)高速增長期 (c)緩慢下降期注:審圖號為魯SG (2020)019號圖5 公眾情感的空間分布
結合圖4、圖5可知:疫情期間青島市公眾情感整體表現為消極傾向,人們對于疫情的關注大多集中于確診病例所在位置附近,確診病例越集中的地區公眾情感分布越密集。在低速發展期,公眾關注度較低,呈現出微弱的消極情感傾向,除了區域A,其他地區幾乎沒有消極情感,這是因為前幾個病例均發生在A區域,引起了人們的擔憂;在高速增長期,公眾對于疫情的關注度急劇增加且情感最為消極。與之前的情感分布相比,區域A的情感更加消極。在緩慢下降期,公眾關注度逐漸降低,區域A的消極情感有所減少但一直持續,其他地區消極情感呈零星式分布,公眾對疫情防控工作充滿信心,疫情基本結束。因此,A地區是潛在的高風險區域,政府應該制定相應的措施,加強對疫情的管控力度。
2.3.3 公眾關注的熱點話題
公眾在疫情不同時期表達不同情感,為進一步探索該現象的成因,我們通過挖掘社交媒體的文本數據來探究原因。采取TF-IDF關鍵詞抽取方法抽取關鍵詞信息,將社交媒體數據按照疫情發展的3個階段劃分為3個文本集合,并統計各關鍵詞在文本集合中出現的次數,以此繪制3個集合的“詞云”并得到公眾關注的熱點話題,如圖6所示。

圖6 疫情不同階段公眾關注的熱點的時間演變
由圖6可知,公眾對于COVID-19疫情的認知具有明顯的時間差異性。在疫情初期,公眾消極情感大多源于對COVID-19疫情認識的不足;在高速增長期,病例增長迅速,而此階段口罩供不應求,因此“口罩”成為公眾關注的重點;隨著時間推移,武漢疫情防控工作取得積極進展,復工復產相繼開始,增加了人民戰勝疫情的信心,疫情防控工作取得階段性勝利,“復工”“加油”成為公眾關注的熱點。
圖6大致呈現了每個階段公眾關注的熱點話題,為對其做細粒度的探究,我們研究了A區域在高速增長期公眾關注熱點的時間演變過程,如圖7所示。

圖7 A區域高速增長期公眾關注熱點的時間演變
結合圖7和相應的社交媒體數據可知:1月31日晚,有謠言稱雙黃連口服液可以抑制病毒,2月1日,“雙黃連”“抑制”成為公眾關注的熱點,公眾出現了盲從“心理”,嚴重影響疫情防控工作的開展,防疫部門應盡快向社會澄清事實,減少盲目恐慌帶來的危害。隨著時間的推移,多數企業宣布復工,公眾情感態度逐漸轉好,表達了對疫情即將結束的渴望。在較長的時間內,“復工”“加油”逐步成為重點話題,公眾對于疫情的認知逐漸趨于平穩,此時公司應制定完善的復工復產制度,以確保員工健康,防止疫情的二次爆發。
本文提出一種基于病例位置及公眾情感分布的時空演化挖掘框架,并將其應用到青島市,構建了病例位置與公眾情感之間的相關關系,對疫情期間公眾情感做了細致分析,具有較高的可行性和參考價值,可應用于相關傳染病的研究中。但也有一定的局限性:本文所采用的數據以網民分享為主,用戶覆蓋范圍不全面,在青少年的分布較為普及,但中老年的用戶較少。針對上述問題,下一步的工作重點是,融合更多來源的數據,如社交媒體數據、百度遷徙數據以及手機信令數據等,基于多源數據更加全面準確地探究COVID-19疫情期間病例位置與公眾情感的時空分布規律。