和澤海,張 峰,盧 曄
(1.江蘇師范大學,江蘇 徐州221116;2.徐州醫科大學,江蘇 徐州221004)
旅游業對自然資源、生態環境和氣候條件有著嚴重依賴性,空氣作為旅游目的地的重要自然資源,其質量影響著游客的旅游行為選擇以及對旅游目的地的情感體驗。方葉林等提出環境污染主要包括大氣污染、水污染以及固體廢棄物污染,其中游客對空氣污染感知度最強。Zhang等通過對北京潛在游客的問卷調查發現多數游客已感知到霧霾給健康帶來的風險。霧霾引起的空氣質量問題對旅游目的地城市的影響不容小覷,程勵等采用網絡問卷的形式對霧霾天氣較為嚴重的城市進行調查,獲知霧霾天氣對城市居民旅游目的地的選擇傾向產生了顯著的負面影響。和Pfister對曼谷的空氣污染和澳大利亞的臭氧消耗進行研究發現,在游客看來前者的風險與危害是遠高于后者的。這些研究為本研究提供了重要的范式引導,然而,當前研究主要集中于空氣質量對旅游者選擇旅游目的地的影響,研究所用的數據主要來自傳統的問卷形式,研究所應用的對象主要是國家或單一的城市。
在社交媒體時代海量的線上數據為游客情感研究提供了數據資源,與此同時,在線文本分析技術為文本的挖掘與分析提供了保證。對社交媒體數據進行情感分析、提取公眾意見可為游客體驗旅游環境的情感傾向性研究提供新的視角。情感分析(sentiment analysis,SA),又稱為傾向性分析或意見挖掘,是對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程。目前,情感分析的方法主要是基于機器學習的方法和基于情感詞典的方法。已有研究認為基于機器學習的方法比基于情感詞典的方法更可靠。此外,在常用的機器學習方法支持向量機(support vector machine,SVM)、樸素貝葉斯(naive Bayes,NB)和人工神經網絡(artificial neural network,ANN)中,被證實第三者的結果最為精確。
挖掘旅游大數據所包含的游客情感以探討游客感知環境質量的專題研究已經引起了學界高度的關注。張思豆和李君軼運用詞典匹配方法分析微博大數據,探究了游客情感與空氣質量的關系。Saura等運用Python開發的算法對瑞士酒店目的地環境的推特評論進行探究,提出空氣質量對目的地環境具有重要作用。Becken等運用詞匯匹配方法測算了大堡礁旅游生態環境評論的情感值。然而,從認知或情感的角度分析游客對空氣質量風險感知的成果仍較少。鑒于此,論文以赴國家中心城市5A景區的游客為例,以微博數據為素材,運用人工神經網絡這一機器學習方法進行情感分析,探究游客對空氣質量的情感傾向,歸納和揭示出游客對國家中心城市空氣質量的情感特征。
國家中心城市是具備空間、人口、資源和政策優勢,且在政治、經濟、文化等方面具備輻射和集散功能,能夠引領區域發展的城市。目前為止,已經確定了北京、上海、天津、廣州、重慶、成都、武漢、鄭州、西安9個國家中心城市。選擇九大國家中心城市為案例地,主要原因包括:①國家中心城市是中國城市旅游的典型代表,對研究游客對我國城市旅游目的地空氣質量的情感感知具有重要意義。②九大國家中心城市分布于國家東、南、西、北、中不同區域,有助于研究游客情感空間動態變化特征。③國家中心城市5A景區數量多,游客量大,評論數據豐富。④國家中心城市空氣質量較差,且國家中心城市作為城市群和區域內的核心城市,游客對其空氣質量的關注度較高。表1列出了九大國家中心城市2018年空氣質量狀況及城市概況。

表1 九大國家中心城市2018年空氣質量狀況及城市概況

續表
論文首先利用ROST EA對數據進行輔助處理,計算出文本句子的極性比例。ROST EA是武漢大學沈陽教授團隊研發的用于情感分析的軟件,此軟件基于情感詞典抽取文本情感詞,對文本情感值進行計算,根據情感值的正負判斷文本情感傾向,可將情感劃分為積極情緒、中性情緒和消極情緒3種類型。
其次,通過編輯Python3.0程序調用Boson平臺的基于中文語料的半監督的ANN這一機器學習方法測算篇章文本情感值。使用該方法的原因如下:一方面,Boson平臺的語義語料庫是根據微博、論壇等渠道的數據自動構建的,且在分析時設置URL參數語料庫為微博語料庫,因此可以實現與微博數據的無縫對接;另一方面,該方法不僅能有效識別一般性詞匯的情感,還能識別特殊的專有名詞、俚語、網絡用語的情感來挖掘出文本隱藏的情感,且該方法的訓練語料庫規模宏大,因此基于人工智能算法的ANN方法具有較高的準確率。表2為Kirilenko等給出的情感分析評估準則的含義,公式(1)~(4)為根據表擬定的評估準則的計算公式。其中,準確率(A)表示檢測結果中正確的話題數量與檢測結果的總話題數量的比率。精度(P)表示檢測結果中正確的某類極性的話題數量與檢測結果為同類極性的話題數量的比例。召回率(R)表示檢測結果中正確的話題數量與被測試集中應有的話題數量的比率。F1值集合了精度和召回率這兩個評價參數描述了算法的總體優劣。

表2 三元情感分類結果混淆矩陣

通過Python 3.0編寫計算機編程語言處理時,先是調用Boson平臺上ANN方法分析篇章級評論文本,最后再批量輸出景區的情感數據。情感值在0和1之間且正負形象臨界值為0.5,根據等距原則擬定等級標準如下:非常差(0~0.100)、很差(0.101~0.200)、差(0.201~0.300)、較差(0.301~0.400)、稍差(0.401~0.500)、稍好(0.501~0.600)、較好(0.601~0.700)、好(0.701~0.800)、很好(0.801~0.900)、非常好(0.901~1)。
微博數據具有規模巨大、更新速度極快、形式多種多樣以及價值性高的特點,為情感分析提供了重要研究數據源。論文以“空氣”+“景區名稱”為關鍵詞,通過八爪魚網絡爬蟲工具在微博社交平臺上對全國5A景區進行旅游評論搜集,并進行人工去噪,最終獲得2011年1月1日至2018年12月31日232個5A級景區的36737條評論,共計2886457字。去噪過程如下:首先,刪除重復評論;其次,考慮到微博賬戶除個人外,還包括政府機構、企業、媒體等組織機構,而網絡輿情傳播的觀點是來自公眾的,故剔除來自組織機構的信息;然后,刪除沒有情感特征以及無意義的評論;最后,統一數據格式。
ROST EA采用情感詞典方法可對所有評論句子的三元極性占比給出一個總體性判斷,而Boson平臺上的ANN這一機器學習方法則可測算帶有時空信息標簽的每條評論的情感值。故采用ROST EA為輔、ANN為主的混合研究方法進行情感分析。
采用ROST EA對九大國家中心城市的所有評論進行情感傾向性比例測算,結果表明:積極情緒、消極情緒、中性情緒的評論分別占總評論數的77.99%、17.82%、4.19%,積極傾向評論數約為消極傾向評論數的5.5倍。可看出,游客對國家中心城市的評論總體情感傾向為積極傾向。對具有積極情緒的評論進行分段統計,結果顯示,一般、中度、高度強度的評論數分別占總評論數的26.12%、22.97%、28.90%。由此可知,游客對國家中心城市的積極情緒略微偏高。對具有消極情緒的評論進行分段統計,一般、中度、高度強度的評論數分別占總評論數的9.60%、3.17%、0.45%。可見,游客對國家中心城市的消極情緒強度偏低,主要以輕度的負面情緒為主,極端負面評價較少。
1.九大中心城市情感值對比分析
通過編寫Python代碼調用Boson平臺上基于人工智能算法的ANN方法,測算篇章級文本的情感值。國家中心城市的情感值統計結果見圖1,結果顯示:整體的波動范圍在“較好”與“很好”之間,游客情感值波動范圍較小,最高情感值與最低情感值僅相差0.175,游客對九個國家中心城市的情感傾向差異較小,屬于“好”等級的城市有5個。此外,游客對國家中心城市的平均情感值為0.751,屬于正面中間的“好”等級,其結果與上文ROST EA計算出的情感傾向大體相吻合,均為好中略微偏上的程度。由此可知,總體上,游客對國家中心城市的情感傾向以正面為主,對國家中心城市空氣質量的情感體驗度相對較高。
空間上,九大國家中心城市分布于國家東南西北中不同區域,東部地區(上海、廣州)的平均情感值低于西部地區(成都、重慶)的平均情感值,北部地區(北京、天津、西安)的平均情感值低于南部地區(上海、成都、重慶、廣州)的平均情感值,總體呈現出“東低西高、北低南高”的特點。該特點與全國城市空氣污染表現出的“東重西輕、北重南輕”空間格局相一致。此外,中部地區城市(武漢、鄭州)平均情感值略高于東部地區(上海、廣州),也與東部和中部地區空氣質量低于西部地區的實際情況相符。可見,游客的情感體驗在一定程度上能夠反映出真實的生態環境質量。同時也反映出國家中心城市作為城市群和區域內的核心城市,在區域內具有極強的代表性。(圖1)

圖1 九大國家中心城市情感值排名
時間上,游客對國家中心城市5A景區的微博評論數除2013年出現爆發性增長外,整體呈穩定增長趨勢。該趨勢與微博用戶的持續增長有關,也說明了游客對空氣質量的關注度日益提升。自2013年1月PM2.5首次成為氣象部門霾預警指標,“霧霾”一詞一度成為網絡熱搜,空氣質量問題引發了人們大量的關注,由此推斷出2013年有關空氣質量微博評論數的爆發性增長與其有較強的相關性。
2011~2018年游客對國家中心城市5A景區空氣質量的情感值分別為0.790、0.721、0.743、0.776、0.780、0.748、0.752、0.739,均為“好”等級。考慮到2011年評論數量過少,僅有219條,且出現了異常興奮值,故剔除。圖2顯示,2012~2018年游客對國家中心城市5A景區空氣質量的情感值整體呈波動上升趨勢,但上升幅度較小,僅為2.5%。其中,2015年的情感值最高,2012年的情感值最低,最高值比最低值高8.2%。生態環境部發布的中國環境狀況公報顯示,除2016年外,2012~2018年間全國空氣質量都較前一年總體向好,這一實際情況與2012~2015年情感值呈上升趨勢,而2016年情感值較2015年明顯下降相吻合。然而,游客的情感值并沒有伴隨著空氣質量的改觀而穩步上升,不僅上升幅度小,且在2018年情感值又一次出現下降。據中華人民共和國生態環境部官方網站(http:∥www.mee.gov.cn/)統計,2018年全國338個地級以上城市中,空氣質量達標的僅占35.8%。雖然2012~2018年中國空氣質量有一定的提升,但我國空氣污染問題仍面臨著嚴峻挑戰。霧霾的出現、紀錄片《柴靜霧霾調查:穹頂之下》的播出、國家有關生態保護政策的出臺……使人們對空氣污染更加敏感。此外,伴隨著大眾旅游的興起,人們更加追求高質量的旅游經歷,因而對空氣質量的標準也愈加嚴格。由此可知,游客情感與空氣質量具有一定的相關性,但空氣質量的略微改善并不能夠引起游客滿意度質的飛躍,伴隨著游客對生態環境的日益關注,人們對空氣質量提出了更高的要求與期望。

圖2 2012~2018年國家中心城市空氣質量情感值和評論數
2.九大中心城市情感值在全國的位置分析
通過上述方法測算全國省份的情感值以及評論數。游客對全國5A景區的微博總評論數為36737條,其中對國家中心城市5A景區的微博評論數為5802條,占全國評論數的15.8%。在全國省份(自治區、直轄市)評論數中四個直轄市北京、上海、重慶、天津的評論數分別排在第7、第22、第25、第30位。剩余五個中心城市武漢、廣州、西安、成都、鄭州的評論數分別占其所在省份湖北、廣東、陜西、四川、河南的55.4%、50.9%、49.7%、28.6%、2.1%。可知,游客對國家中心城市5A景區的空氣質量關注度較高。
從全國范圍看,游客對國家中心城市的空氣質量情感體驗度相對較低。游客對國家中心城市5A景區空氣質量的平均情感值為0.751,比對全國5A景區空氣質量的平均情感值低0.034。四個直轄市天津、重慶、北京、上海的情感值在省份(自治區、直轄市)排名中分別排第7、第10、第26、第31位,北京和上海的情感值均低于全國平均值,且上海的情感值在所統計的31個省份(自治區、直轄市)中為倒數第一。剩余五個中心城市武漢、廣州、西安、成都、鄭州的情感值均低于所在省的情感值。
3.九大中心城市景區情感值比較分析
從景區維度對國家中心城市5A級景區的情感值進行對比分析發現:游客對空氣質量的感知與景區類型具有相關性。總體上,自然景觀類景區的情感值高于人文景觀類景區的情感值。在30個5A級景區中,人文景觀類景區有18個,自然景觀類景區有12個。其中,人文景觀類景區的平均情感值為0.731,屬于“好”等級,自然景觀類景區的平均情感值為0.807,屬于“很好”等級。人文景觀類景區中,上海科技館和東方明珠廣播電視塔的情感值最低,分別為0.578和0.630,導致上海整體的情感值較低。自然景觀類景區中,重慶占7個,且排名前四的景區均位于重慶,使重慶整體的情感值較高。

圖3 人文景觀類5 A級景區情感值

圖4 自然景觀類5A級景區情感值
首先,情感分析表明,游客感知到的空氣質量以正面形象為主,隨著時間的推移,這種形象呈波動上升趨勢,在空間上則表現出“東低西高、北低南高”的特點。時間上,2012~2015年情感值呈上升趨勢,2016年情感值較2015年明顯下降與實際空氣質量年變化相吻合,此外,2016~2018年情感值呈波動下降的趨勢表明游客對空氣質量愈發嚴格;空間上,游客對國家中心城市的情感體驗呈現出“東低西高、北低南高”的特點,與全國空氣污染特征相吻合,表現出九大中心城市在區域內極強的代表性;總體上,游客對國家中心城市的情感值在全國范圍內較低與城鎮化程度較高的地區大氣污染程度明顯高于城鎮化水平較低的地區情況相吻合。綜上,從不同層面研究游客對空氣質量的感知對揭示游客的情感特征具有有效性。
其次,景區類型是影響游客情感值的重要因素。從景區維度研究游客情感體驗,發現自然類景區比人文類景區更能夠激發游客的積極情緒。本研究認為多維度分析游客情感影響因素對了解游客情感體驗和目的地建設具有重要意義。
最后,中國九大中心城市的空氣質量已成為游客的重要關注對象,對游客體驗滿意度的提升具有重要意義。然而,從全國范圍看,游客對國家中心城市的空氣質量體驗感相對較差,因此,旅游供給雙方均需保護空氣環境。具體來說,在供給側方面,可通過制定大氣環境治理等方面的措施來改善空氣質量,進而提升城市旅游形象,促進目的地的良性發展;對需求側的游客而言,則需培養環境風險感知意識,減少對空氣質量帶來負面影響的不良行為。需要指出的一個重點是,在景區層面,情感值的高低可比較準確地反映目的地的空氣質量,所以在方法上除傳統意義的物理監測之外,可發揮情感值的感應器作用,利用社會監測方法以監督環境,通過以人為本的服務方式達到人類與自然環境和諧共處的目的。
第一,真實的空氣質量與游客的情感體驗具有相關性,游客對國家中心城市空氣質量的關注度較高,但從全國看游客對國家中心城市空氣質量的體驗卻不盡如人意。國家中心城市是我國城市群的核心,也是我國對外開放的“名片”,提升空氣質量進而增強游客對國家中心城市的情感體驗具有重要意義。
第二,在運用ROST EA進行情感傾向性測算時,由于運用的不是有關空氣質量評價的詞庫,故在測算情感值時有一定的偏差,論文只進行了文本情感比例分析,后續研究若能構建有關空氣質量評價的詞庫,將有助于提升從詞匯角度進行情感分析的準確率。
第三,結果分析方面,游客情感體驗受多方面因素的影響,論文僅考慮了空氣質量和景區類型因素,未來可對游客情感因素進行多維度分析。