鄭 巖 孫 勇# 季 民 宋鵬飛 張立國
(1.山東科技大學測繪科學與工程學院,山東 青島 266590;2.山東省國土測繪院,山東 濟南 250013)
大氣質量感知是人通過主觀的直接感受對客觀空氣質量的反映[1]。公眾對于大氣質量感知的滿意度是政府進行大氣污染評價的重要依據。受ZEITHAML[2]提出的消費品質量感知啟發,許多學者對大氣質量感知進行了研究。張君等[3]通過大氣質量感知研究表明,公眾對大氣污染的關注度在不斷提升。張文曉等[4]研究發現,居民收入、人力資本水平、職業狀況會對大氣質量感知滿意度產生影響。FEO等[5]研究發現,垃圾處理廠及其產生的氣味對周邊居民的大氣質量感知滿意度產生直接影響。這些研究基本上都采用的是紙質調查問卷方式,這種方式研究成本大、覆蓋范圍窄、更新速度慢,不利于進行大氣質量感知滿意度的動態跟蹤。
隨著網絡技術的發展和普及,公眾更傾向于在網絡上發表言論,很多有關空氣質量的投訴和建議平臺也應運而生。這些平臺中的評論數量多、更新速度快、覆蓋范圍廣,利用公眾對于大氣質量感知的各種情感色彩和情感傾向性的詞(即情感詞)進行情感分析[6-8],可獲得公眾對于大氣質量感知的滿意度。因此,建立公眾對于大氣質量感知的情感詞庫至關重要。目前,國內僅有大連理工大學、臺灣大學和知網等的基礎情感詞庫,對大氣質量感知的適用性較差。為此,本研究構建了一套完整的大氣質量感知領域情感詞庫,基于該領域情感詞庫分析大氣質量感知滿意度,以提高利用網絡平臺進行大氣質量感知滿意度評價的精度。
(1) 空氣質量投訴網絡平臺數據:來源于山東省環境公訴(信訪)平臺(http://124.128.64.175/tabid/202/Default.aspx)的公眾投訴數據,主要提取了2011年6月至2018年10月的22 269條投訴數據。
(2) 網絡問卷調查數據:為更精準地獲取更多大氣質量感知領域情感詞,自主設計了網絡調查問卷(http://123.206.81.238:8008/air/index.html),獲取了2018年12月至2019年2月的719條有效數據,涵蓋山東省、江蘇省、湖北省、河北省、福建省、北京市和安徽省等地區。
基礎情感詞庫由基礎情感詞典和修飾詞詞典構成?;A情感詞典選用的是大連理工大學信息檢索研究室整理并標注的中文情感詞典,包括動詞、名詞、形容詞、副詞、網絡用語和成語,每一個詞語都標注了對應的情感極性(中性、褒義和貶義),中性的情感強度為0,褒義和貶義的情感強度分別分為1、3、5、7、9共5個級別。修飾詞詞典包括否定詞和程度副詞。其中,程度副詞包括欠、稍、較、很、極其5個級別,本研究對這些程度副詞權重進行了量化賦值,欠為0.6、稍為0.8,較為1.2、很為2.0、極其為3.0。目前,這些程度副詞的權重量化基本僅憑經驗賦值。
以空氣質量投訴網絡平臺數據和網絡問卷調查數據作為原始文本語料,按圖1流程構建領域情感詞典。領域情感詞典共包含2 137個詞語,包括詞語及其分類、極性和情感強度等注釋。
(1) 分詞處理
本研究采用Jieba分詞工具對原始文本語料進行分詞處理,但其對專業領域的新詞識別精度不高[9-10],因此本研究加入了大氣質量感知領域的自定義詞典[11]。
(2) 結合基礎情感詞典去重

圖1 領域情感詞典的構建Fig.1 Construction of domain emotion dictionary
在分詞處理的基礎上,將得到的分詞短語與基礎情感詞典中的詞語進行比對,去重后得到候選情感詞。
(3) 選擇與大氣質量感知相關的情感詞
根據基礎情感詞典中的分類,分類選擇與大氣質量感知相關的情感詞,作為初始領域情感詞(2 072個)。
(4) 補充網絡搜索領域情感詞
在百度百科中檢索“大氣污染”又獲取大氣質量感知領域詞126個,與初始領域情感詞去重后合并,得到最終領域情感詞(2 137個)。
(5) 情感強度標注

把領域情感詞典合并到基礎情感詞庫中就構成了領域情感詞庫。隨機選取3 000條空氣質量投訴網絡平臺數據,利用情感詞庫進行大氣質量感知滿意度計算。首先根據式(1)計算第m個短語的大氣質量感知滿意度(E(Pm)),每個分句的大氣質量感知滿意度取該分句中所有短語的大氣質量感知滿意度最小值,所有分句大氣質量感知滿意度最小值作為整條文本語句的大氣質量感知滿意度。

表1 情感強度標注準則
E(Pm)=E(PW)×(-1)q×E(PA)
(1)
式中:E(PW)為某情感詞的情感強度;q為某情感詞的否定詞個數;E(PA)為程度副詞的權重。
將3 000條空氣質量投訴網絡平臺數據利用情感詞庫計算得到大氣質量感知滿意度,與5人人工標注的大氣質量感知滿意度平均值進行對比,計算絕對誤差絕對值作為精度判斷依據,結果如表2所示。本研究設定絕對誤差絕對值≤2為符合精度要求,否者為不符合。由表2可以得出,采用基礎情感詞庫計算得到的大氣質量感知滿意度符合精度要求的條數只占33.1%,而利用領域情感詞庫計算得到的大氣質量感知滿意度符合精度要求的條數高達93.9%。由此可見,大氣質量感知領域情感詞典可為大氣質量感知滿意度計算提供強有力的支撐。

表2 精度對比結果
利用空氣質量投訴網絡平臺數據采用領域情感詞庫對山東省最近1年的投訴數據進行大氣質量感知滿意度計算,并按地級市進行統計匯總(見圖2)。

圖2 山東省大氣質量感知滿意度Fig.2 Atmospheric quality perception satisfaction of Shandong Province
由圖2可以看到,煙臺市、濰坊市、臨沂市、青島市4個地級市大氣質量感知滿意度較差,而威海市和日照市兩個沿海的地級市大氣質量感知滿意度相對較好一些。分析山東省各地級市工業收入發現,工業收入排名靠前的城市投訴多,大氣質量感知滿意度偏差。
由于空氣質量投訴網絡平臺數據多為負向情感,具有一定的情感偏向性,為避免這種情感偏向性對計算結果造成的影響,進一步選用網絡問卷調查數據對更多省份(選擇回收數據大于10條的省份)進行大氣質量感知滿意度計算,結果如圖3所示。

圖3 其他省份大氣質量感知滿意度Fig.3 Atmospheric quality perception satisfaction of other provinces
由圖3可以看到,不同省份表現出不同的大氣質量感知滿意度,福建省正向大氣質量感知滿意度較高,而江蘇省、湖北省和河北省則具有較強烈的負向大氣質量感知滿意度。總體而言,公眾感知大氣污染越嚴重,該地區的整體大氣質量越差,說明公眾大氣質量感知滿意度能夠正確反映區域的整體大氣質量狀況。
(1) 建立了大氣質量感知領域情感詞庫并用于大氣質量感知滿意度計算,計算精度高達93.9%,遠高于利用基礎情感詞庫計算得到的大氣質量感知滿意度精度(33.1%),可有效計算大氣質量感知滿意度。
(2) 山東省煙臺市、濰坊市、臨沂市、青島市4個地級市的大氣質量感知滿意度較差,而威海市和日照市兩個沿海的地級市大氣質量感知滿意度相對較好一些。工業收入排名靠前的城市投訴較多,大氣質量感知滿意度偏差。
(3) 不同省份表現出不同的大氣滿意度,福建省正向大氣質量感知滿意度較高,而江蘇省、湖北省和河北省則具有較強烈的負向大氣質量感知滿意度。公眾大氣質量感知滿意度能夠正確反映區域的整體大氣質量狀況。