石霖晟杰 劉姝寧
摘 要:本文提出一種基于敏感度的服務評估指標,從客觀和整體的角度對氣象服務的質量進行了量化,首次提出針對天氣的情感敏感度概念以及全因素下的情感分布,這些都有助于推進氣象服務形成閉環,該指標以整個社會輿論作為數據支撐,以民眾的整體情感變化作為計量單位,以文本分析作為底層技術支撐。
關鍵詞:敏感度指標;情感分布;文本分析
中圖分類號:F27???? 文獻標識碼:A????? doi:10.19311/j.cnki.1672-3198.2021.31.025
0 引言
氣象服務是一整套的傳遞機制,氣象預報只是這其中的第一環,還要將預報準確無誤并以接收者喜歡的方式傳遞到位,最后還要能做到跟進服務;就此氣象服務還缺乏一個反饋系統,這樣一整套的機制才能迭代進步。目前氣象服務的評估反饋機制還是以傳統的問卷調查為主,這種方式耗時費力,而且結論過于主觀,沒有客觀數據支撐,不是一種長久的方式;另外現在主抓的預報準確率雖然足夠客觀,但卻是整套機制的第一環,太過片面,不足以反映整體。
然而整體氣象服務的反饋信號又難以準確及時的捕捉,其原因之一在于經濟學中的一個概念——成本,舉個例子說明。商家賣出一碗面,顧客吃完了下一次可以選擇來或者不來,(因為這碗面是有成本的,有成本就有選擇),而這樣的行為也帶給了商家反饋信號,商家可以據此調整商業模式、精進工藝;可是在公共服務中,這碗面往往是免費的,因為免費,面好吃與否都顯得無關緊要了,而這樣的行為是無法收集到任何有效的反饋信號的。就像是在美團里能找到各種各樣的評價,但卻很少有人發表對于天氣服務質量的主觀評價。
本文為解決上述問題,提出一種整體、客觀的氣象服務評估指標——針對天氣的情感敏感度指標,該指標以整個社會輿論作為數據支撐,以民眾的整體情感變化作為計量單位,以文本分析作為底層技術支撐。
1 情感敏感度指標
本文基于如下的理論依據。從觀云識天到人工影響天氣,氣象服務的根本是為了緩解天氣變化對百姓生活的不利影響。試想一下,多年前氣象服務還不完善的時候,一場冰雹災害對農民作物造成了不可估量的傷害,百姓談天色變,而隨著技術的進步、服務的完善,氣象服務可以提前至災害發生前進行防御,更可以在發生之后持續跟進后續變化,對未知的了解和對災害有了應對之法,這使得百姓對災害的反應變得溫和,這也是本文最為重要的概念——對天氣變化的敏感度,即民眾對天氣變化所造成的不利影響的敏感程度,氣象服務越發完善,民眾對天氣的敏感度就會越低。敏感度低并不代表不重要、不在乎,而是不再畏懼未知的事物,有了應對之法,氣象服務就如同電力一樣潛移默化的影響和服務百姓,在電力還沒被發明出來的時候,人們對于晝夜的影響是很敏感的,直到現在,人們消減了晝夜對生活的影響,現在的人們對電力是依賴的,不過對晝夜的影響卻是不再敏感。
根據上述的理論依據,具體計算上本文基于社會輿論中的整體情感分布來體現敏感度,即排除了天氣影響下的社會整體輿論的情感分布接近于全因素影響下的情感分布,則說明天氣對民眾情感的影響不顯著,即雖然天氣因素一如既往的存在,但影響民眾情感的主導因素是由天氣以外的其他因素構成,這也就說明了民眾對天氣變化所造成的影響的敏感度較低。具體公式如下:
情感分布|全因素 = 情感分布|排除天氣因素外的其他因素 + ε
其中ε代表一組白噪音;而情感分布是由一組固定時間間隔下的標簽的加權平均計算而得,標簽分為正向情感(1)、中性情感(0)、負向情感(-1)。
而在本文的實驗環節使用的是另外一種方式代替情感分布進行描述,即情感標簽變動的百分比,其公式如下:
情感標簽變動的百分比=(情感標簽占比|全因素-情感標簽占比|排除天氣因素)/情感標簽占比|排除天氣因素
我們將一段時間下的情感標簽變動百分比進行同比和環比,觀察隨時間情感敏感度變化的情況。
2 實驗過程及涉及模型
2.1 實驗數據
本文使用的測試數據是CCF提供的比賽數據,只包含2020年1、2月份的微博發文,但考慮數據的全面性應盡量多的將網絡輿論數據搜羅進來,可包含微博、公眾號、今日頭條、百度、貼吧等多種渠道數據。由于情感敏感度指標基于情感傾向的判別,因此做有監督的學習時就需要人工判斷一部分數據再讓機器自學習,若做無監督的學習也需要構建判識標準或情感詞典,本文中的標簽數據是由CCF比賽數據提供。
在清洗數據的過程中,對發文內容進行去重并只保留最早發文的記錄;由于我們對于數據的定義是個人發文,因此將機構數據剔除,本文通過在用戶名中搜索地區名稱來判斷是否屬于機構用戶。
在排除天氣因素影響的過程中,本實驗采用在剔除了#話題和@某人后的發文中搜索和天氣相關的詞組,本文對這里使用的天氣相關詞組的定義為能夠在氣象服務中體現到的對天氣有唯一性描述的詞組。這里有兩個條件,其一是能夠在氣象服務中體現到,舉個例子,“萬里無云”和“驕陽似火”同樣是對天氣狀況的描述,但無論在預報中還是氣象服務中都沒辦法把“萬里無云”所描述的語境體現出來;另外一個條件是對天氣有唯一性描述,不存在多種語義或歧義的詞組,比如風輕云淡一詞本意是描述天氣晴好,但在語境的使用更多的是用于描述人的心境恬淡、閑適。像是中雨、暴雨、霜凍、臺風、酷寒、炎熱、大霧、大雨傾盆、風雨交加、狂風暴雨等都可作為用于判斷發文描述中是否包含天氣對其產生影響的詞組。
2.2 實驗結論
情感標簽變動的百分比反映的是天氣因素對其他因素的影響,比如標簽為-1的1月份為-1.0933%,即天氣因素的加入使得整體標簽為-1的數據比之前少了1.0933%。雖然從單月來看,氣象服務整體呈現一個正面的趨勢,但1月到2月的變動幅度還是相對較大的,特別是在-1和0的標簽上,這也說明了天氣因素對于整體情感分布的影響較大,即民眾對于天氣的敏感度隨時間在增加,從現實的角度考慮,2月前后正是疫情席卷全國的轉折點,考慮到疫情這類的因素對其他因素本身也會產生影響,便不難解釋這些變化。