基于分詞相關系數的垃圾焚燒“鄰避”事件文本相似度計算研究

2018-09-21 11:07:22謝豪

中國管理信息化 2018年13期

謝豪

[摘要] 將文本相似度計算引入“鄰避”沖突事件的應急決策，通過對案例進行文本分詞、詞義相似度替換得到關鍵詞頻次，然后將數據矢量化得到可用于計算的關鍵詞權重表，最后通過皮爾遜算法對兩個案例進行文本相似度計算，進而通過分析相似度結果提供相應決策建議。

[關鍵詞] 文本分詞；垃圾焚燒；文本相似度

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 070

[中圖分類號] TP391.3 [文獻標識碼] A [文章編號] 1673 - 0194（2018）13- 0157- 03

0 引言

近年來，隨著工業化、城市化進程的加快，“鄰避”問題日益突出，給人民群眾的生活及健康造成了不利的影響[1]。據統計，近年來中國境內規模在百人以上的群體性事件中，約32%與像垃圾焚燒這樣的“鄰避”項目密切相關，因此“鄰避”沖突事件發生后如何通過科學決策和快速處置最大限度地降低事件造成的損失和社會影響成為建設生態文明、構建和諧社會過程中亟需解決的現實問題[2]。

我國學者就“鄰避”問題的研究主要通過分析、比較真實發生的案例，運用經濟學、政治學、社會學等學科的視角和研究方法，得出許多對現實有著指導意義的建議。總體上，當今國內關于“鄰避”問題的文獻中，研究方法仍以定性方法占多數，而采用定量分析的文獻仍然較少，這與西方學界大量運用定量分析、以數據為支撐的研究仍有很大差距。為此，本文將基于文本分詞、詞義相似度替換以及皮爾遜相關系數法計算案例相似度的方法引入到“鄰避”沖突事件的應急決策中，為提出更加精準高效的決策提供支持。

1 文本分詞

1.1 基于Python結巴分詞的文本分詞

結巴分詞支持精準模式、全模式以及搜索引擎模式三種分詞模式，精準模式指將句子最精確地分開，適用于文本分析，全模式指把句子中所有的可以成詞的詞語都掃描出來，優點是速度非常快，但是無法解決歧義，搜索引擎模式指在精確模式的基礎上，對長詞再次切分，提高召回率，適用于搜索引擎分詞。

結巴分詞自帶一個文本詞典，命名為“dict.txt”，其中包含了兩萬多條詞，包含了每個詞條出現的次數以及詞性（詞條次數是結巴分詞創造者基于人民日報語料等資源訓練得出來的）。結巴分詞屬于概念語言模型分詞，所謂概念語言模型分詞，是指在全切分所得的所有結果中求某個切分方案S，使得P（S）最大。

1.2 數據矢量化

數據矢量化是指將文本分詞得到的元數據按照關鍵詞表和對應的權重進行矢量化的過程。為了使文本分詞得到的結果能夠進行量化計算，我們將分詞結果與關鍵詞表進行對比去除無意義的詞，計算所有關鍵詞的權重，做出對應的鍵值對矢量表，其中鍵為關鍵詞，值為權重。

1.3 關鍵詞詞義相似度替換

不同人在表達相同的意思時可能會使用不同的詞語，僅僅通過文本分詞無法使數據矢量化過程結果準確，因此就需要用到關鍵詞詞義相似度替換，將與關鍵詞語義相似的詞語替換為關鍵詞本身。詞義相似度是指兩個給定詞語的語義相似度。我們使用百度AI開放平臺NLP（自然語言處理）接口，它依托全網海量優質數據和深度神經網絡技術，通過詞語向量化來計算兩個詞之間的相似度，基于自然語言中的分布假設，即越是經常共同出現的詞之間的相似度越高。

百度AI開發平臺NLP接口使用百度大規模網頁數據進行模型訓練，具有樣本數據豐富且時效性高，收錄詞匯覆蓋度廣，召回率高的特點，同時其基于DNN深度學習大量樣本訓練模型，完成詞語的向量化，可建立高精度的詞向量表示體系，另外還基于高精度的詞向量表示系統及海量樣本訓練學習，能夠準確描述詞義相似度，滿足高精度要求的業務場景需求。

2 皮爾遜相似度計算模型

向量相似度的計算主要分為歐幾里得距離算法和皮爾遜相關系數算法（Pearson）。其中皮爾遜相關系數法是比歐幾里得距離更加復雜的計算向量相似度的一種方法。該相關系數是判斷兩組數據與某一直線擬合程序的一種試題，它在數據不是很規范的時候，會傾向于給出更好的結果。皮爾遜相關系數是一種度量兩個變量間相關程度的方法。其結果是一個介于-1到1之間的值，其中1表示變量完全正相關，-1表示完全負相關，0表示無關。我們使用該系數用來說明兩個文本案例之間的強弱程度，數值越大，兩個文本案例的相關性就越高，當系數為負時，表明案例間無相關[3]。其計算公式如下：

3 案例應用——垃圾焚燒事件

本文以垃圾焚燒“鄰避”事件為例通過上述方法進行文本相似度計算。將從網絡任意搜索的一則案例同時與一個垃圾焚燒發電廠順利落地的典型案例和一個遭受“鄰避”沖突的典型案例對比計算出相似度（典型案例可通過聚類方法得出），處理流程如圖1所示。

首先使用Python的結巴分詞對其進行文本分詞并與人工擬定的“垃圾焚燒”關鍵詞表對比計算頻次，然后調用百度AI開放平臺的NLP接口進行相似詞語替換（表1）后重新計算關鍵詞頻次，最后將得到的關鍵詞矢量化，得到如下結果（表2，其中佛山南海案例是順利落地的成功案例，薊縣是遭受激烈“鄰避”沖突的失敗案例，湖北仙桃案例是待分析案例）：

通過對比兩個相似度結果可知，湖北仙桃案例與薊縣案例更為相似，因此需要借鑒佛山南海案例成功經驗，擯棄薊縣案例的失敗決策，讓應急決策更加精準有效。

4 結語

本文利用基于分詞相關系數的文本相似度計算模型，可以快速計算兩個文本案例之間的文本相似度。后期若通過聚類將案例分類后，選出各個類別最典型案例，將待分析案例與其逐一比較，從而將新案例進行歸類，而針對每種類別的案例其決策方式是不盡相同的，因此能夠為決策者提供快速解決此類事件的輔助決策方法，節省寶貴的時間，提高決策的科學水平。

主要參考文獻

[1]賀晶.淺談環境應急監測質量管理體系的建設[J].安全與環境工程，2012，19（1）：51-53.

[2]張英菊.案例推理技術在環境群體性事件應急決策中的應用研究[J].安全與環境工程，2016，23（1）：94-99.

[3]王玉山，林澤聰.基于皮爾遜相似度的食材推薦算法研究[J].信息與電腦：理論版，2017（4）：100-102.