陳 輝 黃強松 鄭丹青 黃凱翔 董明昱
中國電信江蘇號百信息服務有限公司
12345熱線是市民參與社會管理的重要平臺。傳統的數據統計分析系統由于功能所限造成了資源的閑置和浪費。為此熱線依托科技支撐,利用先進的計算機軟件技術,開發了千萬量級的智能化大數據平臺,實現了受理坐席精細化管理,市民訴求自動化歸檔、轉辦和考核,訴求輿情自動分析,辦理工作扁平化管理等智能化功能,并且還實現了大數據的自動對比,為前瞻性研判和具體事件的辦理提供了數據參考。此項功能走在了全國同行業的前列。
但在數據處理的過程中,我們發現了一些問題。在熱線系統中,其系統數據往往分為系統自動生成數據、系統可選數據及接線員記錄的描述數據,如表1所示。系統自動生成數據往往為編號數據、時間數據等等,而系統可選數據一般分為熱線形式類別、熱線內容類別等等,而接線員記錄的描述數據往往是記錄的詳細時間地點人物事件等等。

表1 12345系統數據樣例
在進行數據處理時,發現自動生成數據、系統可選數據較好處理成格式化數據,并可以直接參與統計、挖掘及分析,但是接線員人為記錄的較多信息很難通過簡單的方法將信息準確的提取出來,若這些信息難以提取,則有用信息大大減少。因此,人為記錄數據的分析預處理是自然語言處理的重點。
所謂自然語言處理就是研究能使計算機像人一樣理解自然語言的一門邊緣科學。它的主要任務是從語言中提取意義,從而使得計算機能夠對所處理的語言材料有更深入的了解,目前這一領域的研究包括:自然語言數據庫的構造與查詢,自然語言人機接口,自然語言語篇生成與摘要,自然語言文檔查閱,智能文本處理,自然語言專家系統,機器翻譯,自然語言情報檢索等等。自然語言處理的成功可對人類生活產生巨大的影響,如:它可消除人與機器間的語言障礙、人類之間的語言溝通問題和知識瓶頸。
人類自然語言的表述通常有語音和文字兩種形式,本文從文字表述的角度來論述自然語言處理。自然語言處理研究包括基礎研究、共性技術和應用研究,應用研究當前主要有機器翻譯、信息檢索和社會計算等幾個方面。
自然語言處理的流程如圖1所示:
字→詞→短語→句子→段落→篇章
針對自然語言的處理過程,可從字詞句子段落入手,同時利用最新的分詞軟件,進行精準分詞。

圖1 自然語言處理流程圖
通常情況下,描述事件的要素為時間、地點、人物、事件。通過分析政府熱線數據,我們發現文本數據中的時間較好處理,熱線撥打市民的個人情況屬于需要保護的個人隱私,無需重點研究,而數據處理的難點是無法精確定位問題的關鍵詞(事件、發生的地點)。因此,本文分析的總體工作為確定發生時間、事件(動作關鍵詞)、地點,而難點工作為確定事件及地點。
政府熱線的時間記錄樣例為:17052923082782785830。對于時間的解析比較簡單,觀察數字序列可以得出,前兩位為年份,第三位至第四位為月份,第五位至第六位為日期,第七位至第八位為小時,第九位至第十位為分鐘,第十一位至第十二位為秒,后續為其他編號。根據實際需要,我們重點提取了年份、月份、日期和小時,而分鐘與秒的顆粒度太細,意義不大。因此,根據以上規則,時間解析的樣例如表2所示:

表2 12345系統時間解析樣例
用戶的反饋信息多為固定格式的記錄信息,形如:某市民來電反映:某某地區某菜市場有小販使用高音喇叭,噪音十分擾民。請相關部門盡快處理。
對于此類信息,首先去除與主體無關的信息,即去除開頭及結尾等固定格式內容,僅留下反饋信息主體。
而后,對信息主體進行分解,將其按標點符號分成多句。而后分別對其進行分詞及詞性標注。
對于句意及主謂賓等結構完整的語句,如第一句,對分詞結果進行遍歷,選取動詞及之后遇到的名詞,多個名詞算為一個動詞短語,如:使用/v,高音/n,喇叭/n,將提取出的詞語放入集合去重。
對于詞語過少的語句,如第二句,則同樣提取動名詞短語或名詞動詞短語,如:噪音/n,十分/d, 擾民/v,從中提取噪音擾民,同樣將結果放入集合去重。
部分信息中可能包含可以表達整個反饋事件的詞語,可將其加入詞庫直接匹配信息,如反饋屋頂、樓上或樓房漏水此類的信息,可直接將“漏水”添加至詞庫。
對于提取出的詞語,可能語義不清晰或根本不成詞語,可將其加入過濾詞庫進行結果修正,以便在結果中去除此類詞語。
對于事件解析主要就是針對關鍵詞的提取,基于上述生成的詞庫,采用TF-IDF算法對生成的詞庫進行排序。
在TF-IDF算法中, TF代表詞頻,指的是詞語在其對應文本中出現的頻率,它對詞語出現次數進行了歸一化操作,避免它偏向長的文本,對于某一個特定文本里的詞語來說,詞頻TF可以表示為:

分子是該詞在文本里出現的次數,分母是在文本中所有字詞的數量之和。
逆向文件頻率(IDF)是由總文本數目除以包含該詞語的文本的數目,再對得到的商取對數:

其中|D|是所有的文件總數,j表示包含目標詞語文本的數目。

最后計算詞頻和逆向文件頻率的乘積,某一文本內的高詞語頻率,以及該詞在整個文本集中的低文件頻率,可以得到較高的TF-IDF值,因此TF-IDF算法可以很好地過濾掉常見的詞語,從而保留關鍵的詞語。
通過TF-IDF算法對所有類別的文本進行計算,得到詞語的相應TF-IDF值,對于TF-IDF值高的詞語,一般代表著這一類事件中的投訴關鍵點,將會予以保留并進行深度分析。
最后將所有類別的投訴反饋文本信息中TF-IDF值最高的幾個進行匯總統計,分析出所有投訴信息中用戶最為關心的重點問題。
接線員人工記錄語句中,由于熱線撥打市民上報地址的習慣不同,地址的記錄往往比較隨意,具體的情況往往為:(1)某某小區業主來電;(2)某某區市民來電反映;(3)某某鎮石橋某某村拆遷戶來電反映。
以上內容均為市民在投訴時上報地址的說法,從以上說法實例來看,市民上報的地點往往只上報一個或者兩個維度,并不能同時完整地告知接線員自己歸屬的區、街道(鎮)、社區、路、小區等信息,比如市民只告訴接線員自己是某小區業主,或者告訴接線員自己在某某區某某路等等。這樣在進行統計和挖掘算法計算時,很難完整地對區、街道等行政區域進行分析。因此,需要建立地址進行樹形結構,用樹形結構補全市民上報信息,即使市民只上報了某某村或者某某小區,也能將其對應至相應的區或者街道。此種做法的最大好處是可以精確對區或者街道級的問題數量進行分析統計。
對區、街道(鎮)、社區、小區進行層級編號,如表3所示:

表3 區、街道(鎮)、社區、小區層級編號樣例
其中11位編號對應關系為:第一位為區(縣)編碼,第二位至第四位為街道(鎮)的編碼,第五位至第七位為社區(村)編碼,第八位至第十一位為小區編碼。
熱線數據經過處理后的地址結構化樣例如表4所示:

表4 12345系統數據地址結構化處理后樣例
通過數據處理,可以清晰定位熱線發生或投訴對象的地點。
在完善和提取完所有信息后,數據變為以下表5樣式,根據此數據,可以進行相關統計分析和挖掘。

表5 12345系統數據全結構化處理后樣例
基于以上數據,可以根據各種維度進行不同分析。下面描述兩個具體需求的實現。
統計某某區在某某時段發生的事件排名;根據區域和時段利用SPSS軟件建立相應交叉列聯表,并根據交叉列聯表得出相應的事件排名。
相應的列聯表如下表6所示:

表6 某某區在某某時段發生的事件排名
統計某個時段發生某個事件的街道排名:根據時段和街道,利用SPSS軟件建立相應交叉列聯表,并根據交叉列聯表得出相應的排名。
相應的列聯表如下表7所示:

表7 某某區在某某時段發生的事件排名
市民反映的問題五花八門,但是在眾多的現象背后,肯定有一些問題存在著因果、依存關系。在處理市民的問題時,往往有這樣的情形,若一個問題解決,若干個相關的問題得到緩解;一個問題沒有解決,若干個問題仍處于待解決的狀態。因此,找到問題背后的深層聯系顯得非常重要。
根據數據特點,將問題細分小類作為主ID,把事件按照發生時段的次數、區域次數等作為特征值,樣例如表8所示:

表8 事件相關性挖掘數據源表
對上述變量使用Python進行聚類分析。聚類分析是研究多要素事物分類問題的數量方法.基本原理是根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。常見的聚類分析方法有系統聚類法、K-均值法和模糊聚類法等。
根據聚類的K-均值法的聚類分析過程及結果如下:
采用K-均值法的聚類方法進行聚類,表8中共有7個問題,即為7個樣本;每個樣本有8個特征,即為8個特征值,計算這7個樣本的聚類結果:
第一步:隨機選擇K個初始質心,即將所有樣本聚到K個分類上,經多次實驗取K=4;
第二步:分別計算所有樣本到這K個質心的距離;
第三步:如果樣本離質心Si最近,那么這個樣本屬于Si點群;如果到多個質心的距離相等,則可劃分到任意組中;
第四步:按距離對所有樣本分完組之后,計算每個組的均值,作為新的質心;
第五步:比較新的聚類中心與老的質心之間的距離,若大于設定的閾值,則跳到第二步; 否則輸出分類結果和質心,算法結束。經過聚類算法,將7個問題分為了4類,如表9所示。

表9 事件聚類分析結果
在1-6月的某某市投訴和舉報問題的排名上,違建問題共4733條,其中違建問題(已建成)總件數為2344件,而在建2389件,若和并計算,則為投訴舉報第一大問題。
根據在文本中獲取的有效地址,并在樹形地址庫進行匹配,得出違建在建問題和違建已建成問題按照行政區進行分類,發現區1無論建成和在建問題均投訴最多,區2的投訴最少,區3的違建建成問題較為嚴重。而對街道一級繼續進行分析,可以得到每個街道的問題分類。
從絕對數量上可以看到,已建成違建、在建違建問題的解決率最高的地方均為區2,并且其投訴也最少,說明區2在問題總數、問題解決方面均較為優秀。而已建成違建、在建違建問題解決率最低的為區1,而其問題的總數也較多,其投訴總量已達1300條,平均一天就有10條投訴該區的違建問題。究其原因,區1面積大,廠房多,廠房的違建也多,其舉報多、拆除難,最終導致了區1的違建問題投訴最多。區1違建的分布區域熱力圖如圖2所示(圖2僅為展示用,與實際場景及問題無關)。

圖2 違建的分布區域熱力圖(僅做示意,為隨機生成數據)
隨著城市的發展,噪音問題變得越來越嚴重,目前被認為是當今社會第三大公害。通過使用自然語言分析方法,解析動作描述詞,得到鎮江噪音問題的投訴描述,如圖3所示:

圖3 噪音問題的投訴描述
從上圖可以看出,通過文本解析投訴內容,施工、播放音樂、高音喇叭、軋石機、使用音響占據了動作關鍵詞。施工、軋石機和施工相關,屬于建筑噪音,而播放音樂、高音喇叭、使用音響主要是音響類的噪音,和小區廣播、商業經營有關系,屬于生活噪音。從投訴的關鍵詞來看,建筑噪音和生活噪音是噪音問題的主要組成部分。
本文依據12345熱線數據,通過自然語言分析技術,對人工記錄的數據進行深度文本分析處理,提取原始數據中的時間、事件、地址以及用戶投訴的關鍵信息,并應用分析統計方法和數據挖掘方法,找出問題,定位問題,找尋不同問題之間的相關性,從而得出典型問題發生的原因,并提供合理的意見建議。本文充分應用了數據分析的技術方法來研究數據背后反映的社會生活問題,從而幫助更準確高效地解決問題,服務于社會。