成園園 劉云忠
摘 要:采用TF-IDF算法有效處理詞頻信息,并選擇基于LDA主題發現模型的文本挖掘方法,通過web網絡爬蟲軟件爬取“華商論壇”數據,挖掘市民參與西安城市治理的關注主題。分析結果表明:西安市民參與城市治理熱點主題包括交通出行、環境污染、小區物業等13個方面。主題討論熱度高低與受眾需求有極大關系,與市民生活越密切相關的城市治理主題越受市民的高度關注。該結果對定位西安城市治理關注點,助力“智慧西安”建設具有現實意義。
關鍵詞:城市治理 主題挖掘 LDA模型 智慧西安
中圖分類號:F290? 文獻標識碼:A
文章編號:1004-4914(2021)04-018-03
一、引言
2020年國家明確提出大力發展“新基建”,為城市創新和高質量發展提供新動能。“新基建”是發力于科技端的新型基礎設施建設,其支點是基于云、AI、5G和計算機等技術的融合與創新。作為中國西部地區重要中心城市,“智慧西安”的未來發展,與技術創新的深度息息相關。騰訊曾與西安在城市建設、政府治理、民生服務等領域進行深度合作,共同打造智慧城市。2020年騰訊云又與西安高新區達成戰略合作,持續加碼“智慧西安”。因而了解市民所關心的城市治理熱點話題對助力“智慧西安”建設尤為重要。
基于互聯網大數據追蹤市民參與城市治理的熱門話題、情感傾向的相關研究持續增長。馮小東等(2018)基于TF-IDF及LDA模型,針對政務微博互動中的微觀數據,研究發現,參與相同政務微博的公眾之間興趣主題也很接近。孫赫(2015)利用網絡爬蟲技術和分詞系統,分析城市微博投訴數據,進而設計并搭建微博城市投訴分析平臺。國外研究公眾參與城市治理的網絡平臺大多集中在Twitter、Facebook。Bonsón等(2015)研究西歐地方政府Facebook內容類型對公眾參與的影響,研究發現,不同地方政府發布內容類型偏好不同直接導致公眾參與的積極性也有差異。West(2004)通過評估網絡平臺下政務互動的滿意度和參與度,研究互聯網的互動功能能否提升公眾參與城市治理積極性。
但國內外學者利用大數據研究城市治理問題大多還是集中在交通治理、公共安全、輿情監測等方面,對公眾參與方面研究相對較少,而市民參與度彰顯一個城市的基層治理能力,是評價城市治理的重要參考指標。因此本文以西安市政府網絡交流論壇為主要研究對象,使用web網絡爬蟲軟件對論壇數據進行挖掘,因市民參與城市治理的互動內容涉及主題范圍廣,為有效發現市民的訴求類別,利用TF-IDF及LDA主題模型挖掘政務網站上市民對城市治理問題的意見及態度,以便為西安城市治理提供針對性參考。
二、主題挖掘工具
(一)TF-IDF算法
TF-IDF(term frequency inverse document frequency)是一種用于資訊檢索與文本挖掘的常用加權技術,用以評估一個字詞對于一個文件集或語料庫中的其中一份文件的重要程度。
1.詞頻(term frequency,TF)表示詞條在文本中出現的頻率。
即:TF=
2. 逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。
即:LDF=log()
3.TF-IDF實際是:TF*IDF
某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低頻率文件,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
(二)LDA主題模型
主題模型是文本主題挖掘的重要方法,在分析文本相關性時將文本的潛在信息考慮在內,如今已成為文本挖掘的研究熱門。在各種主題模型中,LDA(隱含狄利克雷分布)模型得到廣泛使用,它是一個包含詞、主題、文檔三層結構的貝葉斯概率模型,屬于非監督機器學習技術。可用于識別大規模文檔集或語料庫中潛藏的主題信息。該模型使用詞袋法將文檔視為詞頻向量,從而將文本信息轉化為易于建模的數字信息。
LDA對文本信息的主題建模過程為:首先從文檔中采樣主題,然后提取主題對應詞分布中的單詞,不斷重復這個隨機生成過程,直到遍歷文章中的每一個單詞。
三、數據采集與預處理
(一)數據采集
“華商論壇”是西安本地新聞、爆料、亂拍等網上交流互動社區論壇,其建立時間早,數據量豐富,尤其是“群眾呼聲”版塊記錄了市民參與城市治理的大量文本數據,且政府部門及時回復,回函快速高效。因此本文通過web網絡爬蟲軟件對該版塊論壇數據進行爬取,主要包括主題帖內容、發布時間、用戶id。以2015年1月論壇版塊正式開通為時間點,截至2020年11月獲取約4萬個主題帖。
(二)數據預處理
由于抓取的數據量龐大,部分數據不可避免有格式混亂、數據重復等現象,為了減少噪音數據對主題分類的干擾,有必要對數據進行去重,設置規則過濾篩選掉特殊文本和無效不相關文本等一系列工作,預處理后最終有效論壇文本為38776條數據,用于下文主題挖掘研究。其中無意義文本類型見表1。
四、城市治理熱點主題挖掘
(一)詞頻統計及詞云圖
首先將所有文本數據進行jieba分詞,采用一個較為通用的停用詞表(https://blog.csdn.net/Dorisi_H_n_q/article/details/82114913,
共有1893個停用詞),將其作為初始停用詞,根據多次主題分析結果,對初始停用詞表進行擴展,增加主題分類實驗中出現的對于主題分類無意義的高頻詞,如:陜西、西安等詞,最終挑選出詞語出現頻率前20的詞語,如表2所示。
根據詞頻統計結果,“消費”詞頻出現最高,“交通”“出行”等也頻頻出現,“醫療”“教育”等也是市民討論的關注點。不難發現這些主題均與市民日常生活息息相關。
基于詞頻統計結果,將其做成詞云圖進行展示。詞云圖是根據詞頻大小進行作圖,頻數越大的詞字體越大。詞云圖見圖1。
由圖1可直觀地看出,“消費”一詞出現頻率最高,“出行”“交通”次之,“紅綠燈”“公交車”“人行道”等詞表達市民對于交通出行便捷程度等問題的關注;“衛生”“環境”市民討論也較多,“垃圾”“污染”等詞反映市民對于未進行垃圾分類,隨處亂扔垃圾等現象造成的環境衛生問題的不滿等;“小區”“物業”“業主”等詞頻頻出現反映了業主與物業之間的矛盾糾紛問題持續存在;“醫療”“教育”等一系列問題也是市民反饋的主要關注點。
(二)確定最優主題個數
LDA主題建模過程中參數K的設定對模型性能起到關鍵性作用,參考一種基于Perplexity的最優自適應LDA模型選擇方法,對于未知分布,其復雜度越低,模型越好。其過程如下:一是確定初始K值并計算主題之間復雜度;二是減少或增加K值并再次計算主題之間復雜度;三是如此重復直至得到最優K。
因此針對分詞結果,設置復雜度參數從20~100,以5為步長不斷訓練得到模型,計算不同主題數之間復雜度。如圖2所示:
(三)總體主題分布
確定最優主題數后,訓練LDA主題模型,選取每個主題中分布概率最高的10個單詞作為主題內容的特征詞,并對其進行計算與分析。可將總體主題分布綜合歸納如表3所示。
由總體主題分布結果可看出,討論熱度最高的13類問題分別是交通出行、環境污染、小區物業、消費權益、噪聲擾民、醫療衛生、勞動保障、社會治安、住房問題、教育入學、城市規劃、公共服務、入冬供暖。這13個主題較為全面地反映了市民參與城市治理所關注的民生問題,且均與市民日常生活息息相關。因而有助于政府更加細致深入地了解市民呼聲和民生狀況。
五、結論及建議
筆者通過收集西安市民參與城市治理的論壇數據,首先對數據集進行去重和規則過濾等預處理工作,所得新數據共38776條。進而選擇TF-IDF進行詞頻統計,并通過參數尋優后訓練LDA主題模型進行話題熱點分析,挖掘西安市民參與城市治理的關注熱點,從熱點主題看,主題討論熱度高低與受眾需求有極大關系,與市民生活息息相關的城市治理主題更受市民的高度關注。交通出行、環境污染、小區物業、消費權益、噪聲擾民、醫療衛生、勞動保障、社會治安、住房問題、教育入學、城市規劃、公共服務、入冬供暖這13類問題是市民關注的熱點。
針對本文的分析結果,從交通規劃、醫療衛生等多方面提出建議,助力“智慧西安”建設與發展。
一是交通出行方面。根據攝像頭、測速儀、射頻識別系統、公交地鐵刷卡所反饋信息,通過大數據實現交通流量的實時監測、交通擁堵的實時疏導,構建智慧交通。
二是環境污染方面。完善智能垃圾回收系統,例如垃圾桶處于滿載狀態時主動發出信號,工作人員根據此信號來安排分配垃圾運輸車的出行頻率和路線,從而提高垃圾處理效率。
三是醫療衛生方面。實現所有診療環節以自助方式辦理。完善陜西“醫療云”“健康云”平臺。加速優質醫療資源整合,進而實現遠程會診、遠程門診、雙向轉診等醫療健康服務覆蓋。
四是公共服務方面。通過手機APP讓市民隨時隨地通過手機定位并報告公共設施損壞情況,同時市民能夠登錄系統隨時查看市政問題的解決過程及結果。
五是教育入學方面。以MOOC、網易有道為代表的新型網絡教育模式開啟了智能教育時代,能夠促使城市保持長期競爭力。
六是消費權益、噪聲擾民、社會治安、勞動保障方面。開發手機APP,實施舉報有獎政策,同時實現多部門共享數據協同治理。
七是小區物業、入冬供暖、住房問題等。著力完善西安“15分鐘政務服務圈”示范點,推動群眾辦事“就近辦”“網上辦”“一次辦”等,加快建設城市社區周邊15分鐘可達的便民服務中心、代辦點、網格服務點等服務設施,提升市民辦事便利度。打造“智慧西安”需要公眾參與的支持,城市治理的“一雙眼”,不如市民的“千萬眼”,只有動員全社會力量參與,才能快速促進西安城市治理智慧化。
[本文系2019年度陜西省社科界重大理論與現實問題研究項目《新時代中國超大城市治理的社會學研究——以西安為例》部分研究成果(項目編號:2019Z062)。]
參考文獻:
[1] 馮小東,張會平.興趣驅動的政務微博公眾評論行為影響模型及實證研究[J].電子政務,2018,(11):23-33.
[2] 孫赫.基于微博的城市投訴文本的挖掘與分析[D];北京信息科技大學,2015.
[3] BONSóN E, ROYO S, RATKAI M. Citizens' engagement on local governments' Facebook sites.An empirical analysis: The impact of different media and content types in Western Europe [J].Government Information Quarterly,2015, 32(1): 52-62.
[4] WEST D M. E government and the transformation of? service? delivery? andcitizen attitudes [J]. Public administration review, 2004, 64(1): 15-27.
(作者單位:西安財經大學統計學院 陜西西安 710100)
[作者簡介:成園園,女,西安財經大學統計學院碩士研究生;劉云忠,男,西安財經大學統計學院碩士生導師。]
(責編:若佳)