譚星 盧思遠 郭泉




摘 要:武漢市憑借著豐富的經(jīng)驗有效地控制住疫情,對于社區(qū)治理方面的研究熱點久居不下,在該背景下,把握文本信息并對當前武漢市社區(qū)治理的趨勢和需求分析顯得尤為重要。本文采用改進的TF-IDF算法和語義網(wǎng)絡(luò)從政策信息和居民動態(tài)兩個方面的文本信息進行了趨勢和需求分析,最后從基層治理、技術(shù)創(chuàng)新和人才引進三個角度給出建議。
關(guān)鍵詞:社區(qū)治理;改進的TF-IDF;語義網(wǎng)絡(luò);文本分析
中圖分類號:F2 文獻標識碼:Adoi:10.19311/j.cnki.16723198.2022.18.007
0 引言
憑借著豐富的突發(fā)事件處理經(jīng)驗,新冠疫情在我國得到有效控制,我國也逐步進入后疫情時代。而疫情的爆發(fā)導(dǎo)致大量的社會問題和公共服務(wù)需求下沉到社區(qū)這一層面,社區(qū)不得不承接自上而下轉(zhuǎn)移的諸多問題。社區(qū)是社會治理的重要載體,治理體制的完善已成為政府的關(guān)鍵工作。體制的完善又與政策的變化和實際治理現(xiàn)狀相關(guān)聯(lián)。黨的十九大報告明確指出:“加強社區(qū)治理體系建設(shè),推動社會治理重心向基層下移”。依托多元化的治理模式與主體,城市的社區(qū)治理通過多方合作化的形式來提升公共服務(wù)質(zhì)量。
公共治理的技術(shù)化已成為現(xiàn)代國家治理的重要趨勢之一,社區(qū)治理的一系列問題都需要通過定量或定性分析得出。馬晗從發(fā)展脈絡(luò)、合作網(wǎng)絡(luò)等角度對近年來社區(qū)治理的有關(guān)文獻進行研究,得出研究規(guī)范但合作網(wǎng)絡(luò)較弱的結(jié)論。Yao Lili采用基于定量數(shù)據(jù)的案例研究方法,測試了用戶在線參與和社區(qū)治理感知互動的理論。滕方煒根據(jù)傳播學(xué)的原理解釋了基層社會治理現(xiàn)代化的時代邏輯與路徑選擇。在趨勢與需求分析中,大多數(shù)研究針對的是指標類數(shù)據(jù)而忽略了文本信息對其的影響。本文通過文本分析手段對政策信息和居民動態(tài)兩個角度進行深入挖掘,并分析當前武漢市社區(qū)治理的趨勢與需求。
1 研究設(shè)計
待分析的有兩方面內(nèi)容:一是社區(qū)治理的趨勢;二是社區(qū)治理的需求。對于趨勢的分析,可采用關(guān)鍵詞提取算法針對工作報告、意見等政策類文本進行關(guān)鍵詞挖取;對于需求的探究,可采用語義網(wǎng)絡(luò)對社交平臺上武漢市社區(qū)居民發(fā)布的動態(tài)進行網(wǎng)絡(luò)分析。
1.1 數(shù)據(jù)來源與處理
本文所分析的全部為文本型數(shù)據(jù)。其中,趨勢分析的數(shù)據(jù)來源于武漢市民政局官網(wǎng)(mzj.wuhan.gov.cn),在該官網(wǎng)中采集的數(shù)據(jù)具體為:武漢市2012-2021年政府工作報告、政府公開的政策與意見和關(guān)注度較高的新聞。需求分析的數(shù)據(jù)來源于各個社區(qū)用戶微博、知乎等社交平臺的動態(tài)正文(不包括評論與回復(fù))。文本信息的檢索詞設(shè)定為社區(qū)治理、基層治理,數(shù)據(jù)采集時間為2022年2月10日。
通過Python的Scrapy框架,給定不同的初始網(wǎng)址,可以較快速的抓取所需數(shù)據(jù),之后進行預(yù)處理,包括機械壓縮、無效內(nèi)容去除、構(gòu)建停用詞典等,最終獲取的有效信息情況如表1所示。
1.2 分析方法
1.2.1 改進的TF-IDF算法
TF-IDF是一種較為有效的關(guān)鍵詞提取算法,它是根據(jù)詞頻與逆文本頻率的大小來綜合判斷某個詞的重要程度,在政治論述類文章里詞頻的大小往往反映重要性程度,因而相較于TextRank、LDA主題算法,更能體現(xiàn)出它的優(yōu)越性。算法分為兩部分:一部分為TF算法;另一部分為IDF算法,在實際使用中,TF的計算式如下:
tfi=nijΣknkj
其中nij表示詞i在文檔j中的出現(xiàn)頻次,對詞頻進行歸一化后,分母就是統(tǒng)計文檔中每個詞出現(xiàn)次數(shù)的總和。
IDF的計算方式為:
idfi=log (D1+Di)
其中,D為文檔集中的總文檔數(shù),Di為文檔集中出現(xiàn)詞i的文檔數(shù)量,分母加1采用了拉普拉斯平滑,避免有部分新的詞段沒有在語料庫中出現(xiàn)而導(dǎo)致分母為零的情況出現(xiàn),增強算法的健壯性。
那么對于詞i的TF-IDF值,有:
tfidfi=tfi×idfi
但傳統(tǒng)的TF-IDF忽略了類間集中度和類內(nèi)分散度造成的問題,因此需要引入修正因子η來進行改進。η表示為:
η=mimi+ki×mimi+qi
其中,m和k分別表示為某文檔集和其他文檔中包含詞i的數(shù)目,q為不包含詞i的數(shù)目,因而修正系數(shù)可以表示為集中度和分散度的乘積。最終改進的TF-IDF計算公式如下:
tfidf′i=tfi×idfi×η
1.2.2 語義網(wǎng)絡(luò)分析
對于居民用戶的動態(tài)數(shù)據(jù),適合采用語義網(wǎng)絡(luò)分析,整體分為兩步:第一步還是關(guān)鍵詞的提取;第二步為共現(xiàn)分析,根據(jù)關(guān)鍵詞的重要程度得到共現(xiàn)矩陣,再根據(jù)共現(xiàn)矩陣來進一步理解各詞之間的關(guān)系與親疏程度。
1.3 研究工具
本研究采用的工具為Python、ROST CM 6以及Gephi 0.9.2。用Python進行數(shù)據(jù)爬取與預(yù)處理并利用改進的TF-IDF算法進行關(guān)鍵詞提取,接著利用ROST CM 6進行語義網(wǎng)絡(luò)分析,最后利用Gephi 0.9.2將語義網(wǎng)絡(luò)分析得到的共此矩陣可視化。
2 結(jié)果分析
2.1 從政策信息看武漢市社區(qū)治理的趨勢
將所收集到的政府工作報告、公開政策與意見和相關(guān)熱點新聞?wù)碇羉sv文件中并代入編寫好的改進TF-IDF算法框架程序中運行,得到的各關(guān)鍵詞的TF-IDF值降序排列,結(jié)果表2所示。
針對TF-IDF的值對其進行詞云可視化,可視化結(jié)果如圖1所示。
可以較為清晰地看出,網(wǎng)格化、智慧化和信息化是當前武漢市社區(qū)治理較為明顯的趨勢特征,“基層”在文本中的重要程度反映了當前社區(qū)治理的中心有所下沉。“數(shù)據(jù)”“信息”“平臺”和“精準”等詞體現(xiàn)了將先進技術(shù)、智能設(shè)施以及大數(shù)據(jù)相結(jié)合的重要性。
2.2 從居民動態(tài)看武漢市社區(qū)治理的需求
需求部分的分析利用的數(shù)據(jù)為居民發(fā)布在平臺上的動態(tài)信息,先使用Python的jieba庫進行分詞并儲存為csv格式文件,然后將該文件導(dǎo)入ROST CM 6進行語義網(wǎng)絡(luò)分析,再將語義網(wǎng)絡(luò)分析得到的共詞矩陣導(dǎo)入Gephi 0.9.2進行可視化,結(jié)果如圖2所示。
語義網(wǎng)絡(luò)的結(jié)點大小和邊的粗細分別對應(yīng)著該社區(qū)治理網(wǎng)絡(luò)中詞的重要程度和共現(xiàn)度,而某詞中心度的大小可由與之相連接的詞的數(shù)目來衡量。從上圖可以看出,“智能”的中心度最高且連接著“問題”,說明當前武漢市的社區(qū)智慧化程度還有待提高,對于各個治理模塊,智能化都是關(guān)鍵要素。再與“智能”相連接的詞中,“數(shù)字”“服務(wù)”“治理”和“反饋”的重要程度和中心度緊隨其后。此外,從“基層”和“反饋”兩詞及其相連接的詞可以看出,基層治理仍需要進行加強和創(chuàng)新,對于治理意見的反饋平臺存在著一定的問題,需要進一步提高資源的共享性。
3 結(jié)論與建議
在社區(qū)地位不斷提高的背景下,武漢市在社區(qū)治理這方面有扎實的基礎(chǔ)與豐富的經(jīng)驗。網(wǎng)格化、智慧化、信息化和重心下沉化是從疫情爆發(fā)以來不變的趨勢,信息化平臺或網(wǎng)站的缺乏給居民反饋和相關(guān)人員的管理造成一定的難度,黨建引領(lǐng)、智慧賦能、信息共享是當前武漢市居民的主要需求,加強社區(qū)治理的創(chuàng)新并打造社區(qū)治理的高效模式具有較大意義。現(xiàn)從基層治理、技術(shù)創(chuàng)新和人才引進三個角度給出建議:
(1)落實基層治理,將黨員干部下沉社區(qū)。
不斷強化居民需求導(dǎo)向,更有效地完善基層治理的協(xié)同合作模式。做到“兩個加強、兩個引入”,加強黨的影響力與基層行政能力,引入新的社區(qū)服務(wù)與社區(qū)治理機構(gòu)。在此基礎(chǔ)上,強化多元共治,推進“三治”結(jié)合。
(2)加快先進技術(shù)的引入與創(chuàng)新,提高智慧化程度。
運用數(shù)字技術(shù)推動社區(qū)服務(wù)與管理的精細化,利用數(shù)字技術(shù)賦權(quán)打造共治共享的新格局,消除治理主體之間的交流阻礙,盡快實現(xiàn)智能設(shè)施在武漢市社區(qū)的普及,對現(xiàn)有基礎(chǔ)設(shè)施進行數(shù)字化改造升級,跨越“數(shù)字鴻溝”,提高社區(qū)數(shù)字化治理效能。
(3)堅持人才引領(lǐng)發(fā)展的戰(zhàn)略地位。
政府應(yīng)出臺一系列政策加強專業(yè)人才的引進,鼓勵技術(shù)人員從實踐中創(chuàng)新,提高對居民意見、反饋等平臺文本信息的重視程度并不定期結(jié)合NLP前沿領(lǐng)域的算法進行文本分析,為數(shù)字化治理效能的提高夯實基礎(chǔ)。
參考文獻
[1]韋仁忠,張作程.新時代城市社區(qū)治理的現(xiàn)實境遇和實踐向度——基于協(xié)同共治的視角[J].領(lǐng)導(dǎo)科學(xué)論壇,2022,(01):3137.
[2]Hanguang Hu. Research on the Construction of Grass Roots Governance System of “Three Governance Combination”[J].International Journal of Higher Education Teaching Theory,2020,1(4).
[3]周瑩瑩.社會主體多元化治理中的社會參與問題淺析[J].經(jīng)貿(mào)實踐,2018,(06):78.
[4]Yang Yutang. Knowledge Map of Community Governance Research in the Last 10 Years—Visual Analysis Based on CiteSpace[J].社會科學(xué)前沿,2021,10(12).
[5]馬晗.中國城市社區(qū)治理的研究熱點與發(fā)展趨勢——基于CiteSpace的可視化分析[J].社會福利(理論版),2021,(04):3745.
[6]Yili Yao,Xianghong Zhou. Impacts of the internet on perceptions of governance at the community level:the case of Jiangqiao Township in Shanghai,China[J]. Public Administration and Policy,2021,24(2).
[7]滕方煒.基層社會治理現(xiàn)代化:時代邏輯與路徑選擇——基于社區(qū)治理的文本分析[J].傳播力研究,2018,2(18):13.
[8]胡媛敏,張壽明.基于信息論的TF-IDF算法在文本分類中的應(yīng)用研究[J].中國水運(下半月),2021,21(12):3133.
[9]Xinming Zhang,Zhang Xinming,Shi Yuanbo,Wei Haiping. Research on TFIDF Algorithm Based on Weighting of Distribution Factors[J]. Journal of Physics:Conference Series,2020,1621(1).
[10]Christensen Alexander P,Kenett Yoed N. Semantic network analysis (SemNA):A tutorial on preprocessing,estimating,and analyzing semantic networks[J]. Psychological methods,2021.