李永忠 馬 原
(福州大學經濟與管理學院 福建 福州 350116)
“智慧政府”這一概念是對“智慧城市”的引申和發展,智慧城市的建設對未來智慧政府的發展形勢有著十分深遠的影響。隨著傳統管理方式逐漸難以適應政府日趨多樣化的公共事務管理職能需求,在現代化形勢下表現日漸乏力,智慧政府的構建被各國政府提上日程,未來建設智慧政府將成為構建服務型政府的重要舉措[1]。本文嘗試運用LDA主題詞篩選結合共詞聚類方法為智慧政府未來的研究領域提供可參考的研究方向。
本文數據來源是本文根據中國知網2010-2019年以智慧政府為主題進行精確檢索得到的國內期刊、會議論文以及學術論文的共463篇文獻的摘要及關鍵詞,自2010年來,以智慧政府為主題的研究性學術論文發表量呈現明顯增長并于2017年到達峰值,近兩年呈現下降趨勢。
共詞分析法是研究學科熱點以及趨勢的一種常用方法,[2]它基于大量文本數據中某些詞匯共同出現的頻率來分析文章的研究主題與要點,很多領域都利用該方法進行研究熱點的分析。使用共詞分析方法一般采用以下幾個步驟:1.確定分析的問題,2.確定需要挖掘的文本,3.高頻詞匯的選定,4.構建共詞矩陣,5.使用統計方法挖掘關聯性,6.得出結論。
LDA主題模型是一種利用極大后驗概率擬合單詞跟主題以及文檔跟主題的概率分布情況的監督學習的主題分類模型。[3]筆者利用該方法進行主題詞選定主要由于使用LDA主題模型進行篩選后,一些沒有實際意義的高頻詞匯能夠被排除,[4]提升了共詞分析結果的實用性,從而帶來更有價值的實驗結果。
在Python結巴分詞結合LDA主題模型下能夠將一些對研究沒有意義的高頻詞匯進行停用選取。基本步驟如下:對文本進行jieba分詞→選取高頻詞→確定停用詞→重新選取高頻詞→LDA模型打分→選取主題詞。
一般對主題詞的選取數量的確定要根據實驗數據量的大小確定,筆者為了避免主題詞選擇近似或重復,在進行多次實驗后確定了本次實驗的主題選擇數量為10組,再從每組主題選取打分前10的詞匯作為主題詞,最終得能夠反應國內智慧政府建設研究特點的主題詞數量為61個。
經過統計得出國內智慧政府研究中所出現的頻次前20的主題詞中,“服務”、“技術”、“數據”詞頻分別達到258、211、199是除智慧政府建設以外詞頻數最高的,應當是當下絕大部分研究文獻所涉及的領域。
主題詞提取完成后需要構建詞共現頻次矩陣來反映各個主題詞間的關聯程度。然而此矩陣中的詞頻由于反映的是絕對數值且閾值范圍過大,從而難以真正的顯示出各個主題詞之間依賴關系及聯系程度的相對性,所以需要對數據進行歸一化處理用以反映詞對間的相互關聯強度。本文采用的數據歸一化處理方式是salton指數法來顯示詞語之間的相對聯系緊密程度,其公式為:[5]
公式中S(i,j)的值表示每一對詞之間的緊密程度,其值域分布于(0,1]區間內,S越大表示i與j的聯系強度越大。N表示的是主題詞i與j各自出現的頻次,分母表示的是兩個主題詞共現的頻次,經過歸一化處理的矩陣如表1所示。
表1salton歸一化處理后的矩陣(部分)

由于詞共現統計僅僅是主題詞間兩兩聯系的緊密程度分析,可能不能完全反映研究文獻的研究關鍵點,所以引入類團分析來幫助將各個主題詞進行大類的劃分,一般使用聚類分析法將相互之間聯系比較緊密的多個主題詞歸為一個類團從而進行熱點歸類。[6]本次實驗使用了SPSS軟件對歸一化后的共詞矩陣進行聚類分析處理,采用系統聚類方法得到了表2中的四個大類。

表2 主題詞聚類劃分
在上表中,中心詞的選取由各個主題詞與其他主題詞共現頻率的平均值來確定稱作粘合力,粘合力越大即表示該主題詞與其他主題的聯系越強,即可確定為該類團的中心詞,[7]通過中心的整理歸納能夠對該類團進行命名。在選取中心詞時筆者并未簡單的挑選粘合度最大的三個詞匯,而是對籠統性的詞匯進行篩除后在選取粘合力大的的主題詞作為中心詞。例如在類團1中,信息化、智能化、現代化的粘合力系數分別是0.339,0.295,0.273,粘合度是除“電子政務”、“智慧”2個詞之外位于該類團的前三的,采用其作為中心詞結合類團其他主題詞,歸納后可將該類團的名稱命名為“架構搭建”,同理可以將其他三個類團分別命名為“頂層設計”、“信息化實施”和“宏觀綜述”。
進一步可以研究各類團的影響力情況,分別計算每個類團內主題詞絕對點度中心度的平均值用來表示其影響力程度,最終可得到表3如下:

表3 類團影響力表
從上表可知目前在智慧政府領域的研究中,頂層設計的研究擁有最大的影響力,架構搭建次之,說明我國國內電子政務在智慧政府研究領域的研究還未完全成形;宏觀綜述應該在以往的研究中趨于成熟,故而影響力有所下降;而隨著頂層設計與架構搭建的不斷研究發展,現代的信息化實施可能成為未來主要的研究方向和熱門話題。
本文采用了共詞聚類方法,結合LDA主題模型對“智慧政府”領域研究現狀進行了分析。首先通過分詞工具將近年研究文獻進行分詞處理,再使用LDA模型對數據進行主題詞提取篩選出研究的對象構成共詞矩陣,通過聚類方法將主題分為了4類,分別是:頂層設計、架構搭建、宏觀綜述以及信息化實施。更進一步對每個類團進行了中心度計算,反映了類團影響力以及主題詞的重要程度。最后,提出了未來可能具有影響力的研究方向,為今后的智慧政府領域的研究提供一些思路。
本文將共詞聚類方法引入了“智慧政府”研究領域,為該領域的研究補充了更多的研究思路,用更為科學的方式對領域的熱點進行了分析。本文仍存在的不足是尚未區分不同來源的研究文獻的主題詞權重,未來能夠引入權重概念則會更好地突出重點文獻的研究方向,對今后的發展趨勢能進行更有效的分析預測。