(湘潭大學 湖南 湘潭 411100)
在現實生活中,在文本挖掘的幫助下,許多工作都能夠自動化完成,并能夠用定量研究的方式分析數據。文本挖掘的一般的處理過程是對大量文檔集合的內容資源進行爬取、數據預處理、特征提取、趨勢分析、文本分類、可視化等[1]。圖1給出了文本挖掘的一般處理過程。1995年,Feldman正式給出文本挖掘的概念[2],國內外眾多學者對文本挖掘的理論和技術研究開展了很多研究,并取得了可觀的成果。文本挖掘技術主要包括信息提取、主題跟蹤、文本分類、文本聚類、關聯規則挖掘和信息可視化等領域[3]。

圖1 文本挖掘的一般處理過程
從定性研究的角度來看,國外學者針對政府工作報告作了大量的研究,Walter和Kenneth[4]認為從重要性和內容[5]兩個角度對測量政府財政報告質量是有用的,關于政府工作報告在對政府進行職能問責中所扮演的角色,Ryan和Taylor等人[6]的研究突出了政府工作報告在職能問責中的作用,而Jones和Priest等人[7]則對政府工作報告在監督中的作用持反對意見
在文本挖掘技術還未得到廣泛普及之前,針對政府工作報告的研究大多屬于定性研究,也就是從語言學、文學、社會學的角度出發,如研討報告文本的翻譯問題[9]。從文學的研究角度,鄧曄[10]以1978年以后的政府工作報告作為研究語料,并對研究語料進行體裁分析,為中國政治文體與書面用語的書寫提供新的視角;王楠[11]則通過比較澳門與中央政府的報告為理解澳門歷史文化提供了新的方向。
近年來,隨著互聯網的普及,利用計算機進行數據分析變得觸手可及,國內對于政府工作報告的文本分析研究工作漸漸增加,不少學者開始從定量分析的角度對政府工作報告進行積極的探討。楊君[12]以副省級城市政府年度工作報告為研究對象,使用回歸分析研究官員的政治承諾行為,為中國政治體制下建立問責體系提供了有益的思路;文宏[13]使用文本分析軟件QSR NVivo 9和分詞軟件ROST CM 6,以 1954至2013期間的政府工作報告為研究語料,通過統計涉及反映基本公共服務的關鍵詞的句子頻數,試圖測量政府對公共服務的注意力配置,并為公共管理提供了一些有益的啟示。
總的來說,這些學者從文學、語言學、社會學的角度出發,研究集中于分析比較中英兩種語言的文本產生差異性的原因,這些研究大多屬于定性分析,而把國務院政府工作報告作為探討政府政策轉變趨勢的定量研究比較少,通過運用文本挖掘技術針對政府工作報告的信息提取工作更是方興未艾。