閆盈盈



[摘 ? ?要] 創新性地提出了政府公文公告主題研究方法。基于動態主題模型(Dynamic Topic Models,DTM),學習不同時間段政府公文公告數據的文檔-主題分布和主題-詞語分布的信息,通過統計分析與可視化分析,展示政府公文公告的主題及主題下詞語演化情況。選取貴州省人民政府網站和貴陽市人民政府網站的公文公告數據,選擇2017年7月至2018年7月的數據進行分析,實驗結果表明,本文提出的方法能夠有效幫助公眾理解政府發文的主題情況及關鍵詞語內容。
[關鍵詞] 政府; 公文公告;DTM;主題分析; 演化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 21. 067
[中圖分類號] TP391 ? [文獻標識碼] ?A ? ? ?[文章編號] ?1673 - 0194(2020)21- 0151- 05
1 ? ? ?引 ? ?言
目前,全球已進入大數據時代,每兩年互聯網上的數據會翻一番,未來,數據將會成為全球最有價值的資產,政府數據作為鉆石富礦,占據中國數據總量80%以上的份額[1]。激活沉睡在檔案袋、文件夾里的政府數據資源,實現政府數據資源價值變現,將驅動地方政府實現經濟發展轉型,提升社會治理能力、公共服務能力,增進民生福祉,推動數字經濟發展。利用大數據方法和手段激活政府數據價值,提升政府治理能力越來越成為政府部門、政府大數據研究者的使命和研究焦點。
近年來,我國學者對政府數據進行了大量的探索[2-6],然而,這些探索大多采用CNKI為數據源,利用傳統的數學統計方法進行數據分析和處理,通過可視化的方法揭示政府的政策、主題、范圍、傾向等狀況。顯然,基于文獻的研究屬于間接政府數據研究,一定程度上,直接的政府數據研究更能夠揭示政府的工作狀況。此外,在文本、圖像、視頻等數據處理方面,機器學習、自然語言處理、概率圖模型、深度學習等主流的大數據分析與挖掘方法被廣泛應用在各行各業的數據分析實踐中。但很少有研究聚集在政府公文公告方面。因此,本文利用動態主題模型(DTM)[7],揭示了不同層級政府在公文公告主題方面的區別與聯系,有利于公眾更加清晰地了解政府公文公告的主題演化趨勢與主題詞選擇傾向。
2 ? ? ?政府公文公告
政府公文公告的主題分析包括兩個過程,數據獲取與預處理、動態主題提取。首先,從政府網站爬取公文公告數據形成語料庫,利用文本預處理方法對抓取的數據進行數據清洗獲得較為規整的文本語料;其次,通過動態主題模型從文本語料庫中提取時序主題信息,完成統計分析。
2.1 ? 數據獲取與預處理
使用網絡爬蟲的方法從“貴州省人民政府”網站、“貴州省貴陽市人民政府”網站按照一定的規則,批量抓取已公布的公文公告數據,主要抓取標題和正文內容,形成規模較大的語料庫。爬蟲分為兩個模塊,頁面抓取和數據清洗。頁面抓取模塊通過初始URL,向對面的服務器發送請求,獲取頁面的靜態或動態代碼。數據清洗模塊通過解析DOM樹或其他方面,將需要的數據從頁面代碼中清洗出來,并獲取下一個爬取的URL,開始新的數據抓取與預處理。
2.2 ? 動態主題提取
通過動態主題模型獲取動態時序主題。主題模型是一類無監督的機器學習算法,能夠挖掘大規模文檔集中潛在的主題信息,本質為一種主題聚類方法,將一篇文章表示為若干主題的概率集合,一個主題表示為若干詞語的概率集合,將相似度較高的文檔聚集在一個主題之內[8]。動態時序主題模型是在傳統主題模型[9]的基礎上引入了時間特征。
將省級、市級的政府公文公告數據分別按照一定的時間段劃分。通過動態主題模型DTM,可以獲得每一個層級,每個時間片的主題分布、主題-詞語分布,通過統計分析,可以得到各主題信息和各主題下詞語的信息。基于主題以及詞語信息,可以實現深度的政府公文公告數據挖掘與分析。
3 ? ? ?DTM主題模型
DTM模型是一種無監督的動態時序主題模型。其基本思想分為兩個部分。首先,將整體時間按照一定的時間段大小進行劃分,將文檔集合中的文檔根據其內在的時間戳信息劃分到相應的時間片中。其次,對每一個時間片中的文檔子集通過LDA進行主題挖掘得到主題隨時間動態演化的情況。每一個時間片上的分布結果根據之前一個時間片的主題訓練結果進行動態變化。概率圖模型如圖1所示。
圖中符號解釋如表1所示。
采用EM算法進行參數推斷,需要推斷的參數包括超參數αi、隱變量φk,i、ηd,i、以及每個詞語的主題標識zd,n,i。具體推斷過程見文獻[6]。另外一種較為簡潔的方法是基于Gibbs采樣的方法[10]。
4 ? ? ?實驗
4.1 ? 數據集選取與分析
爬取貴州省與貴陽市人民政府網站的所有公文公告數據,并以“半年”為一個時間片進行劃分統計,如圖2所示。
從圖2可以發現:
(1)貴州省每半年發布公文公告的數據量在500篇上下浮動,需要特別說明的是2011以前的數據為2056篇,該節點是對2010年12月31日以前的所有數據進行計數統計。
(2)貴陽市2017年上半年之前的數據數量多為個位數,甚至為0,可推測貴陽市人民政府網站公布的公文公告數據具有一定的時效,會不定期的清理和更換,僅保留最新一年左右的數據。因此,由于貴陽市2017下半年的數據量過小,不能夠繼續用于不同層級的公文公告關聯分析研究。
(3)對比2017年下半年至2018年上半年的貴州省與貴陽市人民政府網站的公文公告數據,貴陽市的發文數量遠高于貴州省,尤其是貴陽市2018年的上半年的數據屬于陡增趨勢。
本文選取2017年下半年與2018年上半年的數據作為主題提取與分析的數據集。將數據劃分為T=4個時間片,每個時間片為一個季度。每個時間片的統計信息如圖3所示。
本文選取2017年下半年與2018年上半年的數據作為主題提取與分析的數據集。將數據劃分為T=4個時間片,每個時間片為一個季度。每個時間片的統計信息如圖3所示。
從圖3可以發現,貴陽市的發文數量遠高于貴州省的發文數量,可猜測貴陽市會積極響應貴州省的發文號令,推動貴陽市經濟社會水平不斷向前發展。數據集文檔詞語信息如表3所示。
從表3可以發現,貴州省政府公文公告的平均文檔詞語高于貴陽市,但是平均詞語密度略低于貴陽市。這表明,貴州省的公文公告篇幅較長,貴陽市略短,在詞語密度方面,貴陽市同一詞語的使用頻率要大于貴州省。
在公文公告數據集上運行DTM模型。超參數的設置采用經驗值,設置超參數α=0.01,δ=a=σ=0.05,主題值K=6。
4.2 ? 實驗結果與分析
由于DTM是無監督模型,因此沒有明確的類標簽。該研究用topic 0~topic 5分別表示貴州省公文公告數據的6個類標簽。通過DTM模型學習得到各時間片的文檔-主題分布ηd,i,計算得到貴州省公文公告數據在各時間片的主題分布比例,如圖4所示。
為了近一步了解各類標簽的具體含義,結合DTM模型學習得到的各時間片的主題-詞語分布φk,i,列出了隨著時間變化的各主題下Top 10詞語信息,如表4所示。
根據表4,可以看出:貴州省公文公告數據主題大致分為“產業發展”、“政務公開”、“生態改革”、“人員招聘”“建設規劃”以及“發展服務”。
結合圖4,可以得出如下結論:
(1)貴州省針對“人員招聘”和“建設規劃”的發文數量較少,其他四類主題的發文數量相差不多。
(2)在2017年三季度,貴州省政府較為注重“生態改革”,主要針對全省各市、貴安新區的住房、生態、廁所改造和管理提出了管理和實施意見,表達了貴州省對“大生態”建設的積極響應。
(3)在2017年四季度,占比較大的為“政務公開”,主要與政務服務中的審批、網上辦事、信息公開、項目投資與交易有關。該主題在2018年二季度的焦點由投資服務變為水源相關的政務服務。
(4)在2018年一季度,貴州省工作重點在“產業發展”方面,目的在積極響應國家精準扶貧的號召,重點支持和發展綠色農業、節能工業的任務。
(5)“人員招聘”公文公告主要是貴州省發布的公務員人員招聘公告,主要包括組織領導、職務職位,報考資格、培訓等事項要求。
(6)在“建設規劃”主題中,前兩個季度主要針對貴州省的住房問題、土地問題進行規劃與管理,后兩個季度主要針對學校、林木進行總體規劃與保護。
(7)“發展服務”公文公告主要在倡導企業利用大數據技術手段進行改革創新,推動醫療、旅游、養老等服務的社會服務,促進經濟發展。在2017年三季度,主要以旅游和醫療為主。在2018年二季度,轉移為以養老和旅游為主。
貴陽市公文公告數據在各時間片的主題趨勢如圖5所示。
貴陽市各主題下的Top 10關鍵詞,如表5所示。
根據表5,貴陽市公文公告數據主題大致分為“企業信息”“行政處罰”“項目招標“采購中標”“財政預算”“采購項目”。
結合圖5,發現招投標類公告占據了貴陽市政府公文公告數據的半壁江山,說明貴陽市政府在該期間具有較大的招標需求。結合貴陽市公文公告數據的文檔主題標簽、部分數據集內容以及貴陽市人民政府網站,該研究發現topic 2(項目招標)、topic 3(采購中標)、topic 5(采購項目)的區別如下。
(1)“項目招標”主題主要為貴陽市省政府發布的關于各市區縣在道路設計、景觀提升、棚戶區改造、扶貧搬遷工程、農田建設、醫院新院區、電梯設備采購等項目建設方面的招標公告,公告中詳細說明了招標具備的條件、招標人、代建單位、投標文件、投標保證金、聯系方式、日期等招標內容。
(2)“采購中標”主題側重在中標結果的公示方面,主要為項目名稱、采購方式、采購日期、評審時間、評審地點、委員會、采購聯系人、中標供應商、采購代理機構等信息。由于“貴陽市公共資源交易中心”是貴陽市招投標的主要負責單位,同時也是貴陽市政府公文公告數據的信息來源單位之一,因此“公共資源”、“交易中心”的出現概率較大。
(3)“采購項目”主題側重在采購,因此在四個時間片,采購出現的概率最大。采購招投標分為兩類,采購招標和采購合同,在采購招標中,涉及到指標文件、投標供應商、投標保證金、采購代理機構等信息;在采購合同公告中,存在項目名稱、采購方式、技術要求、合同金額、供應商、產品類型(服務)、合同簽訂時間等內容。在topic 5中,前兩個時間片的文檔有較大的概率為采購合同類別,而后兩個時間片有較多的公文公告屬于采購招標內容。
除此之外,從topic 0的關鍵字可以發現內容為企業信息和人員信息。該研究在topic 0的基礎上,結合貴陽市人民政府網站信息,發現topic 0展示來源于貴陽市資源交易中心的中標公示信息,內容均為中標候選企業信息,尤其是企業項目管理機構人員的信息,包括姓名、職稱、執業資格、證書等信息。結合貴陽市公文公告數據主題趨勢,2017年三季度無該主題的公文公告數據,在2018年二季度,該主題下公文公告數據達到最多。
從“行政處罰”主題可以看出,包括的關鍵詞有“依法”“監督”“責任”“住房”“房屋”“審查”“當事人”“依法”等詞語。根據該主題隨時間的演變情況,可以發現,前兩個季度公文公告數據側重在監督審查,后兩個季度側重在房屋和住房問題的監管、處罰,這與2018年貴陽市大力開展住房監管,形成房屋規范的實際情況相一致。
topic4的主題為“建設支出”,出現了大量與財政相關的關鍵字,例如“萬元”“預算”“支出”“經費”“審計”等詞語,除此之外也出現了“建設”“發展”“服務”“項目”“信息”“企業”“生產”等詞語。在2017年的兩個季度,“檢查”出現概率較高,表明在這期間,關于財政預算方面的檢查項目、管理是貴陽市政府關注的重點,這與年末財政總結和核查密不可分。在2018年的兩個季度中,關鍵詞“審計”有較高的出現概率,結合貴陽市公文公告數據,發現在該段時間內,貴陽市各區各縣的審計機關分別在推進審計工作方面發布了公文公告,包括“黨建與審計工作深度融合”“深化經濟責任審計”“主題教育”“扶貧攻堅”等內容。
結合利用DTM發現的貴州省與貴陽市的公文公告數據主題以及主題詞信息,該研究發現:貴州省的主題范圍較為總體和全局,通過產業發展、政務服務、生態改革、人員招聘、建設規劃等公文公告指導和推進貴州省綜合規劃與發展,而貴陽市的主題比較具體和集中,招投標項目、行政處罰、行政預算等均為項目建設情況內容。在主題內容的關聯度方面,關鍵詞“發展”“建設”“生產”“企業”、“服務”“管理”出現在兩個層級的多個主題中,表明“生產建設”與“服務管理”工作是貴陽市和貴州省的重中之重。
5 ? ? ?結 ? ?語
該研究利用動態主題模型DTM挖掘貴州省和貴陽市公文公告數據集的主題演化與詞語演化信息,并在此基礎上進行公文公告主題分析研究,有助于公眾了解貴州省與貴陽市公文公告數據主題分布和發文內容,同時可給政府工作提供可參考的統計基礎。進一步的工作為建立跨層級公文公告主題挖掘新模型,從層級關系和時間關系探索國家、省、市、區、縣政府公文公告數據的主題關聯與區別,挖掘政府工作存在優勢與問題,輔助政府決策,同時也會研究針對跨層級公文公告主題分析結果量化指標。
主要參考文獻
[1]九次方.九次方大數據使命:激活政府數據價值,構建全球數據生態[EB/OL].[2018-05-09].http://www.sohu.com/a/230919267_1000543
87.
[2]湯志偉,郭雨暉.我國開放政府數據的利用:基于CNKI的系統性文獻綜述[J].情報雜志,2018,37(7).
[3]袁冰潔,羅賢春,李伶思,等.我國政務信息資源研究熱點主題領域與趨勢[J].現代情報,2016,36(12):133-138.
[4]胡吉明,張曉娟,譚婧.我國政府信息資源研究的主題結構與演化態勢[J].信息資源化管理學報,2018(3).
[5]張敏,吳郁松,霍朝光.我國電子政務的研究熱點與研究趨勢分析[J].情報雜志,2015(2):137-141.
[6]楊蘭蓉,潁潁.2015年國際電子政務研究的主題與趨勢——基于社會科學引文索引(SSCI)數據庫分析[J].現代情報,2016,36(11):140-145.
[7]David M Blei, John D Lafferty. Dynamic Topic Models[C]//Proceedings of the 23rd International Conference on Machine Learning,2006:113-120.
[8]Jelodar Hamed,Wang Yongli,Yuan Chi,et al.Latent Dirichlet allocation (LDA) and Topic Modeling:Models,Applications,a Survey[J].Multimedia Tools and Applications,2018,78.
[9]Blei D M,Ng A Y,Jordan M I. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003.
[10]Chen J,Zhu J,Wang Z,et al. Scalable Inference for Logistic-Normal Topic Models[C]//Proceedings of the 26th Internatconal Conference on Neural Information Processing Systems,Volume2,2013:2445-2453.