王勁 孫瑞英



摘要:[目的/意義]調查分析我國市級以上的公共數據管理政策,對比國家級數據政策對相關工作建設發展的要求,試圖發現當前地方政策與國家要求的匹配程度。[方法/過程]獲取28份我國地市級以上的公共數據管理政策,通過對內容進行加工整理,利用LDA算法進行主題內容識別,將其與國家層面的數據發展綱要進行比較。[結果/結論]當前各地制定的公共數據管理政策主題集中、目的明確,但總體上處于初級建設階段,未能對公共數據的深度應用起到引導和管理的作用,與國家頂層設計要求仍有一定差距。
關鍵詞:主題模型;公共數據;聚類分析;政策比較
分類號:G203
引用格式:王勁, 孫瑞英. 主題聚類視域下地方公共數據管理政策完備性分析[J/OL]. 知識管理論壇, 2024, 9(1): 65-78 [引用日期]. http://www.kmf.ac.cn/p/378/. (Citation: Wang Jin, Sun Ruiying. Analysis of the Completeness of Local Public Data Management Policies from the Perspective of Topic Clustering[J/OL]. Knowledge Management Forum, 2024, 9(1): 65-78 [cite date]. http://www.kmf.ac.cn/p/378/.)
1? 引言/Introduction
黨中央、國務院高度重視大數據的發展和公共數據的開放利用,依據大數據發展和應用的實際情況不斷發布相關政策進行工作指導。2014年大數據首次被寫入政府工作報告;2015年9月,國務院發布《促進大數據發展的行動綱要》,正式將大數據上升至國家戰略層面,促進了大數據在各新興領域的延伸應用;十九大報告中強調大數據與實體經濟的深度融合;2020年4月9日,中共中央、國務院印發《關于構建更加完善的要素市場化配置體制機制的意見》,將數據納入第五大生產要素,數據成為推動社會經濟發展的核心動能;2021年3月“十四五”規劃將大數據標準體系的完善作為發展重點。除上述政策外,國家層面還出臺了《全國一體化政務大數據體系建設指南》等宏觀規劃。為響應國家戰略的相關要求,各地陸續頒布公共數據管理的政策,以求促進公共數據的管理和使用。筆者利用LDA(Latent Dirichlet Allocation,LDA)主題模型對省、地區、市級公共數據政策文本進行主題聚類分析,以發現地方公共數據政策是否完備?并將實驗結果與國家頂層規劃的主旨要求進行對比,以確定是否符合國家戰略要求?期望研究成果為各地區公共數據管理和利用提供建議。
2? 研究綜述與本研究的邏輯思路/Literature review and logic of this study
2.1? 研究綜述
隨著國家層面對公共數據蘊含價值的重視和引導,近幾年各省市陸續頒布公共數據管理辦法,體現出地方政府對開發公共數據的高度關注,這也推動了學術界對公共數據政策的研究熱潮,學者們從制定框架、政策實施效果和社會影響等方面展開各類探討[1]。研究工具方面,有學者通過三維分析框架[2]、可視化分析工具[3]、社會網絡分析法[4]、NVivo質性分析軟件[5]等工具對我國數據政策進行分析,并針對問題提出相應建議。
在國家層面政策的研究中,有針對政策制定問題的思考:黃如花等[6]、趙洋等[7]利用內容分析工具對國家層面開放數據政策進行分析,發現了政策缺乏政府數據共享體系的設計,忽視數據開放質量監管、對供需求雙方關注不足等問題;白獻陽等[8]通過構建我國數據開放體系框架,梳理我國開放數據的相關政策,發現我國政策體系不完善、規范性和操作性不夠、政策保障能力缺乏等問題。有針對政策實施角度的研究:陳玲等[1]利用二維理論分析模型,從政策實施角度對我國政府開放數據政策實施特點進行分析。有針對未來發展方向的研究:張濤等[9]、張會平等[10]利用主體聚類和知識圖譜等工具對大量大數據政策進行綜合實驗分析,厘清了我國大數據政策主題的發展和內在邏輯,對未來發展趨勢進行研判。
省市層面政策研究較多覆蓋在政策設計角度,雷浩偉等[11]提出省級大數據發展應用政策存在進程過快、支撐性不足、政策內部協調性不足、需求回應缺失等問題;周文泓[12]提出我國地方政府應立足本地實際需求進行政策體系的完善;譚海波等[13]從大數據產業政策出發,利用內容分析法發掘政策未來發展方向。也有學者試圖將地方性政策與國家層面的要求進行對比,張濤等[14]將22個地區政策與《綱要》進行對比,并分析各地區政策的特征;王長政等[15]利用扎根理論和社會網絡分析法,對地方政府層面的262份政策進行研究,試圖發現大數據治理政策關注點的變化。可以看出:從主題相似視角,對數據政策研究的成果較少,筆者從這一視角出發,對地方性公共數據管理文件進行分析研究。
2.2 研究邏輯框架
筆者選取28份我國地市級以上的公共數據管理政策,利用Python程序對其進行LDA建模處理,政策文本聚類的研究過程包括數據采集、文本停用詞處理、計算困惑度以確定主題數、形成主題等環節(見圖1),最后將LDA分析結果可視化并對其進行分析,與國家政策中對于公共數據的建設要求進行對比,對未來政策優化提供建議。
3? 基于LDA模型的地方公共數據管理政策分析/Analysis of local public data management policies based on LDA model
3.1? 數據采集
選取地、市級以上的關于公共數據管理的政策文件為研究對象。因現階段公共數據政策發展還處于起步階段,大部分地區的數據管理政策仍停留在政府數據管理政策上。為保障研究的準確性,避免受到類似“大數據”“政府數據”等近義政策文件干擾,本文檢索關鍵詞限制在“公共數據政策”“公共數據辦法”“開放公共數據”等,文獻均來自各地區政府或大數據管理局官方網站,最終得到政策文件28份,文件名見表1。
3.2? 建模過程
筆者采用LDA主題模型進行主題聚類分析,LDA模型是一種非監督的機器學習手段,能夠處理詞匯、主題、文本之間的關聯,展現聚類中的語義關系,發掘大規模文檔中暗含的主題信息[16]。其主要原理具體如下:某篇文本以一定概率暗含著某種主題,該主題又以一定概率由某些詞匯而構成,即文本是某些主題的概率分布組合,而主題又是某些詞匯的概率分布組合,LDA模型能夠體現“文本—主題”和“主題—詞匯”兩種概率關系,在某一文本中,主題權重越高代表該文本與該主題的關系越高,“主題-詞匯”關系同理[17]。LDA模型可以通過多種計算機語言進行實現,筆者利用Python進行建模,然后對文本做進一步處理。具體步驟包括:①獲取政策文本對象匯聚成文本集;②對文本中的特殊符號進行去除,并利用Jieba工具對文本集進行分詞、詞性篩選、去停用詞。去停用詞的意義在于去除文本中量大但沒有實際意義的詞匯,例如“應當”“比如”“但是”等,使產生的主題詞匯更有研究價值;③計算困惑度以確定主題數量,主題數量選擇的合理程度決定了主題聚類準確性;④詞匯向量化并形成矩陣;⑤聚類結果可視化輸出。
3.3? 分析結果
3.3.1? 確定主題數
LDA模型建模過程中需要設定主題數目,通常文本集合量越大則主題數目越多。大量的實踐研究證明,LDA模型的主題聚類效果與潛在的主題數量K直接相關。主題數會直接影響聚類文檔集的質量。筆者采用困惑度(perplexity)這一公認指標,對最優主題數目進行判定。困惑度是模型在區分主題時進行的確定性判定指標,反映模型對新樣本是否適用,是否能正確
區分主題劃分[18]。其計算公式為:
其中,M為文本集中的文本數,Nm為文檔m的長度。為第m篇文檔中詞的概率值。若模型對新樣本的分類效果越好,泛化能力越強,則困惑度值就越小,反之亦然。通過公式(1)進行計算,當主題數約等于11時模型的困惑度出現拐點,故確定主題數為11,如圖2所示:
3.3.2? 主題強度分布
主題強度是描述主題在一定時間窗口內受關注程度的指標,在某個時間窗口內包含該主題的文檔數目越多,其主題強度越大,則其越有可能是熱點主題。主題強度計算公式如下:
其中,為文檔d中主題z所占比例,Dt為時間窗口t上的文本集合。將所有主題的主體強度計算完畢后,根據主題強度的大小降序排列,設定主題強度閾值以得到關注度較高的主題。主題閾值的計算公式如下:
若一個主題的主題強度大于這個閾值T時,說明該主題k屬于熱點主題[18]。主題強度可以利用pyLDAvis進行可視化,體現各地公共數據政策對某些領域的覆蓋程度,主題強度高則代表著政策更重視該領域,并利用距離展示各主題之間的關系(見圖3)。每個圓代表著一個主題,圓的大小體現主題出現的強度,圓心間距離代表主題之間相似的程度。由圖3可見,各主題間雖略有重復,但大部分主題能夠保證一定的獨特性,得到了比較好的主題分類效果。由圖3可知,主題1有著較高的強度,主題2—5強度差距略有差異。展示出公共數據管理政策主題聚攏度較好,同時又能涉及多種領域,展現了政策制定的多樣化。
3.3.3? 主題領域分析
主題領域能夠從政策文本中詞頻數的強弱展示出來,經由詞頻統計工具形成詞頻詞云圖(見圖4),可以清晰地反應公共數據政策涉及的重點。除去“公共數據”“數據”二詞外,公共數據政策更多將“管理”視角投向數據“資源”、公共數據的“開放”“應用”“治理”“服務”“創新”等角度。可以看出各地政策關注推動公共數據的開放利用和參與政府治理,力求通過開發公共數據資源來滿足當前國家發展的實際需求。而“高端”“深度”“能力”“協同”等詞頻則相對較少,顯示出當前政策制定仍處于初級階段,沒有著更深層次的公共數據管理規劃。
3.3.4? 主題構成分析
通過LDA模型聚類得到公共數據政策的11個主題和構成每種主題的特征詞匯,將每種主題中的特征詞所占比重由高到低排列,選取前10個特征詞進行整理和總結歸納,通過高頻特征詞呈現出每種主題所蘊含的政策議題,顯示出公共數據政策總體上的側重點和重點要求,主題的特征詞分布結果詳見表2。由于“公共數據”“數據”二詞在每個主題中都有出現,則拋開二詞對每個主題中其他高頻主題詞進行總結,利用人工篩查對相關度較高且可以形成具體含義的特征詞進行集合,總結提取每個主題名稱。例如在主題1中,“開放”“管理”較為高頻且關系密切,則可以將該主題總結為“開放管理”;主題5中“部門”“管理”“資源”“服務”等詞可以總結為相關部門對數據資源服務進行管理,故將該主題總結為資源服務管理,以此類推對聚類的11大主題進行依次歸納,確定主題名稱。
通過模型分析可得到主題特征詞的分布,每個詞在主題中的概率能夠反映出該詞對主題的影響程度,概率越高則支持程度越大,全部特征詞構成了每個主題蘊含的主旨思想。圖5以主題1為例展示主題內占比較高的前30個特征詞的比重,更為詳細地展示了每個主題所包含的獨有涵義。
由于研究對象是公共數據管理的相關政策,可以看出各主題的特征詞有一定程度上的趨同,但是每個主題都有一定程度的獨特性。通過對各主題的總結可以看出,當前地方公共數據管理政策側重點集中于以下幾個方面:
(1)提升公共數據管理水平。提出公共數據管理目標,例如,促進全社會的數字化轉型,利用公共數據加快數字政府建設,利用公共數據加強社會、經濟、城市治理的智慧化轉型;利用公共數據促進公共服務的數字化轉型,提高民生服務及商業應用的智慧化建設;利用公共數據推動工業制造向智能制造轉型,提高生產效率和研發能力。同時應加強大數據基礎設施建設,保證數據研發和技術的高速發展[19]。政策同時要求相關部門應明確管理目標和責任,統籌本行政區內的數據管理,指定采集清單編制同一目錄、核準采集的公共數據質量,保持數據更新頻率等[20-21]。
(2)保障公共數據開放共享和服務。公共數據開放是公共管理和服務機構向自然人、法人和其他組織(以下簡稱數據利用主體)提供具有原始性、可機器讀取、可供社會化利用的數據集的行為[22]。對數據開放條件、數據開放手段、申請和利用方式提出相關要求,社會公眾、企業、團體等廣泛參與公共數據應用、價值挖掘、技術開發等工作[23-24]。公共數據服務是指將公共數據提供給社會用戶的過程和方式,有政策要求應保障無償向社會公眾提供數據服務,應提高數據服務質量和水平,拓展服務模式,開發高質量的數據服務產品[24]。
(3)強調公共數據的資源作用。公共數據應被視作新型公共資源,不得被私人侵占而阻礙開放利用。公共數據資源也包括對數據進行加工處理、分析研究所形成的,能發揮數據價值的產品,包括:數據模型、分析報告、可視化、檢索引擎、智慧服務等。應保證公共數據資源得到充分的開發和應用,促進公共數據資源在城市治理、公共服務中起到重要作用;建設數據交易超市,并對數據資源開發出來的數據產品交易做出規定[24-26]。
(4)強調公共數據主管部門責任和義務。以大數據中心統籌公共數據管理,加快公共數據開放平臺的建設,各部門應各盡其責相互協調,鼓勵各單位設立首席數據官對數據工作進行領導[19]。各部門有責任主動收集和向大數據平臺歸集公共數據,有責任保證數據的原始、完整、時效性;有責任建立完善的數據質量管理制度,加強數據治理的把控;有責任形成監督機制并自覺接受監管評價。數據管理部門應根據本地區實際需要,協同政府制定重點開放公共數據目錄,保證民生優先、經濟優先[19,23,25,28]。
(5)對違反相關規定的行為做出處理。為保障公共數據有效開發利用,各地政策制定了違反條例規定的制裁方式,如未能保護數據安全、個人隱私的,未能保證數據質量且按時歸集數據的,不通過數據開放平臺而擅自提供數據資源的,利用公共數據非法獲利等相關行為將受到行政處分或法律追責,保障了各地在公共數據開放利用過程中的行為合規。
4? 地方公共數據政策的完備性分析/Analysis of the completeness of local public data policies
國家高度重視政府數據與公共數據的開放利用,接連出臺相關政策,為地方公共數據管理政策的制定確立了行動綱領和行為指南,為地方開展公共數據共享利用、制定公共數據管理辦法和政策法規建設等指明了方向。通過對《促進大數據發展行動綱要》《關于構建更加完善的要素市場化配置體制機制的意見》《全國一體化政務大數據體系建設指南》等政策進行精讀,利用內容分析法對政策的共性要求進行發掘,梳理《促進大數據發展的行動綱要》中對公共數據資源開發利用的規劃設計,將其與各地政策主題進行比較,試圖發現當前地方政策內容的完備性和差距。
4.1? 形式完備性分析
筆者根據來自各地區政府或大數據管理局官方網站獲得的28份政策文件(見表1),展示了全國各地發布公共數據政策的現狀,能夠體現當前我國各地對于公共數據相關工作的規劃成果。
4.1.1? 地區結構性失衡
根據調研結果可以看出:發布“公共數據政策”“公共數據辦法”“開放公共數據”等地方文件的省市集中在東南沿海地區,西部的新疆、西藏、甘肅、青海、云南、寧夏、四川、貴州、內蒙古,中部的山西、陜西、河南、河北、湖南、湖北、安徽等都沒有發布相關的公共數據管理政策,呈現東、中、西部公共數據管理政策結構性失衡。
4.1.2? 區域馬太效應明顯
公共數據政策來源結果展示山東省、浙江省、江蘇省、廣東省這幾個省份發布了省級公共數據管理相關政策,可見發布“公共數據政策”“公共數據辦法”“開放公共數據”等地方文件的省市集中在經濟發達地區,展示出區域數字化管理呈現“好的更好”的趨勢,馬太效應明顯。
4.1.3? 全國一體化勢在必行
《新型數據中心發展三年行動計劃(2021—2023年)》提出:2021年底,全國數據中心平均利用率要提升到55%,2023年提升到60%。《關于加快構建全國一體化大數據中心協同創新體系的指導意見》提出,2025年,全國范圍內數據中心要形成:“布局合理”“綠色集約”的基礎設施一體化格局,彌補東西部公共數據管理結構性平衡和區域馬太效應明顯的問題。
4.2? 內容完備性分析
4.2.1? 國家頂層設計任務梳理
通過對政策文本的分析梳理,發現國家針對大數據發展建設提出A、B、C 3項任務,政策中明確提出“穩步推進公共數據資源開放”,彼時對公共數據尚未形成完整的定義,政策制定也將政府數據、工業數據、農業數據等與公共數據區分開來。根據各地發布政策中的公共數據定義,可以認為公共數據囊括國家設計中提到的大部分數據類型,故3項任務均可視作對公共數據建設的要求,具體要求如表3所示:
除了主要任務之外,國家還對大數據發展政策機制提出了完善要求,包括完善與實施與相關機制、完善法規與標準制度、加大金融支持、促進人才培養和國際交流合作等。各地在制定相關政策時,應當在國家的總體規劃布局基礎上進行發展和完善,制定符合本地實際發展的公共數據政策方案。
4.2.2? 地方政策總體上符合《綱要》戰略要求
(1)地方政策關注數據資源開放整合及治理,促進了相關部門和負責人員對該項工作的重視程度。國家設計強調:(A1)政府數據資源一體化、(A3)數據資源的歸集、(A4)治理精準化;地方政策主題詞頻統計的高頻詞也包括“數據”“服務”“開放”等,說明地方數據政策強調開放機制、開放平臺建設,并且對開放利用方式及開放安全監管等方面都進行了說明,在思想上為地方數據開放服務確立了思想基礎。
(2)地方政策明確相關部門職責及管理責任。國家要求:(B2)建立數據開放審批制度、(A5)數據治理系統、(C3)安全保障一體化,明確指出應形成責任明晰、強化資源統籌管理,要求各部門統一思想,認真履行職責。各地的政策也對這項要求做出相應的規劃,地方政策要求公共數據資源開放管理,以各地大數據管理中心為核心,承擔數據統籌協調、組織數據采集、維護平臺運營、對數據開放進行監管的職責。地方政策在明確責任的同時,也提出違反規定應承擔的法律責任,為公共數據開放提供了法制保障。
(3)地方政策推動公共數據資源共享利用,提升公共數據利用效果。國家政策要求:(B1)構建數據開放體系、(B3)關注重點開放領域。數據資源的共享和開放應是公共數據價值實現的核心方式。地方政策主題詞頻統計的高頻詞也包括“開放”“共享”“資源”等特征詞,說明地方政策對數據開放與共享做出了豐富的規劃,體現出數據資源開放共享在地方公共數據管理中的核心地位。
5? 地方政策亟待完善之處/Areas in Need of Improvement in Local Policies
《促進大數據發展的行動綱要》是國家戰略,為地方公共數據管理政策的制定確立了行動綱領和行為指南,各地方公共數據管理政策的制定也應該以《促進大數據發展的行動綱要》的3大任務的實現為目標,因此,各地方公共數據管理政策的內容應該遵循目標管理的SMART(specific、measurable、attainable、relevant、time-bound)原則。SMART原則是由管理學大師德魯克在其1954年出版的《管理的實踐》一書中提出的[29]。基于SMART原則,各地方公共數據管理政策不能內容籠統,缺乏切入解決實際問題的作用,如果這樣會導致各地方公共數據管理政策缺乏有效的引導性,不利于行為主體依據政策開展更深層次的數據管理和利用。只有遵循SMART原則,才能更加明確高效地工作,明確目標設定和公共數據管理工作效果有利于管理者對相關數據工作人員的工作實施績效考核,能夠為相關考核提供考核目標和考核標準,使考核更加科學化、規范化,更能保證績效考核的公正、公開與公平。因此,筆者依據SMART原則衡量地方公共數據管理政策的內容,看其是否具備實現公共數據開放國家政策設計3大任務的明確性、衡量性、實現性、相關性、時限性。
5.1? 提升任務目標精準度(specific)
國家規劃強調治理精準化(A4),《綱要》中對政府、醫療、社保、教育、農業、科研等領域的數據應用做出了應用設計,強調建設“公共服務大數據工程”“工業和新興產業大數據工程”“農業大數據工程”及“創新大數據工程”等數據開放管理項目,并對不同領域的數據工程建設做出具體詳實的說明,規劃了數據工程的發展方向和具體應用模式。從表2和圖5的地方政策主題聚類結果中可以看出,各地聚焦于宏觀層面引導,但各地政策對具體領域缺乏具體精準的實踐指導,各地區的政策盡管對公共數據資源的開放領域做出了闡述,但絕大多數僅僅說明某類數據的利用方向,具體實施過程和方式不夠詳盡。主題特征詞“利用”“應用”“制定”等比較抽象,如 “利用”一詞,僅出現在主題3中,比重僅占0.011,而“開放”“共享”等概括性詞匯幾乎出現在所有的主題中,有較高的主題支持度,這說明各地政策思想上注重公共數據開放利用,但在具體的實踐層面,指導不明確、不具體,沒有滿足SMART原則的specific指標,政策內容不夠精準詳細、實踐操作性不足。各地政策內容應該更加明確精準對接各實踐領域,這樣才能有利于引導政府、醫療、社保、教育、農業、科研等具體領域公共數據的持續開發和利用。
5.2? 建立統一數據標準規范(measurable)
國家規劃強調(C2)標準規范一體化,建立國家宏觀調控數據體系,及時發布有關統計指標和數據,提高宏觀調控的科學性、預見性和有效性。國家政策要求地方政府依據自身實際情況制定多層次的大數據政策,確立完善的數據資源管理辦法和制度。從政策主題詞表(見表2)中可以看出,“法規”“標準”“制度”等關鍵詞對主題產生影響較弱,體現出當前各地出臺的數據管理政策未能響應國家的相關要求,建立可以統計衡量的各級指標體系,沒有把用戶滿意度、公共數據網站行為“標準”等進行規范化、數值化處理,各地政策僅從執行部門角度出發,要求其在各自職能范圍內做好數據管理和開放工作,缺少公共數據開放的各級標準,導致主體工作無據可依,應該完善公共數據處理的各級標準規范體系,為開放公共數據提供可衡量的行為準則。
5.3? 加強各類保障制度(attainable)
國家政策強調政府數據資源的技術支持,加強政府預算投入進行科研支持,國家強調集中資金攻克大數據核心技術,支持重大應用項目和公共數據開放平臺的建設,完善政府采購數據應用的配套制度等。而實驗結果顯示(見表2和圖5):各主題中都缺乏“資金”“技術”相關特征詞的支持,更加沒有關于二者要求的主題項目,體現出地方政策在保障支持方面缺乏詳細的規劃,而公共數據的收集、管理和開放都需要一定程度的技術予以支持,這使得公共數據開放和管理活動缺乏最基礎的能力保障,使得相關工作難以深入進行,無法提高相關部門的積極性,工作任務難以實現(not attainable)。
5.4? 增強各部門工作協同(relevant)
國家政策強調(C1)算力設施一體化、(C2)標準規范一體化、(C3)安全保障一體化。要推動構建智能防控、綜合治理的公共安全體系,形成全鏈條的數據管理政策生態。從表2和圖5可知,各主題中都缺乏“協同”相關特征詞的支持,更加沒有關于“協同”要求的主題項目,圖8的地方政策高頻詞中,雖然出現“部門”責任、公共數據開放“機構”的“共享”與“服務”,但“部門”與“機構”之間如何共享?地方政策中為實現“共享”而進行的區域協同、部門之間的協同、工作的長、中、短期目標之間的協同等很少被涉及,協同效應不明顯(not relevant)。地方政策要協同考慮相關的區域、部門、各級工作,工作之間彼此不能沖突,這樣才能促進數據綜合治理、區域和產業聯盟的形成。
5.5? 增強工作部署時限性(time-bound)
《促進大數據發展行動綱要》指出,2017年底要形成跨部門數據資源共享共用格局,2018年底前建成國家政府數據統一開放平臺。在主題聚類分析中發現,地方政策中各項工作的時間限制很少被提及,政策內容少了實際的期限,還停留在“想做”的階段,對各項工作付諸行動的指導和期限約束不足,對工作進度考核不可控,會造成公共數據開放利用的拖延。
6? 結語/Conclusion
本文以各地公共數據管理政策為研究對象,利用LDA主題聚類分析工具對其進行主題挖掘,并將結果與國務院為加強數據資源利用而頒布的3項定策設計展開比較分析。研究結果顯示,各地政策對公共數據資源開發做出了宏觀把控,規劃了數據開放的發展方向,明確了各主體的職責和義務,為公共數據價值深度挖掘做出了基礎部署,但由于我國公共數據資源開放處于初級階段,各地政策的完備程度還存在不足,還需進一步修訂改進。
參考文獻/References:
[1] 陳玲, 段堯清. 我國政府開放數據政策的實施現狀和特點研究: 基于政府公報文本的量化分析[J]. 情報學報, 2020, 39(7): 698-709. (CHEN L, DUAN Y Q. Analyzing implementation of the Chinese government open data policy using government bulletin text as example [J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(7): 698-709.)
[2] 李樵. 我國促進大數據發展政策工具選擇體系結構及其優化策略研究[J]. 圖書情報工作, 2018, 62(11): 5-15. (LI Q. Research on the architecture and optimization strategy of policy instrument selection for the development of big data in China[J]. Library and information service, 2018, 62(11): 5-15.)
[3] 徐蕾, 李慶, 肖相澤. 基于扎根理論的大數據政策共詞網絡研究[J]. 現代情報, 2018, 38(6): 157-164. (XU L, LI Q, XIAO X Z. The co-word network analysis of big data policies based on ground theory[J]. Journal of modern information, 2018, 38(6): 157-164.)
[4] 段堯清, 尚婷, 周密. 我國政務大數據政策擴散特征與主題分析[J]. 圖書情報工作, 2020, 64(13): 133-139. (DUAN R Q, SHANG T, ZHOU M. Analysis on the characteristics and subjects of Chinas government big data policy diffusion[J]. Library and information service, 2020, 64(13): 133-139.)
[5] 陳蘭杰, 趙元晨. 政策工具視角下我國開放政府數據政策文本分析[J]. 情報資料工作, 2020, 41(6): 46-53. (CHEN L J, ZHAO Y C. Analysis of open government data policy text in China from the perspective of policy tools[J]. Information and documentation services, 2020, 41(6): 46-53.)
[6] 黃如花, 溫芳芳. 我國政府數據開放共享的政策框架與內容:國家層面政策文本的內容分析[J]. 圖書情報工作, 2017, 61(20): 12-25. (HUANG R H, WEN F F. Policy framework and content of opening and sharing government data in China: a content analysis of policy documents at the national level[J]. Library and information service, 2017, 61(20): 12-25.)
[7] 趙洋, 程雪涓. 政策工具視域下我國開放數據政策研究[J]. 圖書館雜志, 2021, 40(11): 31-38,47. (ZHAO Y, CHENG X J. Research on open data policy from the perspective of policy instruments in China[J], Library journal, 2021, 40(11): 31-38, 47.)
[8] 白獻陽, 孫夢皎, 安小米. 大數據環境下我國政府數據開放政策體系研究[J]. 圖書館學研究, 2018(24): 48-56, 47. (BAI X Y, SUN M J, AN X M. On Chinas open government data policy system under the background of big data[J]. Research on library science, 2018(24): 48-56, 47.)
[9] 張濤, 馬海群. 我國大數據政策主題分析及發展動向研判[J]. 情報理論與實踐, 2022, 45(3): 72-80. (ZHANG T, MA H Q. Top analysis and developing trends of big data policy in China[J]. Information studies: theory & application, 2022, 45(3): 72-80.)
[10] 張會平, 郭寧, 湯璽楷. 推進邏輯與未來進路:我國政務大數據政策的文本分析[J]. 情報雜志, 2018, 37(3): 152-157, 192. (ZHANG H P, GUO N, TANG X K. Promoting logic and future directions: a textual analysis of Chinas government big data policy[J]. Journal of intelligence, 2018, 37(3): 152-157, 192.)
[11] 雷浩偉, 廖秀健. 省級政府大數據發展應用政策的規制導向與執行優化研究——基于政策文本的分析[J]. 公共管理與政策評論, 2022, 11(2): 114-134. (LEI H W, LIAO X J. Research on the regulatory guidance and implementation optimization of big data development and application policies of provincial governments: based on the analysis of policy texts[J]. Public administration and policy review, 2022, 11(2): 114-134.)
[12] 周文泓. 面向資產化利用的我國地方政府開放數據政策調查及其啟示[J]. 情報理論與實踐, 2022, 45(6): 48-54, 16. (ZHOU W H, Research on government open data policy of local government for asset-orient utilization and its enlightenment[J]. Information studies: theory & application, 2022, 45(6): 48-54, 16.)
[13] 譚海波, 鄭清清, 王海函. 地方政府大數據產業政策:工具偏好及其匹配——基于貴州省政策文本的分析[J]. 中國行政管理, 2021(1): 52-58. (TAN H B, ZHENG Q Q, WANG H H. Local government big data industry policy: tool preferences and compatibility ——analysis based on the text of Guizhou policy[J]. Chinese public administration, 2021(1): 52-58.)
[14] 張濤, 馬海群, 易揚. 文本相似度視角下我國大數據政策比較研究[J]. 圖書情報工作, 2020, 64(12): 26-37. (ZHANG T, MA H Q, YI Y. Comparative analysis of Chinas big data policies from the perspective of text similarity[J]. Library and information service, 2020, 64(12): 26-37.)
[15] 王長征, 彭小兵, 彭洋. 地方政府大數據治理政策的注意力變遷——基于政策文本的扎根理論與社會網絡分析[J]. 情報雜志, 2020, 39(12): 111-118. (WANG C Z, PENG X B, PENG Y. Attention evolution of big data governance policies of local government——Based on grounded theory and social network[J]. Journal of intelligence, 2020, 39(12): 111-118.)
[16] 王鵬, 高鋮, 陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學, 2015, 33(1): 63-68. (WANG P, GAO C, CHEN X M. Research on LDA model based on text clustering[J]. Information science, 2015, 33(1): 63-68.)
[17] 李倩, 王帥. LDA模型下我國公共圖書館微信平臺閱讀推廣內容主題研究[J]. 圖書情報工作, 2022, 66(8): 72-83. (LI Q, WANG S. A study on the topic of WeChat platforms reading promotion contents in public libraries by using LDA model in China[J]. Library and information service, 2022, 66(8): 72-83.)
[18] ARUN R, SURESH V, MADHAVAN C E V, et al. On finding the natural number of topics with latent Dirichlet allocation: some observations[C]∥Pacific-Asia conference on knowledge discovery and data mining. Berlin: Springer, 2010: 391-402.
[19] 上海市人民政府. 上海市數據條例[EB/OL]. [2023-10-30]. https://www.shanghai.gov.cn/nw12344/20211129/a1a38c3dfe8b4f8f8fcba5e79fbe9251.html. (PEOPLES GOVERNMENT OF SHANGHAI. Shanghai data regulations[EB/OL]. [2023-10-30]. https://www.shanghai.gov.cn/nw12344/20211129/a1a38c3dfe8b4f8f8fcba5e79fbe9251.html.)
[20] 廣東省人民政府. 廣東省公共數據管理辦法[EB/OL]. [2023-10-30]. https://www.gd.gov.cn/zwgk/wjk/qbwj/yfl/content/post_3584932.html (PEOPLES GOVERNMENT OF GUANGDONG PROVINCE. Guangdong Provincial public data management measures[EB/OL]. [2023-10-30]. https://www.gd.gov.cn/zwgk/wjk/qbwj/yfl/content/post_3584932.html.)
[21] 浙江省人民政府.浙江省公共數據條例[EB/OL]. [2023-10-30]. https://jgj.hangzhou.gov.cn/art/2023/5/30/art_1229717029_1832012.html. (PEOPLES GOVERNMENT OF ZHEJIANG PROVINCE. Zhejiang Province public data regulations[EB/OL]. [2023-10-30]. https://jgj.hangzhou.gov.cn/art/2023/5/30/art_1229717029_1832012.html.)
[22] 重慶市人民政府. 重慶市公共數據開放管理暫行辦法[EB/OL]. [2023-10-30]. http://www.cq.gov.cn/zwgk/zfxxgkml/szfwj/xzgfxwj/szfbgt/202009/t20200918_8837781.html. (CHONGQING MUNICIPAL PEOPLES GOVERNMENT. Interim measures for open management of public data in Chongqing [EB/OL]. [2023-10-30]. http://www.cq.gov.cn/zwgk/zfxxgkml/szfwj/xzgfxwj/szfbgt/202009/t20200918_8837781.html.)
[23] 山東省人民政府. 山東省公共數據開放辦法[EB/OL]. [2023-10-30]. http://www.shandong.gov.cn/art/2022/2/9/art_107851_117339.html. (PEOPLES GOVERNMENT OF SHANDONG PROVINCE. Shandong Province public data open approach [EB/OL]. [2023-10-30]. http://www.shandong.gov.cn/art/2022/2/9/art_107851_117339.html.)
[24] 海南省大數據管理局. 海南省公共數據產品開發利用暫行管理辦法[EB/OL]. [2023-10-30]. https://dsj.hainan.gov.cn/tzgg/zcgg/202109/t20210918_3055961.html. (BIG DATA ADMINISTRATION OF HAINAN PROVINCE. Interim management measures for the development and utilization of public data products in Hainan Province [EB/OL]. [2023-10-30]. https://dsj.hainan.gov.cn/tzgg/zcgg/202109/t20210918_3055961.html.)
[25] 廣西省人民政府. 廣西公共數據開放管理辦法[EB/OL]. [2023-10-30]. http://www.gxzf.gov.cn/html/zfgb/2020nzfgb/d17q_zfgb/zfgb20200702/t7241433.shtml. (PEOPLES GOVERNMENT OF GUANGXI PROVINCE. Guangxi public data open management approach [EB/OL]. [2023-10-30]. http://www.gxzf.gov.cn/html/zfgb/2020nzfgb/d17q_zfgb/zfgb20200702/t7241433.shtml.)
[26] 吉林省人民政府. 吉林省公共數據和一網通辦管理辦法(試行)[EB/OL]. [2023-10-30]. https://xxgk.jl.gov.cn/szf/gkml/201901/t20190117_5486564.html. (PEOPLES GOVERNMENT OF JILIN PROVINCE. Jilin Province public data and one-network management approach (for trial implementation) [EB/OL]. [2023-10-30]. https://xxgk.jl.gov.cn/szf/gkml/201901/t20190117_5486564.html.)
[27] 江蘇省人民政府. 江蘇省公共數據管理辦法[EB/OL]. [2023-10-30]. https://www.jiangsu.gov.cn/art/2021/12/24/art_46143_10224944.html. (PEOPLES GOVERNMENT OF JIANGSU PROVINCE. Measures for public data management in Jiangsu Province[EB/OL]. [2023-10-30]. https://www.jiangsu.gov.cn/art/2021/12/24/art_46143_10224944.html.)
[28] 德魯克. 管理的實踐[M]. 齊若蘭, 譯. 北京: 機械工業出版社, 2018. (DRUCKER P. The practice of management[M]. QI R L, trans. Beijing: China Machine Press, 2018.)
作者貢獻說明/ Author contributions:
王? 勁:負責相關資料收集、數據分析、框架設計、論文撰寫;
孫瑞英:負責論文觀點提煉、修改與撰寫。
Analysis of the Completeness of Local Public Data Management Policies from the Perspective of Topic Clustering
Wang Jin? Sun Ruiying
School of Information Management, Heilongjiang University, Harbin 150080
Abstract: [Objective/Significance] This study investigates and analyzes the public data management policies at or above the municipal level in China, comparing them with the requirements of national-level data policies on relevant work development, and attempts to identify the degree of alignment between current local policies and national requirements. [Methods/Processes] Twenty-eight public data management policies at or above the municipal level in China were collected. After processing and organizing the content, the LDA algorithm was used for topic identification, and these policies were compared with the national-level data development outline. [Results/Conclusions] The themes of the current public data management policies formulated by various regions are focused, with clear objectives, but overall, they are still in the early stages of development. They have not been able to guide and manage the deep application of public data effectively, and there is still a certain gap with the requirements of the national top-level design.
Keywords: topic model? ? public data? ? cluster analysis? ? policy comparison
Fund project(s): This work is supported by the 2021 Major Project of the National Social Science Fund of China titled “Research on the System and Capacity Building of Public Data Open and Utilization for Digital Development” (Grant No. 21&ZD336), and the General Research Project on Higher Education Teaching Reform in Heilongjiang Province titled “Research on Promoting the Connotation Development of Universities through Innovation and Entrepreneurship Education Reform in the New Era” (Grant No. SJGY20210720).
Author(s): Wang Jin, PhD candidate, E-mail: 809630403@qq.com; Sun Ruiying, professor, postdoctoral fellow, doctoral supervisor.
Received: 2023-09-19? ? Published: 2024-02-27