








摘" 要:研究旨在通過分析湖南省政府數據開放平臺的用戶反饋評論數據,識別公眾在教育、職業資格認證、農村發展、養老保險、基礎設施建設等領域的關注點與需求,并提出相應的政策改進建議。采用文本挖掘技術,使用Python對評論數據進行采集和預處理,并通過BERTopic模型提取主題,揭示公眾主要關注的領域。研究結果顯示,公眾在教育、農村發展、醫療、退役軍人就業等方面有較高關注。基于此,提出了提升就業服務、加強政府溝通、完善養老保險制度、提供退役軍人就業支持四項改進建議,以提高政府公共服務質量。
關鍵詞:政府數據開放;BERTopic模型;主題分析
中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2025)04-0087-06
Identification and Analysis of User Demand Themes for Government Open Platforms Based on BERtopic Model
—A Case of the Hunan Provincial Government Open Platform
ZHENG Ang, PENG Jiyang
(Tourism College of Jishou University, Zhangjiajie" 427000, China)
Abstract: By analyzing the user feedback comment data from the Hunan provincial government open data platform, this research aims to identify the public's concerns and needs in education, professional qualification certification, rural development, pension insurance, infrastructure construction and other fields, and propose corresponding policy improvement suggestions. It uses text mining techniques, employs Python to collect and preprocess the comment data, and extracts topics through the BERTopic model, revealing the main fields of public concern. The research results indicate that the public shows significant attention to education, rural development, healthcare, and employment for veterans. Based on these findings, four recommendations for improvement are proposed, including enhancing employment services, improving government communication, refining the pension insurance system, and providing employment support for veterans, so as to improve the quality of government public services.
Keywords: government open data; BERTopic model; topic analysis
0" 引" 言
推動數據資源開放共享是建設網絡強國和推進國家治理體系現代化的必要條件。這不僅是政府推進數字化轉型和信息公開的重要抓手,也是實現政府職能轉變和便民服務提升的關鍵路徑。我國高度重視政府數據開放,積極推進相關平臺的建設進程。2020年4月,國務院發布《關于建立更加完善的要素市場配置機制的意見》,要求完善政府數據管理,安全有序開放公共數據,推動建立國家數據平臺,提升數據資源共享與利用效率,服務社會。
截至2023年8月,我國已建成了226個地級及以上的政府數據開放平臺,公共數據的平臺化服務取得了顯著進展。湖南省在2020年上線了政府數據開放平臺,上線時間相較于其他省市處于滯后狀態。根據中國數林指數網的數據,湖南省的數林指數較低,在全國22個已建設政府數據開放平臺的省份中排名第15位。隨著社會的快速發展,公眾尤其是潛在數據使用者,對政府開放數據的需求不斷增加,且對數據的質量和數量提出了更高的要求。
為進一步提升數據開放水平,湖南省需要著力加強數據資源的質量控制和更新機制,保障數據的時效性、準確性和完整性,對平臺用戶的反饋進行深入研究尤為重要。通過對湖南省政府數據開放平臺的用戶反饋數據進行挖掘,并結合詞云圖進行可視化分析,不僅為提升政府數據開放平臺的用戶滿意度提供了有益參考,也為提升政府數據開放平臺的建設與服務水平提供了有力支持。
1" 相關研究綜述
現有研究表明,我國學者從多重維度對不同國家和地區的開放數據平臺進行深入分析,旨在揭示其實施效果與優化路徑。王今等[1]基于數據開放和數據質量的特征,運用層次分析法構建了政府數據開放用戶滿意度評價體系,為政府數據開放數據的質量評價提供了用戶視角的評價。黃如花等 [2]采用循證政策研究方法,從基礎設施層、數據管理層和政府治理層三個維度構建了政府數據開放共享標準體系。
馬仁杰等[3]學者著眼于開放水平、社會滿意度和應用程度三個維度,構建了基于價值的政府數據利用狀態模型。顧嘉琪等[4]基于公眾需求建立了“質量屋”模型,并按照需求優先級進行排序,提出了提升政府數據開放服務質量的對策。范晨雪[5]通過梳理政府及交通類開放數據的發展現狀,分析我國7個省級政府門戶交通類數據的不足,借鑒英國經驗,提出從機構、政策、數據質量和公眾參與五方面改進的建議。鄧勝利等[6]通過對中美8個城市政府開放數據平臺的現狀進行定量與定性結合的對比分析,提出了加強數據管理、優化用戶體驗、完善標準和立法保障等提升我國城市政府開放數據平臺的對策。
盡管國內相關領域的學者對政府數據開放平臺建設現狀進行了廣泛而深入的比較分析,并提出了多項針對性的建議和對策,但專注于提升政府開放數據平臺服務質量以滿足公眾需求的研究仍較為不足。針對湖南省政府數據開放的現狀,本文將在上述學者研究的基礎上,從用戶角度出發,采用網絡爬蟲收集用戶的政務反饋數據,對采集到的非結構化文本數據進行處理,通過構建BERTopic主題模型探析用戶所關注的熱點主題,針對主題模型的結果識別問題并提出相應改進措施,以提升政府數據開放平臺的服務質量。
2" 研究設計
2.1" BERTopic模型
BERTopic是基于BERT預訓練模型的主題建模方法,通過結合BERT嵌入和c-TF-IDF創建密集的集群,易于解釋主題的同時,也可在主題描述中保留關鍵詞語[7]。與傳統的主題建模方法相比[8],BERTopic利用了預訓練的BERT模型的語義信息,能夠更好地捕捉詞語間的語義關系,自動識別潛在主題以便對文本進行有意義的分組和分類,并能夠實時更新主題模型以反映新數據。該方法能夠根據聚類結果生成可解釋的主題標簽,方便理解和分析聚類結果。
目前BERTopic已在文本主題提取領域得到廣泛使用,部分學者將其應用于結構化文本文獻的主題提取[9],用于識別學科領域的研究主題熱點與演變的過程。因此,本文基于BERTopic模型對政府政務平臺的用戶評論進行研究,以便進行用戶需求主題提取,并識別出各個需求主題下更細粒度的用戶需求。
2.2" 研究思路
通過設置網絡爬蟲對湖南省政府數據開放平臺用戶反饋的文本數據進行采集,利用Python的Pandas、Jieba等庫對非結構化文本數據進行清洗,包括過濾高頻無意義詞語、符號等;基于分詞后的文本數據進行詞頻分析并制作詞云圖;最后利用BERTopic模型對數據進行主題可視化分析,生成詞頻數據和主題可視化圖像。具體流程如圖1所示。
2.3" 數據獲取及處理
2.3.1" 數據采集
本研究以湖南省政府數據開放平臺作為數據采集對象,選取其用戶反饋的文本數據進行挖掘分析。首先,對該平臺“陽光服務”子欄目中的公眾反饋的文本數據進行整理,然后設置Python爬蟲對湖南省政府數據開放平臺用戶反饋的文本數據進行采集。數據收集時間為2024年6月1日,共采集到500條用戶需求信息,部分評論數據如表1所示。
2.3.2" 數據預處理
為便于文本數據分析,首要要對原始評論數據進行必要的預處理。具體操作包括刪除空值或重復、無關的評論,以減少對后續處理結果所帶來的干擾。最終,將處理后的500條文本數據作為樣本以.csv文件格式進行存儲。
在文本分類中,頻繁出現但沒有實際意義的詞被稱為“虛詞”或停用詞。刪除這些停用詞可以更準確地傳達文本的主旨,避免不必要的詞匯影響分析[10]。對于爬取到的500條用戶反饋文本,首先使用中文停用詞表過濾掉高頻無意義詞語和符號,然后對文本信息進行分詞處理,提取出已分詞的摘要文本信息。
接下來,應用HDBSCAN算法對文本進行聚類,并通過UMAP方法對文本數據進行降維處理,將文本信息嵌入到低維空間中。接著,使用c-TF-IDF方法提取文本的主題,并展示主題結果。最后,通過BERTopic模型進一步分析和處理文本主題,對整個分析過程進行總結歸納并得出結論。
3" 實例分析
3.1" 基于詞云圖的高頻詞分析
為更清晰地呈現用戶關注的問題和需求,本研究采用TF-IDF算法對文本進行特征提取,TF-IDF算法算法依據單詞在文本中的出現頻率和在整個語料庫中的使用頻率來衡量其重要性。通過“詞云圖”對特征進行可視化展示,詞云圖中單詞的大小反映了其在評論中的重要性,從而幫助揭示文本的主要含義。對數據進行預處理工作,將非結構化文本結構化。生成的詞云圖如圖2、圖3所示。
圖2展示了湖南省政府數據開放平臺用戶反饋評論中的高頻關鍵詞。詞云中“政策”“辦理”“醫保”“考試”“補貼”“標準”等詞匯占據了顯著位置,表明用戶在評論中頻繁討論與政策、醫保、考試、補貼、標準等相關的話題。這些關鍵詞的大小和顏色直觀反映它們在評論中出現的頻率,字體較大的詞匯代表更高的頻率,體現了用戶關注的熱點問題。
圖3展示了用戶評論中頻繁提到的湖南省各政府部門和機構名稱。詞云中,像“省人力資源社會保障廳”“省發展改革委”“省醫保局”“省教育廳”等詞匯占據了顯著位置,表明這些部門在用戶評論中提到的頻率較高。較大的字體表示該部門被提及的次數較多,反映了公眾對這些部門工作的關注和討論熱點。
3.2" BERTopic模型
運行BERTopic模型后,文檔被劃分為不同的主題集合,每個集合代表一個特定的主題。最終獲得了公眾需求的7個主題。每個主題集合中包含若干主題詞,這些詞語最能代表該主題的內容,如表2所示。
3.3" 主題分析
圖4展示了七個主題(Topic)的關鍵詞和對應的詞頻得分,每個主題都有一組關鍵字,反映了該主題的主要內容,清晰地展示了各主題的主要內容和關注點。
主題0為關鍵詞為教師、資格證、考試、事業單位、畢業生,主要涉及教育相關的話題,如教師資格證考試和畢業生的就業問題;主題1關鍵詞為農村、標準、養老保險、政策、農民,集中于農村發展和養老保險等政策相關內容;主題2關鍵詞為高速公路、高速、規劃、建設、湖南,與基礎設施建設相關,特別是高速公路的規劃和建設。主題3關鍵詞為生育、產假、獨生子女證、人口、計劃生育,圍繞生育政策和產假等內容展開,涉及人口和計劃生育政策;主題4關鍵詞為2019、藥師、執業、醫師、年度,主要討論藥師和醫師的執業資格及相關年度評估。主題5關鍵詞為退役軍人、退伍軍人、高職、院校、軍人,與退役軍人和高等職業教育相關的主題。主題6關鍵詞為醫保、門診、報銷、社保卡、肺炎,聚焦于醫療保險和門診報銷等醫療保障話題。
圖5展示了不同主題的概率分布,每個條形代表一個主題及其相應的概率值。概率值越高,表示該主題在數據集中出現的頻率越高,反映出該主題在用戶反饋中的重要性和關注度。其中主題0:教師、資格證、考試、事業單位、畢業生以及主題6:醫保、門診、報銷、社???、肺炎概率接近1,表示這兩類主題在數據集中占據非常高的比例。
通過文本特征提取和詞云圖分析,能夠直觀地了解用戶對政府數據開放平臺所關注和重視的各類要素,但這些要素之間的關聯性尚未顯現。為此,需要采用可視化方法進一步直觀分析特征詞之間的聯系,進一步探究用戶反饋評論數據中存在的其他特征。
如圖6所示,主題分布圖譜展示了文檔與主題的關系,不同聚類的點代表不同的主題。圖中顯示,教師資格證考試相關的文檔集中在右下方,農村標準和養老保險相關的文檔在左上方,高速公路和規劃相關的文檔在左下方,生育和產假相關的文檔在右上方,藥師執業相關的文檔在右下方,退役軍人和高職相關的文檔在右上中位置,而醫保和門診報銷相關的文檔則集中在圖的中間靠右。此圖直觀地展示了各主題的聚類情況及其在文檔中的分布。
圖7展示了層次聚類的結果,通過樹狀圖顯示了不同主題之間的相似性和層次結構。橫軸表示相似度度量。數值越小,表示主題之間的相似度越高,距離越近;數值越大,表示主題之間的相似度越低,距離越遠。縱軸列出了不同的主題及其關鍵詞。圖中上下兩部分代表不同的聚類分支。每個分支連接的主題表示這些主題在一定相似度下被聚類在一起。
“主題4:2019、藥師、執業”和“主題6:醫保、門診、報銷”在較高的相似度下被聚類在一起,說明它們之間的內容相關性較高;主題3(生育、產假、獨生子女證)與前兩個主題有較高的相似度,說明這些主題在某些方面有共同點;主題5(退役軍人、退伍軍人、高職)與上述三個主題在較高相似度下聚類,說明它們之間也有一定的內容關聯。
主題0(教師、資格證、考試)和主題1(農村、標準、養老保險)在較低相似度下聚類,表示它們之間的內容相關性較低;主題2(高速公路、高速、規劃)與前兩個主題在更低相似度下聚類,進一步表明其內容差異較大。
橫軸上的數值表示主題之間的相似度(或距離)。數值越小,表示主題之間的相似度越高;數值越大,表示相似度越低。主題4和主題6之間的相似度最高,而主題0和主題2之間的相似度最低
通過這張層次聚類圖,可以直觀地觀察各個主題之間的相似關系以及它們如何逐步聚類在一起。這種可視化方法有助于理解不同主題的關聯性和層次結構。
4" 相關建議
本研究通過對湖南省政府數據開放平臺用戶反饋評論數據的文本挖掘和分析,揭示了公眾在教育與職業資格認證、農村發展與養老保險、基礎設施建設、生育政策、醫療與藥師執業、退役軍人就業與職業培訓以及醫保與門診報銷等多個領域的關注和需求?;谶@些發現,本文針對提升畢業生就業指導服務、加強政府部門協調與公眾溝通、完善農村養老保險制度以及提供退役軍人就業支持,提出了一系列具體的改進措施。以下是各個重點領域的結論與建議。
4.1" 提升畢業生就業指導服務
研究結果顯示,公眾對畢業生就業問題高度關注,尤其是職業規劃和就業培訓的需求較為迫切。政府應加強職業規劃指導,通過高校與政府部門聯合開展職業規劃講座和工作坊,幫助畢業生明確職業目標,提升就業能力。同時,提供多樣化就業培訓,政府應與企業合作,提供實習機會和技能培訓課程,確保畢業生具備市場所需的技能。建立就業信息平臺,開發并推廣便捷的就業信息平臺,實時發布招聘信息和就業政策,為畢業生提供全面的就業支持。此外,加強校企合作,推動高校與企業建立長期合作關系,開展定向培訓和校園招聘活動,提高畢業生的就業率和就業質量。
4.2" 政府部門協調與公眾溝通
為了提高政府工作效率和公眾滿意度,必須加強各部門間的協調與公眾溝通。政府應建立跨部門協作機制,定期召開跨部門會議,協調政策制定與實施,確保各項工作無縫銜接。提升信息公開透明度,及時在政府官方網站和社交媒體平臺上發布政策信息和工作進展,增強政府工作的透明度和公信力。多渠道聽取公眾意見,通過熱線電話、在線咨詢、意見箱等多種渠道,廣泛收集公眾反饋,及時回應公眾關切。加強宣傳和教育,通過宣傳手冊、公開課和社區活動等形式,向公眾普及政府政策和服務,提升公眾對政府工作的理解和支持。
4.3" 完善農村養老保險制度
農村養老保險制度的完善對于保障老年農民的基本生活具有重要意義。政府應簡化參保手續,減少辦理流程和所需材料,方便老年人參保和享受養老保險待遇。增加財政補貼,政府應加大對農村養老保險的財政投入,確保養老金能夠滿足老年人的基本生活需求。定期開展政策宣傳,通過村委會、廣播、張貼公告等方式,向農村居民宣傳養老保險政策,提高政策知曉率和參與率。提供多元化服務,在養老保險的基礎上,開展老年人健康檢查、心理疏導和文化娛樂活動,提高老年人的生活質量和幸福感。
4.4" 提供退役軍人就業支持
退役軍人的就業支持對其順利融入社會至關重要。政府應建立專門的就業服務機構,在各地設立退役軍人就業服務中心,提供職業咨詢、技能培訓和就業推薦等服務。加強職業技能培訓,根據市場需求,為退役軍人提供免費的職業技能培訓課程,提升其就業競爭力。拓展就業渠道,政府應與企業、事業單位和社會組織合作,提供更多適合退役軍人的就業崗位。保障退役軍人權益,完善退役軍人就業保障政策,確保其在就業過程中享有公平待遇和合法權益。
5" 結" 論
綜上所述,通過系統的文本挖掘和分析,本研究不僅揭示了湖南省公眾關注的熱點問題,還為政府在提升公共服務質量和回應公眾需求方面提供了具體的改進措施。未來,政府應繼續加強數據分析和公眾反饋的收集,不斷優化政策和服務,提高行政效率,促進社會和諧發展。
參考文獻:
[1] 王今,馬海群.政府開放數據質量的用戶滿意度評價研究 [J].現代情報,2016,36(9):4-9.
[2] 黃如花,溫芳芳,黃雯.我國政府數據開放共享政策體系構建 [J].圖書情報工作,2018,62(9):5-13.
[3] 馬仁杰,金一鼎.價值實現視角下政府數據利用路徑研究 [J].圖書館學研究,2018(13):39-44+18.
[4] 顧嘉琪,袁莉.基于公眾需求的政府數據開放服務質量提升研究 [J].情報雜志,2020,39(6):196-202.
[5] 范晨雪.基于交通類數據集的我國政府開放數據分析 [D].太原:山西大學,2019.
[6] 鄧勝利,夏蘇迪.中美城市政府開放數據平臺對比研究 [J].圖書館雜志,2019,38(6):57-68+75.
[7] 左昊.基于技術創新政策的上海市技術創新路徑選擇研究 [D].上海:上海師范大學,2022.
[8] 徐振國,張琳,謝萬里,等.融合BERTopic和KANO模型的在線課程用戶需求挖掘研究——以Python在線課程為例 [J/OL].情報科學,2024:1-18(2024-05-07).http://kns.cnki.net/kcms/detail/22.1264.G2.20240506.1704.016.html.
[9] 胡凱茜,李欣,王龍騰.基于BERTopic模型的網絡暴力事件衍生輿情探測 [J].情報雜志,2024,43(7):146-153.
[10] 王麗雅,龐曉楠.基于文本挖掘的政府數據開放平臺在線評論內容特征分析 [J].圖書館研究與工作,2023(9):40-45.
作者簡介:鄭昂(2001—),女,漢族,湖南長沙人,碩士在讀,研究方向:公共管理與圖書館智庫建設;彭紀揚(2000—),男,漢族,湖南長沙人,碩士在讀,研究方向:自然語言處理與文本挖掘。
收稿日期:2024-09-29
基金項目:吉首大學研究生校級科研項目(Jdy23214)