999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的政府數據開放平臺在線評論內容特征分析

2023-12-31 00:00:00王麗雅龐曉楠
圖書館研究與工作 2023年9期

摘 要:政府開放數據平臺是連接用戶和數據的重要橋梁。文章從用戶利用的視角出發,采用Tf-idf特征提取、詞云圖、社會語義網絡圖等深度挖掘文本內容,展示用戶需求的熱門數據并及時找到存在的問題,從而提出優化內容服務、增強互動設計、完善反饋解答以及規范隱私保護四個方面的建議。通過對政府數據開放平臺的用戶反饋評論數據的挖掘,為我國政府開放數據平臺的發展提供參考建議。

關鍵詞:文本挖掘;用戶反饋;政府數據開放平臺;開放數據

中圖分類號:G252.0 文獻標識碼:A

Text Mining-Based Analysis of Online Comments on Government Open Data Platforms

Abstract The government open data platform is an important bridge connecting users and data. This article starts from the perspective of user utilization, and uses techniques such as Tf-idf feature extraction, word cloud, and social semantic network analysis to deeply mine the content of user feedback and showcase the popular data needs while timely identifying existing problems. Based on this, it proposes four suggestions for refining content services, enhancing interactive design, improving feedback and answers, and regulating privacy protection. By mining user feedback data on the government open data platform, this study provides reference suggestions for the development of China's government open data platform.

Key words text mining; user feedback; government data open platform; open data

1 引言

政府數據開放是信息技術、政治和社會發展到一定階段的產物[1],而政府數據開放旨在讓用戶參與來創造公眾價值[2]。我國高度重視政府數據開放并加快政府數據開放平臺建設。2020年4月,國務院頒布的《關于建立更加完善的要素市場配置機制的意見》中指出,要推進政府數據開放共享,提升社會數據資源價值,“迎接數字時代,激活數據要素潛能”被確立為戰略布局重要內容。截至2022年10月,我國已有208個省級和城市的地方政府上線了數據開放平臺,基本實現了公共數據的平臺化服務。但是中國目前尚未建成全國性的政府數據開放平臺,“數林”的整體格局模式尚未形成[3]。

為了更加精準、有效地為用戶提供數據服務,讓開放數據創造更大的經濟和社會價值,深入研究平臺用戶反饋具有重要意義[4]。通過對政府數據開放平臺的用戶反饋評論數據進行挖掘,結合詞云圖和社交網絡的語義關系進行可視化分析,展示用戶需求的熱門數據并及時找出平臺建設過程中存在的問題,為政府數據開放平臺更好滿足用戶需求提供有效借鑒,以期提高我國政府數據開放平臺的建設水平。

2 相關研究概述

從現有研究來看,我國學者主要采用定性和定量相結合的方法,從不同維度對不同國家、地區的開放數據平臺進行探討。如黃如花[5]在數據生命周期理論的指導下,以多個開放數據的生命周期模型為基礎,建立了一個完整的政府數據開放共享標準體系。付熙雯和鄭磊[6]則提出開放數據的動態體系,提出我國開放數據工作要從系統、動態的角度來看待問題、推動工作,以社會、市場需要為起點,以公共利益為終極目的,開放與應用并重,政府與社會共同努力,與政策、管理和技術同時進行,促進開放數據的良性循環。姬卓君和馬海群[7]運用AHP(Analytic Hierarchy Process, 層次分析法)方法,從政策、數據、開放數據平臺三個層面對中國9個地區的開放數據平臺進行評價,并基于中國大多數的城市數據質量較低且較差的評價結果給出相應的對策。程風、邵春霞[8]從歷史、能力和外部因素三個層面對中國19個省市的政府數據開放程度進行研究,運用模糊集定性比較分析方法對其進行具體的分析。鄧勝利、夏蘇迪[9]針對開放數據平臺的建設情況,從數據層和平臺層2個層面的11個維度對中美城市政府開放數據平臺的發展現狀進行了對比分析,根據對比分析得出的問題提供對策。

現有研究主要從指標、理論設計和實證等方面進行了分析,對中國政府數據開放平臺建設的現狀進行了深入的探索,并對其進行了相應的優化和改進,以提高我國政府數據開放水平。政府數據開放平臺的用戶是實際的數據使用者,通過對用戶反饋評論數據進行文本分析,我們可以了解平臺的服務和功能是否真的讓用戶滿意。在目前的研究中,最常使用比較分析、文獻分析等定性研究和描述性分析相結合的方法。與此同時,由于人工智能和機器學習等技術的廣泛應用,使得傳統的實證研究在時間和空間上受到限制,導致了研究效率低下,而大數據時代的來臨,使我們有機會更新研究方法,對政府數據開放平臺的服務質量進行更加科學、有效的評估。

因此,本文從用戶角度出發,以我國建議反饋功能模塊較為完善的浙江省政府數據開放平臺為例,收集了大量的用戶反饋評論數據,運用文本挖掘的方法對其進行分析,力圖通過文本內容特征體現出更加真實、準確的信息。然后根據反饋的內容,及時找出問題所在,并針對這些問題提出相應的改進措施,從而提高我國政府數據開放平臺的建設水平。

3 研究設計

3.1 研究思路

通過網絡爬蟲采集浙江省政府數據開放平臺用戶反饋評論數據,并對數據進行數據清洗、中文分詞和去除停用詞等預處理[10];對預處理后的數據提取特征詞,對評論數據進行詞頻分析并制作詞云圖[11];最后利用ROST CM6內容挖掘系統軟件(ROST Content Mining6)對數據進行語義網絡分析,生成詞頻數據和語義網絡可視化圖像[12]。具體流程如圖1所示。

3.2 數據獲取及預處理

3.2.1 數據采集

本研究以浙江省政府數據開放平臺為數據采集對象,以其用戶反饋評論數據作為研究對象進行文本挖掘研究。將該平臺子欄目下的互動文本數據進行歸類,分為“數據需求”“平臺體驗”“數據糾錯”三大模塊,使用Python采集浙江省政府數據開放平臺用戶反饋評論數據。收集時間為2022年11月1—2日,采集信息共845條,部分評論數據如表1所示。

3.2.2 數據預處理

(1)數據清洗。為了增強數據分析的可信性,對原始的評論進行了必要的清理和刪除,文本信息去噪(刪除了重復以及不相關的評論),減少了對分類的影響。最后把剩余的802條評論數據作為樣本數據保存到.txt文件中。

(2)文本分詞。在文本挖掘的過程中,將評論語句拆分成單個的詞語,以便于分析語句的特性進行更好的處理。jieba詞庫是中文分詞系統中效果最好的中文分詞組件之一,主要有三種類型:精確模式、全模式和搜索引擎模式。本文采用jieba算法對爬取得到的數據進行文本分詞處理(精確模式)。中文分詞的步驟是:將用戶的反饋信息輸入到. txt文件中,把jieba文件裝入Python;進行代碼的分詞,為了優化分詞的效果,根據實際情況,在編程中加載了自定義詞典;在分析結果時,如果單詞長度為1,可解釋性較弱,因此要選取長度超過1的單詞,才能更好地理解結果[13]。

(3)去除停用詞。那些在文本分類中沒有任何實際意義但卻頻繁出現的詞被稱為“虛詞”,即停用詞,刪除停用詞后可以更加準確地傳達文章的主旨,避免某些不必要的詞匯會影響分析[14]。在哈爾濱工業大學自然語言處理實驗室停用詞典中,添加了一些自定義的詞匯(主要是標點符號、官方網站回復的禮貌用語以及省市的名稱)。在語料庫中適當降低停用詞出現的次數,有助于我們對關鍵詞的精煉,使其更加集中、突出[15]。

4 實例分析

4.1 基于詞云圖的高頻詞分析

基于上述劃分的模塊,按不同類目(標題詞頻、問題描述、回復詞頻)利用Tf-idf算法對文字進行特征抽取,其主要依據單詞在一段文字中出現的頻率和在各個語料庫中的使用頻率,以此來反映該詞的重要性。這種方法能夠區分詞頻中詞匯的重要性。如果某一詞在一文本中的頻率較高,而在詞庫中又很少見,則該詞為本文的關鍵詞;相反,如果這個詞在語料庫中所有的文本中都是高的,則該詞的重要性就會降低。

Tf-idf的值越大,說明這個特征詞對用戶反饋評論數據的重要性越高[16]。根據Tf-idf的計算結果,提取三個模塊前20個特征詞,如表2所示。“數據”“信息”“申請”“接口”“平臺”“開放”“數量”等特征詞尤為顯著,說明這幾個特征詞在政府數據開放平臺的用戶反饋評論數據中具有較高的重要性[17]。

為了更好地展現用戶在反饋過程中所關心的問題和需要,本研究采用了“詞云圖”來進行特征可視化。詞云圖中的文字大小可以看出這個詞在所有評論中的重要程度,通過詞云圖可以看出文本所要表達的主要含義。

按不同類目(標題詞頻、問題描述、回復詞頻)繪制詞云圖進行可視化,如圖2—圖4所示。獲取主題并追蹤原文,使其更加準確地對主題詞加以解讀。

由圖可見,在“數據需求”中,“企業”“人口”“資源”等標題出現頻率較高,表明大部分用戶存在獲取企業信息、旅游資源數據、地級市人口數量等的傾向。在“數據糾錯”中,“數據”“信息”存在著“缺少對應格式”、“打不開”以及“地址報錯”,平臺部分功能使用存在技術問題等。在“回復詞頻”中,我們發現在解答用戶反饋的問題時,出現了特征詞“無法”“深表抱歉”等,不能真正解決用戶的問題,還可能使用戶產生消極情緒,認為反饋是一種無意義的行為。

4.2 基于語義網絡的共現分析

通過文本特征提取和詞云圖分析后,可以很直觀地了解到政府數據開放平臺的用戶所關注和重視的若干要素,但不能發現這些要素的關聯[18]。我們需要采用語義網絡分析的方法直觀地分析特征詞之間的聯系,并且通過語義網絡分析的節點,進一步探究用戶反饋評論數據中存在的其他特征。

本研究采用ROST CM6的內容挖掘系統對用戶的評論文本進行社會網絡和語義網絡的分析。ROST CM6是由武漢大學沈陽教授團隊研發的國內目前唯一輔助人文社會科學研究的計算平臺,它把分詞結果導入軟件中,然后按順序生成共現語義網絡以及共現矩陣詞表等。生成的共現矩陣如表3所示,共現語義網絡如圖5所示。

分析共現矩陣可以看出,用戶反饋評論形成了以“數據”為中心的評論網絡。共現矩陣展示了各個高頻詞之間的共現關系。其中“數據-問題”(260次)、“數據-平臺”(167次)、“部門-主體”(65次)多次共現說明了高頻詞之間的親疏關系,這有助于平臺挖掘高頻詞背后更深層次的聯系。

由共現語義網絡圖可見,“信息”“數據”節點處于網絡圖的中心位置,其他節點向四周發散分支出一些密切相關的話題。在中心節點附近分布著一些一級核心詞,“開放”“申請”“接口”“公開”等詞緊緊圍繞中心節點,可以看出用戶普遍關注平臺數據資源的建設現狀,通過分析用戶反饋評論數據的相關內容發現,用戶比較關注平臺的API數據接口、數據應用數據獲取等數據服務。此外,“政府采購”節點也具有一定的中心性,主要涉及省級政府采購、年度政府采購以及收入等方面的內容。值得關注的是,共現語義網絡圖中“大學”“研究生”“科研”“論文”這幾個節點聯系十分緊密,說明用戶關注高校以及科研論文的數據,體現了用戶對教育文化等方面信息的需求。通過特征詞之間的共現關系可以很清楚地看到用戶所關心和重視的方面,政府數據開放平臺仍需根據用戶切實需求不斷提升數據服務。

5 服務優化路徑

對于用戶而言,反饋的建議得到采納并得到解決,將會大大提高其參與積極性,從而形成一個良性的反饋循環,為今后政府數據開放平臺的發展奠定堅實的基礎。本文根據前文的文本挖掘結果和語義網絡中的主題詞,總結出未來平臺應當改進的方向。

5.1 優化內容服務,推進數據“驅動”

通過對調查結果的分析,發現目前用戶更傾向于獲取平臺數據資源現狀以及教育文化、行業資源等方面的數據。但是,用戶的需求是動態的,政府應當綜合用戶反饋以及時事熱點不斷調整更新,開放數據平臺所提供的信息應符合政策導向,注重對熱點區域的采集,并根據用戶的喜好對其進行個性化的推薦,以最大程度地為用戶提供高質量的目標數據。保證“新鮮”的數據并對數據及時更新,為用戶提供精細化的“新鮮”數據。只有如此,政府數據開放平臺的數據才能真正發揮作用,從而推動經濟和社會發展。

5.2 增強互動設計,打造數據交流園地

在對用戶反饋的平臺體驗進行分析時,發現了其存在互動功能交流不足的問題。針對這一問題,政府部門應該以用戶體驗為抓手,加強用戶的主動服務意識,并完善平臺的各項用戶參與功能設計,比如建立信息分享機制,讓用戶可以在微博、朋友圈等社交平臺上共享數據;增強信息交流和互動功能,讓用戶提交數據及請求、反饋問題并鼓勵用戶對開放數據進行打分和評論。通過提供個性化的信息服務,突破用戶之間的交流障礙,方便用戶間的信息交流。

5.3 完善反饋解答,保證回應質量

在解答用戶反饋的問題時,“對此深表歉意,后續如有更新,這邊會進行同步更新”等不具體的回答不在少數。這樣的解答不僅無法解決用戶的問題,反而會產生反效果,使用戶覺得該行為是毫無意義的。因此,應該加強政府部門回應的質量,在信息技術部門的協助下,通過培訓提高政府工作人員的專業技能及協調能力;建立特定的問題解答模板,如問題描述、解決時間、處理機構、舉報郵箱等,做好反饋解答的定期檢查工作,對問題進行復查,解決問題并加以改進。增強用戶對政府的信任,便于用戶通過數據進行科研創新,促進社會發展。

5.4 規范隱私保護,培育數據文化

政府數據開放意味著政府要承擔數據信息泄露的風險和數據隱私保護的責任。在保障機制方面,政府要妥善處理數據公開與隱私之間的關系,明確數據公開和保密的范圍,加快制定數據、信息安全與隱私保護方面的法律法規。從長遠考慮,政府部門還應當培養公民的數據權利意識,通過培訓、宣傳等方式促使數據觀念深入人心,從而增強用戶的個人數據保護素養,強化數據保護意識[19]。

6 結語

本文采集了浙江省政府數據開放平臺的用戶反饋評論數據,結合詞云圖和社交網絡的語義關系對其進行可視化分析,定位痛點,優化服務。本文提出了一種基于文本挖掘的新思路,對傳統的調查方法進行補充,以期為其他政府信息公開平臺的建立和完善提供參考。但值得注意的是,本文的研究對象僅以一個地方政府數據開放平臺為主,樣本數量較少,數據源有待進一步補充豐富。

參考文獻:

[1] 肖冬梅,蘇瑩.我國政府數據開放中的安全風險及其防范對策[J].現代情報,2022,42(6):112-120,131.

[2] 劉桂琴.政府數據開放平臺用戶評論情感差異分析[J].數字圖書館論壇,2019(2):18-23.

[3] 雷玉瓊,蘇艷紅.地方政府數據開放平臺發展模式及績效差異[J].中國行政管理,2020(12):40-46.

[4] 李冠,趙毅.基于在線評論的政府數據開放平臺用戶增量需求研究[J].數字圖書館論壇,2022(12):37-46.

[5] 黃如花.我國政府數據開放共享標準體系構建[J].圖書與情報,2020(3):17-19.

[6] 付熙雯,鄭磊.開放政府數據的價值測量:特征與方法的比較研究[J].圖書情報工作,2020,64(19):140-152.

[7] 姬卓君,馬海群.我國政府數據開放狀況評價分析[J].圖書情報研究,2018,11(1):12-19.

[8] 程風,邵春霞.中國省級政府數據開放水平的驅動機制研究[J].情報雜志,2022,41(3):198-207.

[9] 鄧勝利,夏蘇迪.中美城市政府開放數據平臺對比研究[J].圖書館雜志,2019,38(6):57-68,75.

[10] 陳俊宇,鄭列.基于R語言的商品評論情感可視化分析[J].湖北工業大學學報,2020,35(1):110-113.

[11] 黃蘇雨.基于情感分析的LDA模型在在線評論中的運用[J].現代營銷,2018(1):82-83.

[12] 張振華,許柏鳴.基于在線評論文本挖掘的商業競爭情報分析模型構建及應用[J].情報科學,2019,37(2):149-153,160.

[13] 畢達天,楚啟環,曹冉.基于文本挖掘的消費者差評意愿的影響因素研究[J].情報理論與實踐,2020,43(10):137-143.

[14] 馬松岳,許鑫.基于評論情感分析的用戶在線評價研究:以豆瓣網電影為例[J].圖書情報工作,2016,60(10):95-102.

[15] 董爽,王曉紅,葛爭紅.基于文本挖掘的B2C購物網站在線評論內容特征分析[J].圖書館理論與實踐,2017(6):54-58.

[16] 張公讓,鮑超,王曉玉,等.基于評論數據的文本語義挖掘與情感分析[J].情報科學,2021,39(5):53-61.

[17] 楊九龍,鮑慧璐.用戶在線評論省級公共圖書館內容挖掘與情感分析[J].圖書館學研究,2021(21):10-17.

[18] 池毛毛,潘美鈺,王偉軍.共享住宿與酒店用戶評論文本的跨平臺比較研究:基于LDA的主題社會網絡和情感分析[J].圖書情報工作,2021,65(2):107-116.

[19] 楊瑞仙,毛春蕾,左澤.國內外政府數據開放現狀比較研究[J].情報雜志,2016,35(5):167-172.

作者簡介:王麗雅,沈陽建筑大學圖書館館長,研究館員,研究方向為圖書館管理;龐曉楠,沈陽建筑大學計算機科學與工程學院碩士研究生,研究方向為政府數據開放、圖書館管理。

收稿日期:2023-01-03本文責編:王曉琳

* 本文系遼寧省高等學校圖書情報工作委員會基金項目“館、社、商三方合作背景下的高校圖書館服務創新機制與實踐研究”(項目編號:LTB201904)的成果之一。

主站蜘蛛池模板: 午夜爽爽视频| 97久久人人超碰国产精品| 性欧美久久| 亚洲AⅤ永久无码精品毛片| 欧美国产日韩在线观看| 亚洲第一区精品日韩在线播放| 免费无码网站| 又黄又湿又爽的视频| 人妻精品全国免费视频| 秋霞午夜国产精品成人片| 免费全部高H视频无码无遮掩| 日本一本在线视频| 91色爱欧美精品www| 亚洲一区二区三区国产精品| 亚洲a级毛片| 99ri精品视频在线观看播放| 99视频在线免费| 亚洲欧美日韩高清综合678| 欧美一区中文字幕| 97国产在线播放| 免费xxxxx在线观看网站| 亚洲国产天堂久久综合| 亚洲国产午夜精华无码福利| 国产男女XX00免费观看| 欧美日韩成人| 成人在线亚洲| AV在线天堂进入| 日韩在线视频网站| 精品一区国产精品| 精品国产成人国产在线| 中文字幕在线看| 91色老久久精品偷偷蜜臀| 欧美成人区| 狠狠操夜夜爽| 麻豆精品在线| 亚洲午夜久久久精品电影院| 97国产精品视频人人做人人爱| 99久久国产综合精品2020| 欧美成人午夜在线全部免费| 国产亚洲欧美日韩在线一区| 国产黄色视频综合| 久久香蕉国产线看观看式| 国产香蕉国产精品偷在线观看| 伊人久久福利中文字幕| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产福利微拍精品一区二区| 亚洲视频一区在线| 欧美成人在线免费| 一区二区三区在线不卡免费| 日韩免费视频播播| 91青青在线视频| 免费观看国产小粉嫩喷水| 中文字幕资源站| 久久这里只有精品免费| 婷婷六月天激情| 欧洲高清无码在线| 午夜视频在线观看区二区| 亚洲午夜综合网| 国产精品观看视频免费完整版| 国产午夜精品一区二区三| 2022国产91精品久久久久久| 99久久精品免费视频| 在线视频亚洲欧美| 成人福利免费在线观看| 在线播放真实国产乱子伦| 国产高清又黄又嫩的免费视频网站| 亚洲欧美日韩另类| 国产一级二级三级毛片| 精品人妻AV区| 久久夜夜视频| 久久伊伊香蕉综合精品| 色综合久久久久8天国| 国产男女免费完整版视频| 成人在线不卡视频| 国产丝袜第一页| 99视频在线观看免费| 粗大猛烈进出高潮视频无码| 欧美成人区| 极品国产在线| 免费AV在线播放观看18禁强制| 亚洲精品动漫| 亚洲天堂久久新|