999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向武漢市網絡問政的文本挖掘研究

2021-06-04 03:32:12王燦梁霄
科技視界 2021年12期
關鍵詞:群眾文本模型

王燦 梁霄

(湖北文理學院數學與統計學院,湖北 襄陽441053)

1 問題分析與挖掘目標

近年來,隨著互聯網技術的發展和盛行,大數據時代已悄然而至,群眾參與政府工作的途徑也越來越多,于是群眾留言信息成為網絡問政的產物。互聯網的普及加快了網絡問政的出現,它是信息技術快速發展和群眾積極性不斷提高的產物,它不但解決了群眾問政的時空障礙,而且可以讓群眾可以隨時了解政治動態并直接與政府溝通。

與此同時,網絡問政也成了學者的聚焦點。李傳君、李懷陽學者[1]通過分析政府回應網絡問政存在的問題,提出了構建良性的政府回應機制的相關建議;孟天廣、趙娟[2]討論了關于了網絡問政回應制度在我國的擴散發展態勢、制度管理體系設計、應用以及其運行管理模式,考察了政府在不同的管理制度模式下的網絡問政回應制度管理績效,為國家進一步建設現代化的具有回應性的政府提供了理論和實踐參考。沙勇忠[3]等學者探究政府與群眾互動行為對網絡問政制度的直接影響,使用文本挖掘技術和機器學習等方法,利用數據探索作為推論——分析統計檢驗的“數據驅動”研究理論模式,分析和識別并描繪了網絡問政問題中社會群眾與其他政府以及社會組織的其他網絡問政主體互動行為及有關話題的結構,進一步討論網絡問政制度效果的影響因素。

本文通過對武漢市政府網站上的群眾留言和回復建立分類模型,有助于提高效率,盡快將留言分派至相應的職能部門。通過對群眾留言信息的分析,可以及時發現群眾關心的熱點問題,有助于有關部門進行針對性地處理,提升政府的服務效率,對政府“智慧政務”的建立具有十分重要的意義。

我們從武漢市政府網站得公開信息中獲取數據,主要包括群眾留言和政府部門的回復,然后對獲取的數據進行分析,實施數據清洗、分詞和去停用詞等文本預處理操作,并根據分詞后的結果畫出高頻詞的詞云圖。本文主要研究的問題有對群眾留言信息進行分類、挖掘熱點問題以及對政府有關部門的回復進行評價。

2 數據預處理

本文使用Python中duplicated()方法檢查留言詳情中的重復對象,在重復的留言中,保留一個即可。中文分詞的目的就是將一個連貫的句子按照一定的分詞標準將其分成一個個具有獨立含義的詞[4]。分詞的好壞直接影響后期模型的準確率,它是文本挖掘的基礎。只有經過分詞處理,才能把原始的文本數據進行向量化處理。本文利用Python語言環境中的jieba工具包對文本進行分詞處理。在本文中,首先擴展了通用的停用詞表,然后又自定義了一些新的停用詞,將分詞處理過后所得到的詞與停用詞表進行匹配,若匹配成功,則刪除該詞,反之保留。

3 問題求解

數據中共包含7類一級標簽的9851條數據,在python語言環境中,對這些數據重新按標簽排列,標簽分別為勞動和社會保障、城鄉建設、教育文體、衛生計生、交通運輸、商貿旅游、環境保護。使用duplicated()方法檢查留言詳情中的重復對象,結果顯示有909條重復對象,刪除重復對象(保留第一個)后,還剩8942條數據。去重后各類標簽的文本數量如圖1所示。

圖1 去重后各類別情況

本文采取了通用停用詞表和自定義停用詞表對留言詳情進行分類。通過詞云圖來展示對留言詳情進行這一系列操作后的效果,讓讀者一眼便能看出主要內容。以勞動和社會保障類群眾留言詞云圖為例,如圖2所示。

圖2 勞動和社會保障類群眾留言詞云圖

TF-IDF是一種常見的加權方法,在計量單詞個數的基礎上,降低常見詞的比重,提高稀缺詞的比重。本文先將message(留言詳情)轉換成詞頻向量,再將詞頻向量轉換成TF-IDF向量,最后開始訓練分類器。本文使用了4種不同的機器學習模型,分別為:多項式樸素貝葉斯、線性支持向量機、邏輯回歸和隨機森林。這四種模型的準確率可視化圖如圖3所示。從箱體圖中可以看出隨機森林分類模型的準確率最低,主要是因為隨機森林屬于集成分類器——由許多子分類器組成,而集成分類器不適合用來處理高維數據,比如文本數據,因為文本數據有許多不同的特征值,使得集成分類器難以應付,另外三個分類器的平均準確率都在50%以上。其中線性支持向量機的準確率最高,故我們選擇支持向量機模型作為主要的挖掘方法。

圖3 4種機器學習模型的準確率

其中,準確率最高的是線性支持向量機模型,我們查看其混淆矩陣,并將其預測標簽和實際標簽之間的差異表示出來。混淆矩陣如圖4所示。混淆矩陣的主對角線顏色不同,其顯示的是預測正確的數量,而除了主對角線外,其他的都是預測錯誤的數量。從圖4的混淆矩陣中可以看出“教育文體”這一列除了對角線數字和為10,說明有10例預測錯誤,準確率較高;而“交通運輸”這一列除了對角線數字和為240,表明有240例預測錯誤,準確率較低。

圖4 線性支持向量機模型混淆矩陣

多分類模型一般使用ROC、F-Score等指標來評價模型,而不使用準確率評價,因為準確率反應的不是每一個分類的準確性,當訓練數據每一類的個數相差太大時,準確率就不可以反映出模型的真實預測精度。

從圖5中F1分數來看,“勞動和社會保障”和“商貿旅游”類的F1分數最高,達到80%,“交通運輸”和“環境保護”F1的分數較低,僅34%,主要原因可能是“交通運輸”和“環境保護”這兩類的數據較少,使得支持向量機模型學習的不夠充分,然后導致失誤較多。從該圖中還能看出線性支持向量機模型的精度為0.70,召回率為0.70,F1分數值為0.69,整體效果較好。

圖5 各個類的F1分數

主題模型(LDA)算法是數據挖掘與文本處理中一個非常實用的方法,通過概率分布的形式給出每篇文檔的主題,從文檔中提取實用的主題信息。對文字隱藏的主題進行建模,改正了以往信息檢索中文檔相似度計算方法的缺點。在進行LDA建模時,需要先確定主題數量K的值。主題數量K的值直接影響到最終結果的好壞。對于一個未知的分布,Perplexity(困惑度)越低,則說明模型效果越好。從圖6中可以看出,當主題數為12時,困惑度達到最低,故我們可以確定最優主題數為12。

圖6 困惑度隨主題數量的變化圖

根據確定的最優主題數訓練LDA模型,將群眾反映的多數一致的留言進行分類,然后建立熱度評價指標。本文采用了熱度排行Reddit算法。

根據預處理后的數據,我們建立群眾留言詳情的語料庫詞典,將答復意見通過doc2bow轉化為詞袋模型,對該模型進行進一步的處理,獲得新的語料庫,將其通過tfidfmodel處理,得到tfidf。通過計算token2id得到特征數,然后計算稀疏矩陣的相似度,建立索引,最后得到相似度結果。從結果中我們可以看出,政府答復意見和對應留言情況的相似度都大于0(主對角線元素全都大于0),說明政府的答復意見和群眾留言詳情之間有相關性。從結果中,我們還能看出相似度系數值都不高,究其原因,在實際生活中,答復意見都是根據留言內容而定的,一般來說,這兩者之間雖說的是同一個問題,但一個是問,一個是答,兩者之間的聯系僅僅是主題相同而已,其他內容都是不盡相同的,故就造成了相似度值不高這種現象。

4 總結與建議

本文的主要目的是利用文本挖掘和機器學習技術建立對武漢市網絡問政中群眾留言的多分類模型,并對模型進行評價。對于群眾留言分類,通過對4種機器學習模型的對比分析,本文選擇了線性支持向量機分類模型,其F1值達到了0.70,分類效果較好。對于熱點問題分析,通過進行LDA建模,首先確定了最優主題數為12,然后根據確定的主題數對留言詳情進行劃分,通過Reddit算法建立熱度評價指標,結果顯示噪聲擾民和強制學生去定點企業實習是熱度指數最高的兩個問題。建議相關部門多花費一些精力去解決這些熱點問題。對于留言回復的評價,通過計算留言詳情和政府答復意見的相似度,發現相似度值都大于0,從而說明了政府的答復意見和群眾的留言都是相關的。通過查看詞云圖和高頻詞,可以明顯看出,答復意見中的前幾個高頻詞中有“回復”“收悉”“調查”等,說明政府對留言詳情中所涉及的問題基本都進行了相應的調查并給予了答復,這些高頻詞表明了政府對所搜集到的留言都進行了答復,并進行了相應的調查去核實,這些高頻詞反映出政府答復意見的完整性和可解釋性都較好。

猜你喜歡
群眾文本模型
一半模型
始終和群眾融為一體
當代陜西(2021年6期)2021-07-22 06:48:48
多讓群眾咧嘴笑
當代陜西(2021年1期)2021-02-01 07:18:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“群眾來求助”等十六則
為群眾美好生活執著追求
人大建設(2018年1期)2018-04-18 11:29:59
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品极品美女自在线| 国产va在线观看| 91亚洲免费| 国产福利不卡视频| 一本视频精品中文字幕| 亚洲黄色激情网站| 亚洲制服丝袜第一页| 欧美日韩亚洲国产主播第一区| 久久网欧美| 国产丝袜一区二区三区视频免下载| 精品夜恋影院亚洲欧洲| 无码专区国产精品一区| 国产一区二区三区日韩精品| 国产浮力第一页永久地址| 亚洲中文字幕在线观看| 色播五月婷婷| 久久99国产精品成人欧美| 五月天久久综合| 亚洲床戏一区| 久久午夜夜伦鲁鲁片无码免费| 99re免费视频| 白丝美女办公室高潮喷水视频| 欧美a在线| 精品伊人久久久大香线蕉欧美 | 99热这里只有免费国产精品| 亚洲中文精品人人永久免费| 午夜小视频在线| 国产美女91视频| 成人国产三级在线播放| YW尤物AV无码国产在线观看| 国产最爽的乱婬视频国语对白| 91亚洲精选| 亚洲国产亚综合在线区| 国产特级毛片| 99精品视频在线观看免费播放| 亚洲国模精品一区| 亚洲中久无码永久在线观看软件| 日本手机在线视频| 激情無極限的亚洲一区免费| 看av免费毛片手机播放| 在线欧美一区| 久久综合结合久久狠狠狠97色 | 视频二区中文无码| 欧美a在线| 欧美人人干| 日本成人一区| 免费无码AV片在线观看中文| 91久久精品国产| 日韩毛片视频| 精品91视频| 国产一级在线播放| 欧美一级特黄aaaaaa在线看片| 凹凸精品免费精品视频| 国产日韩欧美成人| 天堂成人在线| 香蕉eeww99国产精选播放| 国产黄在线免费观看| 婷婷开心中文字幕| 国产精品分类视频分类一区| 无码中文字幕乱码免费2| 成人一级免费视频| 国产精品污视频| 亚洲一级毛片在线观播放| av性天堂网| 四虎影院国产| 日韩a级片视频| 国产精品无码在线看| 免费看a级毛片| 麻豆国产在线观看一区二区| 亚洲欧美日韩中文字幕在线| 麻豆国产在线观看一区二区 | 久久国产亚洲欧美日韩精品| 四虎国产成人免费观看| 青青久久91| 四虎精品免费久久| 五月婷婷亚洲综合| 国产欧美综合在线观看第七页| 国产欧美中文字幕| 欧美日韩中文国产va另类| 制服丝袜一区| 五月激激激综合网色播免费| 婷婷开心中文字幕|