999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的智慧政務輿情分析研究

2021-01-01 02:15:17方博平郭佳怡陸欣怡王夢怡宋濤
科技風 2021年34期
關鍵詞:文本評價模型

方博平 郭佳怡 陸欣怡 王夢怡 宋濤

摘要:對智慧政務平臺的群眾輿情建立了文本聚類模型進行信息挖掘與分析。基于FastText原理利用Python語言進行數據預處理并實現文本數據的分類。使用TF-IDF算法將文本信息轉換為權重向量并提取文本關鍵詞,結合K-means聚類算法建立文本聚類模型,實現對群眾輿情中高頻熱點問題的挖掘和排序。最后,對政府反饋意見以信息量、可解釋性、相關性3個評價指標進行權重計算,構建了廣義線性回歸模型的評價指標體系。每一步驟均給出了相應實例分析及計算結果。

關鍵詞:智慧政務;FastText;TF-IDF算法;K-means聚類;廣義線性回歸模型

在互聯網的快速發展和滲透下,網絡問政平臺為收集海量群眾輿情文本數據提供了方便。但如何快速處理大量留言文本數據并進行有效處理成為亟待解決的問題。

本文利用收集自互聯網公開來源的群眾問政留言記錄,及相關部門對部分群眾留言的答復意見,采用FastText原理對留言詳情信息進行分類,用TF-IDF算法計算權重,提取文本關鍵詞,結合K-means算法提取熱點話題,計算余弦相似度篩選高質量答復建議,構建答復意見質量評價指標體系的廣義線性回歸模型。

1預處理工作

數據來源為互聯網公開渠道。基于Python語言,預處理選擇中文分詞模塊jieba對群眾留言進行分詞,采用精確模式用于去除文本標注的無效信息,為后續進一步處理作準備。

建立停用詞字典,選擇了CSDN網站的停用詞表,其中包含1893個停用詞。在分詞以后去停用詞。最終對留言文本分詞后去停用詞的部分結果如圖1所示:

使用n-gram算法進行特征提取,將文本內容按照字節順序進行大小為N的滑動窗口操作,最終形成長度為N的字節片段序列。經多次測試后,得出2-gram最適用。

2分類模型構建和熱點問題的挖掘

2.1群眾留言文本分類

通常情況下,在得到文本向量進行分類處理時常選擇余弦相似度計算。但由于群眾輿情文本的詞匯一文本矩陣是一個不易計算的大矩陣,因此不選擇余弦相似度的方法,而是借助Softmax函數來實現,同時也實現了語義空間的降維。

Softmax函數能將一個含任意實數的K維向量“壓縮”到另一個K維實向量中,使得每一個元素的范圍都在(0,1)之間,并且所有元素的和為1。該函數多于多分類問題中。計算Softmax函數耗時較長,因此可用分層Softmax來加速,即根據類別的頻率構造霍夫曼樹來代替標準Softmax,通過分層Softmax可以將復雜度從N降低到logN。

由于想要模型訓練速度快且不需要預訓練好的詞向量,故選擇FastText文本分類算法。FastText的結構為:輸入—隱層—h-softmax。原理是將輸入層中的詞和詞組構成特征向量,再將特征向量通過線性變換映射到隱藏層,隱藏層通過求解最大似然函數,然后根據每個類別的權重和模型參數構建霍夫曼樹,將霍夫曼樹作為輸出。

2.2熱點問題挖掘

2.2.1留言信息特征提取

熱點問題的挖掘是群眾輿情政務處理的重點,需要政府相關部門高度重視。在對群眾留言詳情信息分詞后,可以通過將這些詞語轉換為向量供文本挖掘使用。通常采用TF-IDF算法將詞語信息轉換為權重向量。TF-IDF算法的具體流程分為三步:

第一步,計算詞頻,即TF權重(Term Frequency)。詞頻(TF)是某個詞在文本中出現的次數。考慮文本有長短之分,為了便于不同文本的比較,需要對“詞頻”進行標準化。

第二步,計算IDF權重,即逆文檔頻率(inverse Document Frequency),建立一個語料庫模擬語言的使用環境。IDF越大,此特征性在文本中的分布越集中,則該分詞在區分該文本內容屬性能力越強。

第三步,計算TF-IDF值(Term Frequency Document Frequency),公式為:

TF-IDF=詞頻(TF)×逆文檔頻率(IDF)

實際分析得出TF-IDF值與一個詞在留言信息表中文本出現的次數成正比,某個詞文本的重要性越高,TF-IDF值越大。計算文本中每個詞的TF-IDF值并進行排序,次數最多的即為要提取的留言信息表中文本的關鍵詞。

對群眾輿情信息生成TF-IDF向量的具體步驟如下,得到的結果如圖2所示。

(1)使用TF-IDF算法,找出每個留言描述的前5個關鍵詞;

(2)對每個留言描述提取的5個關鍵詞,合并成一個集合,計算每個留言描述對于這個集合中詞的詞頻,如果沒有則記為0;

(3)生成各個留言描述的TF-IDF權重向量。

2.2.2話題表示模型構建

K-means聚類算法是無監督的機器學習方法,將數據集劃分為不同的類簇。將每個簇看成是一個話題,運用K-means聚類方法采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,把得到緊湊且獨立的簇作為最終目標。其中,k個聚類具有以下特點:各聚類本身盡可能緊湊,而各聚類之間盡可能分開。一般選取歐氏距離作為相似性和距離判斷準則,計算該類內每個點到聚類中心的距離平方和,聚類目標是使各類總的距離平方和最小,根據最小二乘法和拉格朗日原理,聚類中心應該取為各類別數據點的平均值。

為保證聚類模型的效果,應選擇合適的中心點。現采用以下方法來確定K-means中心點:首先選擇彼此距離盡可能遠的那些點作為中心點,采用層次進行初步聚類輸出k個簇,以簇的中心點作為K-means的中心點的輸入。然后多次隨機選擇中心點訓練K-means,選擇效果最好的聚類效果。

2.2.3文本聚類話題提取

根據聚類得到的話題類別,結合留言文本數據的內容,現提取得到排名前五的熱點話題及其相關內容如下:

3答復意見質量評價指標與模型構建

3.1文本指標提取

根據留言的內容,從反饋的問題意見中提取特征。對于答復意見文本信息中提取的主要特征指標有相關性、可解釋性、信息量等。對于以上特征指標可以通過以下不同的方式獲得:

3.1.1相關性指標

相關性是指答復意見與留言主題的相關性。答復意見通常使用向量的形式來表達,因此可以通過計算文檔之間的距離來計算文檔相似度。利用余弦相似度計算方法來計算留言主題與相關工作部門的答復意見之間的相似度。

當余弦值接近1,夾角趨于0度時,說明兩個向量越相似。當余弦值接近于0,夾角區域90度時,表明兩個向量越不相似,以此來判斷相似度。答復意見與留言主題相關度越高,則該答復建議對主題的價值越大,其質量越高。可以選取一個閾值,進而篩選出每個主題相關度大于該閾值的評論作為該主題下質量較高的答復建議。

3.1.2可解釋性指標

可解釋性是指政府部門答復意見的可讀性。答復意見的可讀性可以用自動化可讀性指數ARI(Automated Readability Index)來表示。ARI的計算公式為:

API=4.71·(總字符數/總字數)+0.5·(總字數/總句數)-21.43

3.1.3信息量指標

信息量是指從內容上確保答復意見質量,以答復意見長度衡量(詞/字數統計),即答復意見內容的長度。通常認為,答復意見內容越多所包含有效信息越多,參考價值越大,在一定程度上會增加民眾對部門工作能力的信服力。現使用分數表示文本信息量,少于10個字為0.1分。11至20個字為0.2分,以此類推,大于90及以上為1分。

3.2答復意見質量評價指標體系和模型

使用不同的指標權重構建工作部門答復意見質量評價模型,將會得到不同的結果。因此,基于上述評價指標,使用基于主成分分析權值的方法計算模型中各個評價指標的權重后再構建評價指標體系。具體做法如下,首先,將相關工作部門答復意見中數據對應的各個評價指標的數據進行標準化,以降低各個不同評價指標中的差異度。其次,對各個評價指標進行主成分分析以及權值的計算。最后,對評價指標進行主成分分析。對信息量、可解釋性、相關性這三個主成分評價指標進行權重計算后再使用廣義線性回歸算法建立模型,對答復意見的質量進行預測。

引入四個符號:答復意見質量(Q),相關性(Relevancy),可解釋性(Credibility),信息量(Words)后建立廣義線性回歸模型Q=(φ·Words+φ·Relevancy+φ·Credibility+ε作為答復意見質量評價指標體系。

基于主成分分析權值的方法計算得出的信息量、相關性和可解釋性這三個評價指標的權重分別用φ、φ、φ表示,其中,ε表示常數項。

最終,經過模型訓練得到的答復意見質量評價指標體系的廣義線性回歸模型計算公式為:

Q=0.28Words+0.26Relevancy+0.28Credibility+0.01

4結論

對“智慧政務”中的文本數據即群眾的留言數、熱點問題以及相關政府部門的答復數據建立了文本聚類模型進行數據挖掘與分析。分析過程包括數據預處理、數據篩選與特征提取處理、聚類分析、構建評價指標與建模等。每一分析步驟均給出了實例分析和對應結果,在文本數據分析過程中需注意如下事項:

(1)對獲得的留言數據利用基于FastText原理的Python程序進行處理,可實現對留言數據的分類,降低模型訓練時間,提升可建模度,增加模型的準確性。

(2)利用K-means文本聚類算法,可以更好地將留言加入對應的話題簇,從而對熱點問題進行更好的分類和篩選。

(3)在構建答復意見質量評價指標與模型中,通過提取的指標特征構建廣義線性回歸模型對相關部門的答復意見質量進行分析。為平衡模型,需對文本模型的目標值進行標準化,使對答復意見質量的評價更為準確。

*通訊作者:宋濤,博士,講師,研究方向:交通行為和交通流建模與分析。

猜你喜歡
文本評價模型
一半模型
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 老司机精品99在线播放| 老司机精品99在线播放| 无码专区第一页| 欧洲成人在线观看| 免费观看精品视频999| 久久免费精品琪琪| 黄色网站不卡无码| 一区二区影院| 欧美亚洲网| 国产自在自线午夜精品视频| 日韩第九页| av一区二区三区高清久久| 高清色本在线www| 麻豆国产精品视频| 九月婷婷亚洲综合在线| 国产欧美另类| 伊人五月丁香综合AⅤ| 久久精品国产国语对白| 亚洲人成网站18禁动漫无码| 一本久道久久综合多人| 99无码熟妇丰满人妻啪啪 | 久久夜色精品| 国产成人三级| 欧美日韩国产系列在线观看| 中文字幕1区2区| 国产在线观看第二页| 欧美激情伊人| 激情六月丁香婷婷四房播| 国产精品黄色片| 无码精品福利一区二区三区| 精品91视频| 午夜视频www| 欧美日韩免费观看| 制服丝袜 91视频| 99久久性生片| 成人日韩欧美| 亚洲成人在线免费| 69av免费视频| 国产成人91精品免费网址在线| 日韩免费毛片视频| 亚洲毛片在线看| 国产精品一区二区不卡的视频| 波多野结衣视频网站| Aⅴ无码专区在线观看| 自拍偷拍欧美| 欧美色99| 伊人色综合久久天天| 国产美女叼嘿视频免费看| 久久久噜噜噜久久中文字幕色伊伊| 97色伦色在线综合视频| 四虎亚洲国产成人久久精品| 国产亚洲精品97在线观看 | 无码日韩人妻精品久久蜜桃| 国产69精品久久久久妇女| 國產尤物AV尤物在線觀看| 一级看片免费视频| 美女扒开下面流白浆在线试听| 中文字幕在线看视频一区二区三区| 国产新AV天堂| 久久国产V一级毛多内射| 中文字幕人成人乱码亚洲电影| 国产精品视频第一专区| AV天堂资源福利在线观看| 国产毛片不卡| 国产激爽大片高清在线观看| 人妻精品久久久无码区色视| 亚洲 欧美 中文 AⅤ在线视频| 91成人在线观看| 亚洲激情99| 亚洲欧洲AV一区二区三区| 久久免费精品琪琪| 老司机午夜精品网站在线观看| 亚洲二三区| 国产精品黑色丝袜的老师| 国产精品极品美女自在线网站| 国产精品无码久久久久AV| 久操中文在线| 专干老肥熟女视频网站| V一区无码内射国产| 久久久久人妻精品一区三寸蜜桃| 国产色爱av资源综合区| 蜜臀AV在线播放|