999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的政務留言文本分類研究

2021-12-24 07:13:38李銘鑫尹凱倩吳岳松郭晨璐李想
電腦知識與技術 2021年29期
關鍵詞:數據挖掘

李銘鑫 尹凱倩 吳岳松 郭晨璐 李想

摘要:現階段網絡問政系統發展趨勢較為緩慢,政府部門迫切需要提高管理水平和問題處理效率的方法,面對海量的留言文本,快速準確地處理留言成為目前急于解決的問題。該文通過對比現有的文本分類方式,通過Word2Vec模型對文本進行特征提取,獲得初步詞向量表示,構建了邏輯回歸模型(LR)、樸素貝葉斯(Na?ve Bayes)模型、TextCNN、TextRNN等分類模型對留言問題進行對比分類。

關鍵詞:問政留言;數據挖掘;中文文本分類

中圖分類號:TP3? 文獻標識碼:A

文章編號:1009-3044(2021)29-0160-02

社情民意調查是采用科學的調查和統計學方法,對一定時期一定范圍內的社會公眾進行的對社會現實主觀反應的調查,具有反映民意、引導輿論、決策參考、檢驗政策實效等作用。隨著互聯網的發展,社情民意調查的途徑不斷增加,微博,微信,市長信箱,陽光熱線成為網絡問政平臺,成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意調查文本數量的不斷增加,給留言劃分以及熱點整理工作帶來了挑戰[1],因此,建立基于自然語言處理技術的“智慧政務”系統,提高政府部門管理水平和處理問題的效率成為政府的普遍需求,本文通過實驗對比,找到一種相對合理的政務留言文本分類模型。

1預處理

1.1 Jieba分詞和去停用詞[2]

由于留言文本存在句子冗雜,主題不明確等問題,文本整體具有較強的干擾性和隱蔽性,導致文本分類識別存在著巨大的挑戰。因此對中文文本一般進行分詞(如Python語言中的jieba庫),對收集到的每一條留言進行預處理工作,并通過預處理完成去停用詞等操作。

1.2 Word2Vec

本文采用了自然語言處理的 Word2Vec[3]方法,通過 Word2Vec工具分別對預處理后的留言文本進行詞向量訓練。

1)Word2Vec 的CBOW模型

Word2Vec 中的CBOW模型的工作原理是通過上下文預測當前中心詞。在本文中,設置windows_size為3,向量的維度為200,現在將中心詞wi上下文分詞的獨熱編碼輸入,由于win?dows_size為3,故有2個 One-Hot 編碼向量輸入。設輸入層的權值矩陣為Win,v為W 的一行,則有lookup 的過程:

由此可知,將One-Hot編碼的向量wi和W相乘,wi中只有一個維度是1,得權值矩陣中wi對應的每一行向量,則該行向量vi就為分詞wi對應的詞向量。

2)特征提取處理

通過lookup得出每個分詞的詞向量,因為這些詞向量是權值矩陣 W所對應的每一行分向量,所以維數相同。將其累加后求取平均值所得的向量,即該句對應的語義向量為最終的數據輸入分類模型。

CBOW模型的訓練目標是使訓練集中的樣本的似然概率最大,需要優化似然函數的值,則有:

即使用梯度下降法,多次迭代求取最優值。

1.3訓練數據

實驗訓練數據使用“問政湖南”網站(https://wz.rednet.cn/#/ home)共計12710條脫敏留言數據。

2構建分類模型

常用的文本分類算法有傳統的機器學習算法和深度學習算法等。本文選取機器學習中的邏輯回歸算法和樸素貝葉斯分類器,與神經網絡算法中的TextCNN和TextRNN做對比,對比其分類功能,選取最優模型對留言內容進行分類。圖1是文本訓練流程圖。

數據集有七個類別,召回率(Recall)、精確度(Precision)、 F1-score 的值對應的是二分類問題中的評價標準,因此,將七分類問題轉換為多個二分類問題,其中 F1-score 為首要指標。

2.1邏輯回歸分類器

邏輯回歸算法是典型的二分類算法[4][6],可用于預測和分類。邏輯回歸模型可以看作一個Sigmoid 函數,將輸入的向量

映射為概率值,實現預測功能,再調整其閾值進行分類。

一般我們規定:hθ(x)< 0.5時,當前處理的數據屬于同一類別;相反的,就屬于另一類。根據實驗驗證,閾值設為0.5。

2.2樸素貝葉斯分類器

樸素貝葉斯分類器[7]是一種簡單,且分類快速精確的分類器,樸素貝葉斯分類可以在分類中表現出良好的抗干擾能力,綜合準確率較高。

樸素貝葉斯分類器是一種建立在條件獨立性前提下的分類器,根據貝葉斯定理和前提,可以得到樸素貝葉斯的以下分類公式:

CNB = argmaxP(Y)∏ =1P(xi|Y)? (3)

樸素貝葉斯的分類過程的關鍵就是計算條件概率和先驗概率,這樣就可以進行分類操作。

2.3 TextCNN分類器

TextCNN模型是2014年Yoon Kim針對CNN 的輸入層做的一些變形[5],整個模型由四部分組成:輸入層、卷積層、池化層、全連接層。卷積操作是CNN 的重要特征之一,卷積層以特征映射為組織的方式,其中的每個單位與前一層的局部感受野連接,利用共享的卷積核(或稱過濾器)與局部感受野做卷積運算,這里的卷積核為128,再通過激活函數做非線性運算,得到特征值,給定一個矩陣X ∈ RM × N 和卷積核,一般 m 其卷積如式所示:

卷積操作將矩陣映射為一個3*1的特征矩陣[2,3,4],通過max-pooling 方式池化,從提取的特征矩陣中選取最大值,用 dropout與其他通道的最大值拼接,組合成篩選過的特征向量,再通過softmax層對文本進行7分類。

2.4 TextRNN分類器

TextRNN是直接利用循環神經網絡處理文本的詞向量序列[5],并通過softmax函數進行分類。對文本進行分類時,我們一般會指定一個固定的輸入序列或文本長度:此時對于過長的文本需要進行截斷,反之則進行填充。

3實驗

對四種模型進行K折交叉驗證,分別得到10組召回率(Re? call)、精確度(Precision)、F1-score 的值,對其求平均值有:

(1)在以召回率(Recall)、精確度(Precision)、F1-score為評價指標時,TextCNN較邏輯回歸模型F1-score提升了17.2%,較TextRNN的 F1-score 提升了0.1%,性能較為顯著提高?;?Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有優勢,分類效果更好。

(2)在基于4種模型訓練時,計算出邏輯回歸模型訓練時長為13分鐘,樸素貝葉斯模型訓練時長為33分20秒,TextCNN模型訓練時長為20分鐘,而TextRNN訓練時長為1小時27秒。

(3)在交叉驗證的過程中,通過分析結果的方差得出,TextCNN的F1值方差較小。

4結語

在針對訓練效率、模型F1-score 與交叉驗證情況分析后,得出結論:在基于文本內容進行一級標簽分類時,優先選擇TextCNN模型作為分類器。

參考文獻:

[1]陳曦.文本挖掘技術在社情民意調查中的應用[J].中國統計, 2019(6):27-29.

[2]曾小芹.基于Python 的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39,42.

[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

[4]許騰騰.基于貝葉斯邏輯回歸文本分類模型的改進及其應用[D].蘭州:蘭州財經大學,2018.

[5]涂文博,袁貞明,俞凱.針對文本分類的神經網絡模型[J].計算機系統應用,2019,28(7):145-150.

[6]安波.基于邏輯回歸模型的垃圾郵件過濾系統的研究[D].哈爾濱:哈爾濱工程大學,2009.

[7]潘忠英.樸素貝葉斯中文文本分類器的設計與實現[J].電腦編程技巧與維護,2021(2):37-39,70.

【通聯編輯:代影】

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产在线97| 91精品福利自产拍在线观看| 亚洲娇小与黑人巨大交| 欧美国产精品不卡在线观看| 香蕉网久久| 岛国精品一区免费视频在线观看| 精品久久久久无码| 国产毛片高清一级国语| 国产91小视频在线观看| 亚洲国产天堂久久综合| 毛片久久久| 中美日韩在线网免费毛片视频| 亚洲综合婷婷激情| 99尹人香蕉国产免费天天拍| 亚洲视频无码| 日本亚洲最大的色成网站www| 亚洲黄色网站视频| 日韩在线1| 久久久久无码精品国产免费| 国产精品亚欧美一区二区| 好吊色国产欧美日韩免费观看| 一本大道无码日韩精品影视| 日韩大乳视频中文字幕| 国产日本一区二区三区| 亚洲国产欧美国产综合久久| 亚洲欧美综合另类图片小说区| 在线免费看片a| 99久久国产综合精品2020| 亚洲第一视频免费在线| 日本三级欧美三级| 婷婷六月激情综合一区| 亚洲不卡av中文在线| 亚洲区欧美区| 熟妇丰满人妻av无码区| 亚洲,国产,日韩,综合一区| 高清码无在线看| 日韩精品少妇无码受不了| 九九热视频精品在线| 视频二区亚洲精品| 欧美成人在线免费| 免费高清毛片| 香蕉色综合| 免费毛片全部不收费的| 免费日韩在线视频| 欧美福利在线| 国产精品亚洲精品爽爽| 亚洲精品国产成人7777| 一级毛片基地| 精品国产Av电影无码久久久| 亚洲三级成人| 丝袜高跟美脚国产1区| 中文纯内无码H| 国产69精品久久久久孕妇大杂乱| 久久久久国产一级毛片高清板| 91亚洲免费视频| 久久亚洲综合伊人| 国产一区在线观看无码| 久久久久九九精品影院| 日韩激情成人| 中文字幕2区| 成人福利在线视频免费观看| 欧美日韩国产一级| 国产在线欧美| 91久久精品国产| 中文字幕精品一区二区三区视频| 日韩在线欧美在线| 色偷偷一区二区三区| 久久香蕉国产线看观看式| 亚洲一级毛片在线观| 国产69精品久久久久妇女| 激情五月婷婷综合网| 狠狠色综合网| 波多野结衣爽到高潮漏水大喷| 91精品国产91久无码网站| 免费高清毛片| 国产欧美高清| 国产av一码二码三码无码| 91欧美亚洲国产五月天| 久久久精品久久久久三级| 免费啪啪网址| 日韩欧美中文亚洲高清在线| 2020亚洲精品无码|