999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的政務(wù)留言文本分類研究

2021-12-24 07:13:38李銘鑫尹凱倩吳岳松郭晨璐李想
電腦知識與技術(shù) 2021年29期
關(guān)鍵詞:數(shù)據(jù)挖掘

李銘鑫 尹凱倩 吳岳松 郭晨璐 李想

摘要:現(xiàn)階段網(wǎng)絡(luò)問政系統(tǒng)發(fā)展趨勢較為緩慢,政府部門迫切需要提高管理水平和問題處理效率的方法,面對海量的留言文本,快速準確地處理留言成為目前急于解決的問題。該文通過對比現(xiàn)有的文本分類方式,通過Word2Vec模型對文本進行特征提取,獲得初步詞向量表示,構(gòu)建了邏輯回歸模型(LR)、樸素貝葉斯(Na?ve Bayes)模型、TextCNN、TextRNN等分類模型對留言問題進行對比分類。

關(guān)鍵詞:問政留言;數(shù)據(jù)挖掘;中文文本分類

中圖分類號:TP3? 文獻標識碼:A

文章編號:1009-3044(2021)29-0160-02

社情民意調(diào)查是采用科學(xué)的調(diào)查和統(tǒng)計學(xué)方法,對一定時期一定范圍內(nèi)的社會公眾進行的對社會現(xiàn)實主觀反應(yīng)的調(diào)查,具有反映民意、引導(dǎo)輿論、決策參考、檢驗政策實效等作用。隨著互聯(lián)網(wǎng)的發(fā)展,社情民意調(diào)查的途徑不斷增加,微博,微信,市長信箱,陽光熱線成為網(wǎng)絡(luò)問政平臺,成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意調(diào)查文本數(shù)量的不斷增加,給留言劃分以及熱點整理工作帶來了挑戰(zhàn)[1],因此,建立基于自然語言處理技術(shù)的“智慧政務(wù)”系統(tǒng),提高政府部門管理水平和處理問題的效率成為政府的普遍需求,本文通過實驗對比,找到一種相對合理的政務(wù)留言文本分類模型。

1預(yù)處理

1.1 Jieba分詞和去停用詞[2]

由于留言文本存在句子冗雜,主題不明確等問題,文本整體具有較強的干擾性和隱蔽性,導(dǎo)致文本分類識別存在著巨大的挑戰(zhàn)。因此對中文文本一般進行分詞(如Python語言中的jieba庫),對收集到的每一條留言進行預(yù)處理工作,并通過預(yù)處理完成去停用詞等操作。

1.2 Word2Vec

本文采用了自然語言處理的 Word2Vec[3]方法,通過 Word2Vec工具分別對預(yù)處理后的留言文本進行詞向量訓(xùn)練。

1)Word2Vec 的CBOW模型

Word2Vec 中的CBOW模型的工作原理是通過上下文預(yù)測當前中心詞。在本文中,設(shè)置windows_size為3,向量的維度為200,現(xiàn)在將中心詞wi上下文分詞的獨熱編碼輸入,由于win?dows_size為3,故有2個 One-Hot 編碼向量輸入。設(shè)輸入層的權(quán)值矩陣為Win,v為W 的一行,則有l(wèi)ookup 的過程:

由此可知,將One-Hot編碼的向量wi和W相乘,wi中只有一個維度是1,得權(quán)值矩陣中wi對應(yīng)的每一行向量,則該行向量vi就為分詞wi對應(yīng)的詞向量。

2)特征提取處理

通過lookup得出每個分詞的詞向量,因為這些詞向量是權(quán)值矩陣 W所對應(yīng)的每一行分向量,所以維數(shù)相同。將其累加后求取平均值所得的向量,即該句對應(yīng)的語義向量為最終的數(shù)據(jù)輸入分類模型。

CBOW模型的訓(xùn)練目標是使訓(xùn)練集中的樣本的似然概率最大,需要優(yōu)化似然函數(shù)的值,則有:

即使用梯度下降法,多次迭代求取最優(yōu)值。

1.3訓(xùn)練數(shù)據(jù)

實驗訓(xùn)練數(shù)據(jù)使用“問政湖南”網(wǎng)站(https://wz.rednet.cn/#/ home)共計12710條脫敏留言數(shù)據(jù)。

2構(gòu)建分類模型

常用的文本分類算法有傳統(tǒng)的機器學(xué)習(xí)算法和深度學(xué)習(xí)算法等。本文選取機器學(xué)習(xí)中的邏輯回歸算法和樸素貝葉斯分類器,與神經(jīng)網(wǎng)絡(luò)算法中的TextCNN和TextRNN做對比,對比其分類功能,選取最優(yōu)模型對留言內(nèi)容進行分類。圖1是文本訓(xùn)練流程圖。

數(shù)據(jù)集有七個類別,召回率(Recall)、精確度(Precision)、 F1-score 的值對應(yīng)的是二分類問題中的評價標準,因此,將七分類問題轉(zhuǎn)換為多個二分類問題,其中 F1-score 為首要指標。

2.1邏輯回歸分類器

邏輯回歸算法是典型的二分類算法[4][6],可用于預(yù)測和分類。邏輯回歸模型可以看作一個Sigmoid 函數(shù),將輸入的向量

映射為概率值,實現(xiàn)預(yù)測功能,再調(diào)整其閾值進行分類。

一般我們規(guī)定:hθ(x)< 0.5時,當前處理的數(shù)據(jù)屬于同一類別;相反的,就屬于另一類。根據(jù)實驗驗證,閾值設(shè)為0.5。

2.2樸素貝葉斯分類器

樸素貝葉斯分類器[7]是一種簡單,且分類快速精確的分類器,樸素貝葉斯分類可以在分類中表現(xiàn)出良好的抗干擾能力,綜合準確率較高。

樸素貝葉斯分類器是一種建立在條件獨立性前提下的分類器,根據(jù)貝葉斯定理和前提,可以得到樸素貝葉斯的以下分類公式:

CNB = argmaxP(Y)∏ =1P(xi|Y)? (3)

樸素貝葉斯的分類過程的關(guān)鍵就是計算條件概率和先驗概率,這樣就可以進行分類操作。

2.3 TextCNN分類器

TextCNN模型是2014年Yoon Kim針對CNN 的輸入層做的一些變形[5],整個模型由四部分組成:輸入層、卷積層、池化層、全連接層。卷積操作是CNN 的重要特征之一,卷積層以特征映射為組織的方式,其中的每個單位與前一層的局部感受野連接,利用共享的卷積核(或稱過濾器)與局部感受野做卷積運算,這里的卷積核為128,再通過激活函數(shù)做非線性運算,得到特征值,給定一個矩陣X ∈ RM × N 和卷積核,一般 m 其卷積如式所示:

卷積操作將矩陣映射為一個3*1的特征矩陣[2,3,4],通過max-pooling 方式池化,從提取的特征矩陣中選取最大值,用 dropout與其他通道的最大值拼接,組合成篩選過的特征向量,再通過softmax層對文本進行7分類。

2.4 TextRNN分類器

TextRNN是直接利用循環(huán)神經(jīng)網(wǎng)絡(luò)處理文本的詞向量序列[5],并通過softmax函數(shù)進行分類。對文本進行分類時,我們一般會指定一個固定的輸入序列或文本長度:此時對于過長的文本需要進行截斷,反之則進行填充。

3實驗

對四種模型進行K折交叉驗證,分別得到10組召回率(Re? call)、精確度(Precision)、F1-score 的值,對其求平均值有:

(1)在以召回率(Recall)、精確度(Precision)、F1-score為評價指標時,TextCNN較邏輯回歸模型F1-score提升了17.2%,較TextRNN的 F1-score 提升了0.1%,性能較為顯著提高。基于 Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有優(yōu)勢,分類效果更好。

(2)在基于4種模型訓(xùn)練時,計算出邏輯回歸模型訓(xùn)練時長為13分鐘,樸素貝葉斯模型訓(xùn)練時長為33分20秒,TextCNN模型訓(xùn)練時長為20分鐘,而TextRNN訓(xùn)練時長為1小時27秒。

(3)在交叉驗證的過程中,通過分析結(jié)果的方差得出,TextCNN的F1值方差較小。

4結(jié)語

在針對訓(xùn)練效率、模型F1-score 與交叉驗證情況分析后,得出結(jié)論:在基于文本內(nèi)容進行一級標簽分類時,優(yōu)先選擇TextCNN模型作為分類器。

參考文獻:

[1]陳曦.文本挖掘技術(shù)在社情民意調(diào)查中的應(yīng)用[J].中國統(tǒng)計, 2019(6):27-29.

[2]曾小芹.基于Python 的中文結(jié)巴分詞技術(shù)實現(xiàn)[J].信息與電腦(理論版),2019,31(18):38-39,42.

[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

[4]許騰騰.基于貝葉斯邏輯回歸文本分類模型的改進及其應(yīng)用[D].蘭州:蘭州財經(jīng)大學(xué),2018.

[5]涂文博,袁貞明,俞凱.針對文本分類的神經(jīng)網(wǎng)絡(luò)模型[J].計算機系統(tǒng)應(yīng)用,2019,28(7):145-150.

[6]安波.基于邏輯回歸模型的垃圾郵件過濾系統(tǒng)的研究[D].哈爾濱:哈爾濱工程大學(xué),2009.

[7]潘忠英.樸素貝葉斯中文文本分類器的設(shè)計與實現(xiàn)[J].電腦編程技巧與維護,2021(2):37-39,70.

【通聯(lián)編輯:代影】

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 久久精品66| 国产精品综合久久久| 丝袜高跟美脚国产1区| 精品成人一区二区三区电影| 国产区在线看| 亚洲黄网在线| 亚洲国产天堂在线观看| 乱色熟女综合一区二区| 亚洲人成人无码www| 久久精品人人做人人爽电影蜜月| 欧美国产在线看| 欧美a在线视频| 亚洲成A人V欧美综合| 亚洲人成亚洲精品| 亚洲激情99| 亚洲一区毛片| 国产综合精品日本亚洲777| 国产乱人伦偷精品视频AAA| 国产精品香蕉在线| 国产精品亚洲专区一区| 亚洲天堂网在线视频| 色综合天天综合中文网| 久久久波多野结衣av一区二区| 国产男女免费视频| 日韩av手机在线| 精品少妇三级亚洲| 日本精品影院| 五月婷婷欧美| 永久天堂网Av| 91精品国产综合久久不国产大片| 国产精品一区不卡| 麻豆国产在线观看一区二区| 午夜在线不卡| 国产精品免费福利久久播放| 日本午夜影院| 亚洲VA中文字幕| 高清无码手机在线观看| 亚洲精品第一页不卡| 国产尹人香蕉综合在线电影| 人与鲁专区| 无码免费视频| 黄色福利在线| 91久久国产成人免费观看| 四虎成人在线视频| 色吊丝av中文字幕| 国产精欧美一区二区三区| 亚洲成a人片| 99中文字幕亚洲一区二区| 欧美一区中文字幕| 91亚洲视频下载| 一区二区日韩国产精久久| 国产女人18水真多毛片18精品| 全部毛片免费看| 久久精品人人做人人综合试看| 国产传媒一区二区三区四区五区| 亚洲日韩AV无码一区二区三区人 | 热久久这里是精品6免费观看| 欧美日韩国产成人高清视频| 无码aaa视频| 青草国产在线视频| 国产成人综合亚洲网址| 中文字幕在线欧美| 手机在线免费不卡一区二| 71pao成人国产永久免费视频| 国产在线一二三区| 国产精品人成在线播放| 国产成a人片在线播放| 日本久久网站| 久久不卡国产精品无码| 亚洲欧美日韩另类在线一| 国产自在自线午夜精品视频| 国产精品蜜芽在线观看| 亚洲a级在线观看| 美女视频黄频a免费高清不卡| 国产婬乱a一级毛片多女| 亚洲91精品视频| 婷婷色狠狠干| 青青青国产视频手机| 亚洲日韩图片专区第1页| 人禽伦免费交视频网页播放| 国产日产欧美精品| av一区二区三区在线观看|