999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的政務(wù)微博評(píng)論情感分類研究

2020-05-07 01:51:28魏姮清
現(xiàn)代商貿(mào)工業(yè) 2020年11期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

摘 要:微博因其信息傳播快、交互性強(qiáng)成為公眾參與民主政治討論的新渠道;各級(jí)政府紛紛通過(guò)開設(shè)政務(wù)微博加深與民眾之間的交流。對(duì)政務(wù)微博的評(píng)論數(shù)據(jù)進(jìn)行情感分析,及時(shí)掌握公眾對(duì)熱點(diǎn)輿情事件的情感傾向,能提升政民交互水平,也能在互聯(lián)網(wǎng)環(huán)境下有效改善政府服務(wù)質(zhì)量。在Word2vec構(gòu)建詞向量的基礎(chǔ)上,運(yùn)用SVM和RF對(duì)文本進(jìn)行情感分析。實(shí)驗(yàn)表明,SVM在進(jìn)行政務(wù)微博評(píng)論分類具有更高的分類效能。

關(guān)鍵詞:機(jī)器學(xué)習(xí);政務(wù)微博;情感分析

中圖分類號(hào):D9 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2020.11.079

0 引言

政務(wù)微博是指政府在互聯(lián)網(wǎng)上開設(shè)的用于開展政務(wù)活動(dòng)的微博。第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中數(shù)據(jù)表明:截至2018年12月中國(guó)網(wǎng)民規(guī)模達(dá)8.29億,互聯(lián)網(wǎng)普及率達(dá)到59.6%,3.94億網(wǎng)民使用線上政務(wù)辦事,占整體網(wǎng)民的47.5%。網(wǎng)絡(luò)問(wèn)政時(shí)代下,政務(wù)微博因其實(shí)時(shí)性、便捷性、交互性等特點(diǎn),成為政務(wù)機(jī)構(gòu)實(shí)踐政務(wù)管理的主要媒介和公眾獲取信息和表達(dá)意見的重要平臺(tái)。

通過(guò)對(duì)政務(wù)微博的評(píng)論數(shù)據(jù)進(jìn)行情感分析,了解公眾在熱點(diǎn)話題中的情感傾向,掌握公眾觀點(diǎn)和微博輿論的發(fā)展趨勢(shì),有利于提升政民交互水平。本文研究不同的分類器對(duì)公眾參與政務(wù)微博的在線評(píng)論文本情感分類的準(zhǔn)確率,以便政務(wù)微博在熱點(diǎn)輿情事件中掌握公眾的情感傾向。

1 相關(guān)技術(shù)

1.1 Word2vec

利用Word2vec分布式的詞向量訓(xùn)練方法,將詞匯以向量形式展現(xiàn)出來(lái),從而達(dá)到將目標(biāo)文本用于向量運(yùn)算的目的,然后更好地完成情感分析的任務(wù)。

1.2 SVM

支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于許多領(lǐng)域。基于SVM的分類方法主要用于二元模式分類問(wèn)題。經(jīng)SVM分類后,屬于不同類數(shù)據(jù)集中的點(diǎn)正好位于一個(gè)最優(yōu)超平面的不同側(cè)面,而且訓(xùn)練集中的正例點(diǎn)和負(fù)例點(diǎn)間的邊距(margin)最大化,使得兩類的分類間隔最大。

1.3 RF

隨機(jī)森林算法首先需要在訓(xùn)練集中隨機(jī)選擇一個(gè)子集,再根據(jù)決策樹算法構(gòu)造子集分類器。決策樹分類器的數(shù)量K需要在運(yùn)行前指定生成,然后確定子集的數(shù)量。

2 用戶評(píng)論情感分析

2.1 微博數(shù)據(jù)采集

由于政務(wù)微博下的評(píng)論具有明顯的情感傾向,故本文針對(duì)政務(wù)微博,基于Python網(wǎng)絡(luò)爬蟲技術(shù)獲取了2019年受到廣泛關(guān)注的熱點(diǎn)輿情事件下“@中國(guó)警方在線”“@中國(guó)警察網(wǎng)”“@平安洛陽(yáng)”“@平安北京”等政務(wù)微博下的評(píng)論信息,在完整的URL請(qǐng)求發(fā)送后,利用Lxml對(duì)網(wǎng)頁(yè)信息進(jìn)行解析,獲取在重大輿情事件下政務(wù)微博的回復(fù)、留言等評(píng)論信息,并以此為基礎(chǔ)進(jìn)行情感分類研究。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)清洗

在微博的評(píng)論中存在一些網(wǎng)絡(luò)鏈接、在博主發(fā)文下方@其他的明星或者網(wǎng)友以及“轉(zhuǎn)發(fā)微博”“轉(zhuǎn)發(fā)圖片”等,對(duì)情感分析的結(jié)果會(huì)產(chǎn)生干擾,予以刪除。

2.2.2 數(shù)據(jù)集和人工標(biāo)注

經(jīng)數(shù)據(jù)清洗后,得到9395條微博評(píng)論,包括4869條正向評(píng)論,4526條負(fù)向評(píng)論,部分?jǐn)?shù)據(jù)如表1。語(yǔ)料庫(kù)中隨機(jī)選取80%作為訓(xùn)練集,20%作為測(cè)試,用于政務(wù)微博情感分類模型的構(gòu)建,語(yǔ)料分布情況如表2所示。

2.2.3 對(duì)評(píng)論文本進(jìn)行分詞和去停用詞處理

在文本中使用頻率很高,但不具有檢索意義、不能表達(dá)文本中心思想的詞語(yǔ)即為停用詞。本文利用哈工大停用詞表,在利用結(jié)巴分詞處理時(shí),將得到的結(jié)果與停用詞匹配,若匹配成功,就將這個(gè)詞去掉,否則就保留下來(lái)。經(jīng)去停用詞后的部分評(píng)論文本分詞后的結(jié)果如表3。

2.3 基于Word2vec的詞向量訓(xùn)練

在進(jìn)行Word2vec的評(píng)論文本向量表達(dá)時(shí),Skip-gram模型的性能在判定詞語(yǔ)間的語(yǔ)義關(guān)系時(shí)的表現(xiàn)比CBOW模型更好,因此采用Skip-gram模型對(duì)詞庫(kù)進(jìn)行向量表達(dá),并轉(zhuǎn)化成特征向量的格式。步驟如下:

(1)對(duì)于上下文窗口的取值,實(shí)驗(yàn)中將窗口值設(shè)定為5。

(2)基于精確度的考慮,詞向量維度選擇300。例如:“可怕”的詞向量如圖1所示。

(3)在大規(guī)模語(yǔ)料庫(kù)中訓(xùn)練出合適的詞向量的基礎(chǔ)上,評(píng)論文本本身的特征向量由對(duì)每條微博評(píng)論文本中所有詞語(yǔ)的詞向量累加后求平均得到。

2.4 情感模型分析與訓(xùn)練

2.4.1 分類模型評(píng)價(jià)指標(biāo)

為了對(duì)兩種不同的分類方法進(jìn)行比較,首先確定模型的評(píng)價(jià)指標(biāo)。在本文中,微博評(píng)論情感極性分析為二分類問(wèn)題,模型評(píng)價(jià)指標(biāo)需要考慮正向和負(fù)向兩個(gè)方面的模型效果,考慮訓(xùn)練模型不同預(yù)測(cè)結(jié)果的數(shù)量如表4。

查準(zhǔn)率、召回率、F1值和準(zhǔn)確率四種評(píng)價(jià)指標(biāo)是數(shù)據(jù)挖掘任務(wù)中常用的模型評(píng)價(jià)標(biāo)準(zhǔn)。下面對(duì)這四種評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行詳細(xì)介紹:

準(zhǔn)確率(Accuracy)表示訓(xùn)練模型對(duì)樣本的分類性能,公式如(1):

查準(zhǔn)率(Precision)表示某一類別中訓(xùn)練模型預(yù)測(cè)數(shù)量占實(shí)際數(shù)量的比例,公式如(2):

召回率(Recall)表示某一類別中訓(xùn)練模型預(yù)測(cè)數(shù)量占該類別實(shí)際記錄數(shù)量的比例。公式如(3):

統(tǒng)計(jì)學(xué)領(lǐng)域,F(xiàn)1值(F-core)是對(duì)二分類模型的精度進(jìn)行衡量的一種評(píng)價(jià)標(biāo)準(zhǔn),該指標(biāo)兼具準(zhǔn)確率與召回率的特點(diǎn),F(xiàn)1值在0至1之間,對(duì)模型評(píng)價(jià)效果良好。例如對(duì)于正面情感,計(jì)算公式如(4):

2.4.2 政務(wù)微博評(píng)論情感分類結(jié)果

(1)支持向量機(jī)情感分類模型。

應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用Python平臺(tái)下的sklearn算法模塊實(shí)現(xiàn)支持向量機(jī)模型,測(cè)試數(shù)據(jù)集預(yù)測(cè)后的結(jié)果分布情況如表5所示。

根據(jù)SVM模型的預(yù)測(cè)結(jié)果,應(yīng)用上文中設(shè)定的準(zhǔn)確率、查準(zhǔn)率、召回率和F1評(píng)分值公式,可以得到基于SVM模型的微博評(píng)論情感極性分類模型的評(píng)估情況。

(2)隨機(jī)森林情感分類模型。

應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用sklearn算法模塊實(shí)現(xiàn)隨機(jī)森林模型,該模型函數(shù)在Decision Tree Classifier類下,部分模型參數(shù)按照系統(tǒng)默認(rèn)值處理,對(duì)測(cè)試數(shù)據(jù)集預(yù)測(cè)后的結(jié)果分布情況如表7所示。

基于RF模型的微博評(píng)論情感極性分類結(jié)果如表8所示。

3 結(jié)語(yǔ)

從評(píng)估結(jié)果的對(duì)比可以發(fā)現(xiàn),SVM算法與RF算法相比,SVM方法各項(xiàng)指標(biāo)的結(jié)果評(píng)估值均優(yōu)于RF,見表6與表8比較。因此,Word2vec與SVM相結(jié)合情感分析模型,能更準(zhǔn)確的判斷政務(wù)微博評(píng)論的情感傾向。在熱點(diǎn)輿情事件中,政府管理部門可利用這些半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),對(duì)其加以利用掌握相關(guān)的輿情態(tài)勢(shì)以支持政府決策。

參考文獻(xiàn)

[1]陳婷,陳文春.基于用戶體驗(yàn)的便民類政務(wù)微博質(zhì)量提升策略[J].管理觀察,2019,(02):92-94,97.

[2]汪祖柱,阮振秋.基于關(guān)聯(lián)規(guī)則的政務(wù)微博公眾評(píng)論觀點(diǎn)挖掘[J].情報(bào)科學(xué),2017,35(08):19-22.

[3]王宇澄,薛可,何佳.政務(wù)微博議程設(shè)置對(duì)受眾城市形象認(rèn)知影響的研究——以微博“上海發(fā)布”為例[J].電子政務(wù),2018,(06):55-62.

[4]牛雪瑩,趙恩瑩.基于Word2Vec的微博文本分類研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(08):256-261.

[5]Li S, Wang Z, Zhou G, et al. Semi-Supervised Learning for Imbalanced Sentiment Classification[C]. Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.

[6]Liu S, Li F, Li F, et al. Adaptive co-training SVM for sentiment classification on tweets[C]. ACM International Conference on Information & Knowledge Management. ACM,2013:2079-2088.

[7]陳珂,黎樹俊,謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,46(09):1850-1855.

[8]彭陶.基于微博的情感傾向分析系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2016.

作者簡(jiǎn)介:魏姮清(1995-),女,漢族,湖北宜昌人,碩士,武漢理工大學(xué),研究方向:信息管理與信息系統(tǒng)。

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 在线观看国产精品第一区免费| 国产清纯在线一区二区WWW| 色哟哟国产成人精品| 国产在线精品99一区不卡| 福利在线一区| 91久久偷偷做嫩草影院精品| 国产美女免费| 国产在线视频导航| 欧美色视频在线| 自拍偷拍一区| 欧洲熟妇精品视频| 亚洲视频四区| 色有码无码视频| 国产爽歪歪免费视频在线观看| 国产精品污污在线观看网站| 青青草原国产| 五月天福利视频| 伊人91视频| 亚洲一区二区约美女探花| 日本www在线视频| 日本91视频| 国产香蕉在线视频| 一本大道视频精品人妻 | 3D动漫精品啪啪一区二区下载| 国产一级小视频| 国产美女自慰在线观看| 激情综合五月网| 亚洲一区二区三区中文字幕5566| 日本一区中文字幕最新在线| 精品一区二区三区波多野结衣| 国产美女无遮挡免费视频| а∨天堂一区中文字幕| 熟女视频91| 久久亚洲国产最新网站| 99精品视频在线观看免费播放| 欧美成人看片一区二区三区 | 波多野结衣在线se| 无码'专区第一页| 四虎成人精品在永久免费| 天堂网国产| 亚洲人成网站在线观看播放不卡| 日韩毛片免费观看| 国产精品高清国产三级囯产AV| 亚洲欧美国产视频| 国产精品久久久久久久久kt| 四虎影视8848永久精品| 亚亚洲乱码一二三四区| 國產尤物AV尤物在線觀看| 黄片一区二区三区| 国产成人亚洲毛片| 亚洲欧美一级一级a| 亚洲综合婷婷激情| 欧美日韩一区二区在线免费观看| 国产美女无遮挡免费视频网站 | 国产精品无码制服丝袜| 欧美精品1区| 国产精品成人一区二区不卡| 99在线视频免费| 免费一看一级毛片| 亚洲精品午夜天堂网页| 亚洲成年人片| 伊人激情久久综合中文字幕| 国产av无码日韩av无码网站| 99久久人妻精品免费二区| 久热精品免费| 国产综合色在线视频播放线视| 91香蕉视频下载网站| 国产精品成人免费视频99| 91综合色区亚洲熟妇p| 国产精品视频系列专区| 国产精品永久在线| 手机在线国产精品| 波多野结衣的av一区二区三区| 亚洲无码一区在线观看| 欧洲日本亚洲中文字幕| 999精品视频在线| 国产无码网站在线观看| 亚洲男人在线| 婷婷六月综合| 亚洲自拍另类| 在线观看国产黄色| 浮力影院国产第一页|