999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的影評(píng)情感分析

2019-11-03 14:07:16徐善山
電腦知識(shí)與技術(shù) 2019年23期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

徐善山

摘要:針對(duì)影評(píng)文本情感分析準(zhǔn)確性不高的問題,本文提出一種基于影評(píng)領(lǐng)域詞典結(jié)合機(jī)器學(xué)習(xí)的情感分析方法。首先,構(gòu)建完備的影評(píng)領(lǐng)域相關(guān)詞典,如程度副詞詞典、否定詞詞典和網(wǎng)絡(luò)用詞詞典。然后,利用文本相似度的方法(TSIM)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行去重處理,并提出三類特征:詞性、句法、依存進(jìn)行選擇。最后,利用NB和SVM相結(jié)合的分類方法對(duì)影評(píng)進(jìn)行情感分類。實(shí)現(xiàn)結(jié)果表明,該方法相對(duì)于僅僅基于傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,具有更準(zhǔn)確的分類精度。

關(guān)鍵詞:情感分析;領(lǐng)域詞典;機(jī)器學(xué)習(xí);數(shù)據(jù)去重;特征選擇

中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)23-0222-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

1 引言

交互性網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,使得越來越多的人通過豆瓣、微博影評(píng)等電影網(wǎng)站發(fā)表自己對(duì)電影的觀點(diǎn)和看法,這些影評(píng)包含著很多用戶對(duì)于電影及其相關(guān)內(nèi)容的評(píng)價(jià)。因此,對(duì)于這些影評(píng)文本信息進(jìn)行情感分析具有重要的商業(yè)價(jià)值。但是目前,影評(píng)領(lǐng)域情感分析的準(zhǔn)確性不是很高,主要是因?yàn)橛霸u(píng)領(lǐng)域相關(guān)情感詞典的不完備性、機(jī)器學(xué)習(xí)方法需要完備的語料庫和精確的特征選擇。針對(duì)上述問題本文提出一種基于影評(píng)領(lǐng)域詞典和機(jī)器學(xué)習(xí)相結(jié)合的情感分析方法。本文的主要工作為:1)構(gòu)建完備的影評(píng)領(lǐng)域相關(guān)的詞典;2)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行去重處理,并進(jìn)行特征選擇;3)利用NB和SVM相結(jié)合的分類方法對(duì)影評(píng)文本進(jìn)行情感分類。

2 相關(guān)工作

文本情感分析技術(shù)主要分為情感詞典和機(jī)器學(xué)習(xí)的方法。在情感詞典方面:栗雨晴等人[1]提出一種基于雙語詞典的多類情感分析方法,通過構(gòu)建雙語多類情感詞典對(duì)微博文本進(jìn)行多分類語義傾向性分析。肖江等人[2]提出一種基于領(lǐng)域情感詞典的中文微博情感分析策略,能夠有效分析出微博中的情感傾向。孔偉俊等人[3]提出基于領(lǐng)域詞典的商品評(píng)論分析策略,能夠有效分析出網(wǎng)絡(luò)商品評(píng)論的情感傾向。在機(jī)器學(xué)習(xí)方面:朱軍等人[4]提出了一種改進(jìn)的機(jī)器學(xué)習(xí)方法和情感詞典結(jié)合的集成學(xué)習(xí)情感極性分類方法。針對(duì)旅游網(wǎng)絡(luò)評(píng)價(jià)使用的旅游情感詞匯量不多的特點(diǎn),王新宇[5]提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法。針對(duì)中文微博內(nèi)容較短、口語化嚴(yán)重、主題分散等特點(diǎn),孫建旺等人[6]提出了基于詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法。

3 影評(píng)情感分析

3.1 情感詞典的構(gòu)建

目前,影評(píng)領(lǐng)域情感分析方面尚未有一部通用和完備的情感詞典,使得影評(píng)領(lǐng)域的情感分析一直不夠準(zhǔn)確。因此,本文為了使影評(píng)領(lǐng)域的情感分析具有更好的識(shí)別效果,將目前較好的并廣泛應(yīng)用的3個(gè)情感詞典(知網(wǎng)的HowNet、臺(tái)灣大學(xué)的NTUSD和大連理工大學(xué)的情感詞典)進(jìn)行優(yōu)化和整合,構(gòu)建成了一部綜合基礎(chǔ)情感詞典。

此外,本文還構(gòu)建了程度副詞詞典、否定詞詞典和網(wǎng)絡(luò)用詞情感詞典。程度副詞詞典主要是采用知網(wǎng)的程度級(jí)別詞典,共219個(gè)詞,如:極其、非常、不少、半點(diǎn)等。本文整理構(gòu)建了否定詞典,共31個(gè)詞,如:不、沒、無、非等。網(wǎng)絡(luò)用詞情感詞典主要是將“常用網(wǎng)絡(luò)用詞情感詞典”和“2019網(wǎng)絡(luò)用詞”進(jìn)行優(yōu)化和整合,從而構(gòu)建了數(shù)量為254的網(wǎng)絡(luò)用詞情感詞典,如:盤它、開掛、前方高能、實(shí)錘等。

3.2 數(shù)據(jù)集去重

如果機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)集的相似影評(píng)文本的樣本數(shù)量很多,將嚴(yán)重影響機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果的分布和情感分析的性能。由此,本文采用文本相似度的方法,將相似度最高的影評(píng)文本進(jìn)行合并,達(dá)到對(duì)訓(xùn)練數(shù)據(jù)集去重的目。

定義1:文本相似度(Text similarity,[TSIM] )用來計(jì)算兩個(gè)文本的語義相似度,計(jì)算公式如下:

[TSIM(T1,T2)=i=1n1maxj=1,2,…,n2sim(W1i,W2j)+j=1n2maxj=1,2,…,n1sim(W2j,W1i)n1+n2]? (1)

在公式(1)中,[W1i]和[W2j]分別為影評(píng)文本[T1]和[T2]中的詞元素,[n1]和[n2]分別為影評(píng)文本[T1]和[T2]中詞元素總的數(shù)量,[sim(W1i,W2j)]是基于知網(wǎng)詞語的語義相似度計(jì)算公式。首先遍歷訓(xùn)練集中的所有語句,然后將相似度最高的兩條語句進(jìn)行合并,達(dá)到減少機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)集的相似評(píng)論文本的樣本數(shù)量、增加低頻文本權(quán)重的目的,從而提高機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果的分布和情感分析的性能。此方法能夠有效降低影評(píng)文本中因某些用戶的惡意評(píng)論或水軍的虛假言論,導(dǎo)致機(jī)器學(xué)習(xí)模型預(yù)測結(jié)果的不準(zhǔn)確。

3.3 特征選擇

文本的特征提取是機(jī)器學(xué)習(xí)的關(guān)鍵步驟,可以說情感分類的準(zhǔn)確性和效率很大程度上取決于特征值的選取。本文選擇三類特征:詞性、句法、依存關(guān)系。詞性在影評(píng)文本情感分析中起很大的作用,因?yàn)橐粋€(gè)影評(píng)文本是由多個(gè)不同詞性的詞構(gòu)成的。句法特征是給出句子的組成部分、排列順序、詞性標(biāo)注的特征。依存關(guān)系特征是從依存關(guān)系樹中給出的依存關(guān)系和詞性搭配的特征,其對(duì)影評(píng)文本情感分析起著決定性作用。在選擇特征時(shí),每類特征維度的具體含義如表1所示。

本文以“這部電影真心不錯(cuò),我非常喜歡。”為例進(jìn)行特征選擇。

①使用中科院ICTCLAS分詞技術(shù)進(jìn)行處理,可以獲得例句的詞性特征、句法特征如下:

這部/r電影/n真心/d不錯(cuò)/a,/wd我/rr非常/d喜歡/vi。/wj

其中,/r表示代詞、/n表示名詞、/d表示副詞、/a表示形容詞、/wd表示標(biāo)點(diǎn)符號(hào)、/vi表示動(dòng)詞。

②在ICTCLAS分詞的基礎(chǔ)上,使用哈工大語言技術(shù)平臺(tái)(LTP)處理工具,獲得例句的依存關(guān)系和詞性搭配特征如下:

從圖2中可以得到例句的5種依存關(guān)系:HED(核心)、ATT(定中關(guān)系)、SBV(主謂關(guān)系)、ADV(狀中關(guān)系)、COO(并列關(guān)系)。通過上述2個(gè)步驟可以得到機(jī)器學(xué)習(xí)方法的三種基本特征模板,并作歸一化處理,從而為其訓(xùn)練分類器。

3.4 NB結(jié)合SVM的分類方法

選擇三類特征并作歸一化處理,將其擴(kuò)展到機(jī)器學(xué)習(xí)的特征模板中后,本文采用NB結(jié)合SVM對(duì)整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練得到分類器。

樸素貝葉斯(NB)分類算法具有簡單、穩(wěn)定的分類效果,但是條件是每個(gè)變量是相互獨(dú)立的。判斷一條影評(píng)的情感傾向時(shí),若影評(píng)中有情感詞出現(xiàn)在情感詞典中,則采用NB分類方法,因?yàn)閷⑶楦性~作為NB分類方法的特征時(shí),統(tǒng)計(jì)特征更加合理和明顯,并且可以利用NB分類方法從事先計(jì)算好的情感詞的條件概率分布得到分類的結(jié)果。

支持向量機(jī)(SVM)是一種二類分類模型,利用SVM分類方法進(jìn)行分類,是因?yàn)镹B分類方法僅僅簡單地統(tǒng)計(jì)影評(píng)中的詞語得到概率分布,忽略了詞語之間的依存關(guān)系,而SVM考慮到了影評(píng)詞語之間的依存關(guān)系和句子之間的語義關(guān)系。所以本文將兩種方法相結(jié)合進(jìn)行互補(bǔ),達(dá)到對(duì)分類結(jié)果更加準(zhǔn)確的目的。

如圖2是基于NB和SVM的情感分類流程圖。第一步,對(duì)影評(píng)數(shù)據(jù)進(jìn)行綜合處理:首先將數(shù)據(jù)集分為正向和負(fù)向,然后對(duì)數(shù)據(jù)集進(jìn)行去重處理,最后提取特征并作歸一化處理;第二步,判斷特征值是否在情感詞典中,若在情感詞典中則使用NB分類方法,反之則使用SVM分類方法。

4 實(shí)驗(yàn)分析

本文利用網(wǎng)絡(luò)爬蟲技術(shù)從豆瓣平臺(tái)和微博影評(píng)中抓取5000條影評(píng)數(shù)據(jù)集,并對(duì)這些影評(píng)數(shù)據(jù)集進(jìn)行人工情感標(biāo)注。本次實(shí)驗(yàn)以準(zhǔn)確率P、召回率R和F1值作為評(píng)價(jià)指標(biāo)。

為了驗(yàn)證本文提出的基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析的準(zhǔn)確性,本文通過下表對(duì)測試數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行分析和評(píng)價(jià)。

由上表可以得出,基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法在準(zhǔn)確率上面比基于傳統(tǒng)的SVM和NB分類方法都要高。因此,該實(shí)驗(yàn)證明了基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法在整體上是優(yōu)于基于傳統(tǒng)的SVM和NB分類方法,并驗(yàn)證了本文方法具有更高的準(zhǔn)確性。

5 結(jié)論

實(shí)驗(yàn)結(jié)果表明,基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法對(duì)于影評(píng)領(lǐng)域的情感分類具有更高的準(zhǔn)確性,能夠更加適應(yīng)于影評(píng)領(lǐng)域的情感分析,從而解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)影評(píng)領(lǐng)域情感分析不準(zhǔn)確的問題。

參考文獻(xiàn):

[1] 栗雨晴,禮欣,韓煦,等.基于雙語詞典的微博多類情感分析方法[J].電子學(xué)報(bào),2016,44(9):2069-2073.

[2] 肖江,丁星,何榮杰.基于領(lǐng)域情感詞典的中文微博情感分析[J].電子設(shè)計(jì)工程,2015,23(12):18-21.

[3] 孔偉俊,胡廣朋.基于領(lǐng)域詞典的網(wǎng)絡(luò)商品評(píng)論情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,45(1):155-159.

[4] 朱軍,劉嘉勇,張騰飛,等.基于情感詞典和集成學(xué)習(xí)的情感極性分類方法[J].計(jì)算機(jī)應(yīng)用,2018,38(S1):95-98.

[5] 王新宇.基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(4):578-582.

[6] 孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177-181.

【通聯(lián)編輯:唐一東】

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 亚洲中文字幕日产无码2021| 亚洲天堂视频网站| 99热这里只有精品2| 精品国产美女福到在线不卡f| 性欧美久久| 国产丝袜91| 久久久久无码国产精品不卡| 狼友av永久网站免费观看| 国产精品专区第1页| 中文字幕乱妇无码AV在线| 香港一级毛片免费看| 欧美国产在线一区| 亚洲无码电影| 中文字幕亚洲电影| 久视频免费精品6| 亚洲黄色成人| 欧美精品xx| 国产亚洲男人的天堂在线观看| 日韩av无码DVD| 国内黄色精品| 国产精品福利尤物youwu| 久久久国产精品无码专区| 国产婬乱a一级毛片多女| 精品一区二区三区中文字幕| 国产午夜看片| 伊人久久影视| 激情综合网址| 国产91精品调教在线播放| 国产精品乱偷免费视频| 久久精品女人天堂aaa| a亚洲视频| 国产一区在线观看无码| 国产成人免费手机在线观看视频| 免费A级毛片无码无遮挡| 亚洲欧美激情另类| 妇女自拍偷自拍亚洲精品| 四虎成人精品在永久免费| 四虎精品国产AV二区| 国产a v无码专区亚洲av| 国产人前露出系列视频| 国产在线欧美| 亚洲精品老司机| 亚洲欧美综合在线观看| 毛片免费高清免费| 成人在线第一页| 色综合中文| 国产精品林美惠子在线观看| 婷婷六月激情综合一区| 日本人妻丰满熟妇区| 综合色亚洲| 特级做a爰片毛片免费69| 日韩欧美中文字幕一本| 大学生久久香蕉国产线观看| 影音先锋丝袜制服| 国产亚洲精品自在久久不卡| 制服丝袜一区| 欧美国产综合色视频| 国产亚洲男人的天堂在线观看| 日韩小视频在线播放| 国产一区二区三区视频| 国产欧美日韩在线在线不卡视频| 婷婷六月天激情| 欧洲高清无码在线| 美女国产在线| 国产最新无码专区在线| 国产网站免费观看| 这里只有精品国产| 日韩第一页在线| 免费一看一级毛片| 国产色伊人| 日韩在线视频网站| 国产精品片在线观看手机版 | 日本国产精品一区久久久| 欧洲熟妇精品视频| 国产成人亚洲精品蜜芽影院| 中文国产成人久久精品小说| 亚洲毛片一级带毛片基地 | 99精品热视频这里只有精品7| 久久久久免费精品国产| 国产女人18毛片水真多1| 精品一区二区三区视频免费观看| 免费jjzz在在线播放国产|