999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合情感規則與機器學習的情感分類方法

2020-08-16 13:28:18宛艷萍孟竹唐家明谷佳真張芳
高師理科學刊 2020年6期
關鍵詞:文本情感

宛艷萍,孟竹,唐家明,谷佳真,張芳

一種融合情感規則與機器學習的情感分類方法

宛艷萍,孟竹,唐家明,谷佳真,張芳

(河北工業大學 人工智能與數據科學學院,天津 300401)

針對評論型長文本的情感傾向性問題,提出了一種融合情感規則與機器學習的分類方法.基于情感規則得出評論的情感得分,該方法將文本分解為一組子句,以詞匯為基本顆粒進行分數計算,得出最佳位置權重系數.同時,不同類型句式共歸納出4類關聯詞與之對應.將所得權重系數與關聯詞得分相結合,總結出情感計算公式.然后將所得情感得分作為特征融合到機器學習分類器的輸入矩陣中,構造最優情感分類器.實驗所得最優分類器準確率為0.979,高于同類算法.

情感傾向性;情感規則;權重調優;關聯詞;特征融合;最優情感分類器

情感分析通過對文本語義信息進行挖掘,能夠識別出文本所蘊含的積極或消極的情感.現今用戶通過發布售后評論、電影評論等來表達自己的情感,這些評論都包含著豐富的觀點信息,可供商家和消費者參考而做出更加合理的判斷.

朱嫣嵐[1]等提出了詞匯語義傾向的概念,將重點放在詞匯情感傾向上.劉知遠[2]等基于不同規模的詞典語料庫建立了漢語詞同現網.張磊[3]通過條件隨機場算法提取核心句并計算相應的情感權值.經閱讀大量文獻發現,當前的情感分析研究大致分為2種.第1種方法,通過設定一系列語義規則并構建情感詞典[4-6],對文本進行分級處理,計算整體情感分值,其情感分析的基礎對象是單個詞匯.第2種方法,基于機器學習.首先對訓練數據進行預處理,然后結合TF-IDF等方法提取特征向量,構建向量特征空間,但對一些特殊句式不能準確識別其情感傾向,所以本文將兩者特征融合,來構造最優情感分類器.

本文以數碼產品的售后跟蹤與評價為例,從評論中獲取用戶的情感信息,準確地分析出用戶評論中的情感傾向性,有利于商家準確地了解市場情感,推出大眾更容易接受和喜愛的產品.

1 情感詞典的構建

情感詞典需要不斷整理歸納,本文整合基礎詞典、網絡熱點詞詞典、專業領域詞典以及表情符號詞典,最終得到覆蓋領域較大的中文情感詞典.

1.1 基礎情感詞典

本文選取的中文情感詞典包括:HowNet情感詞典和NTUSD情感詞典[7],將HowNet中文情感詞典進行整理后有褒義詞4 560個,貶義詞4 370個;NTUSD包含褒義詞2 810個,貶義詞8 270個.

1.2 網絡熱詞詞典

在如今信息時代,網絡用語日新月異,基礎情感詞典已經不能滿足要求,如檸檬精、筆芯等詞帶有明顯的情感傾向,為了提高情感分類的準確度,構建了網絡熱點詞情感詞典.本文在網絡熱詞發現過程中利用互信息合并候選字符串,結合了N-gram算法發現新詞并更新詞典,收集網絡熱點詞完成情感詞典的構建.其中包括褒義網絡詞,如小確幸、中國夢、逆襲等280個;貶義網絡詞,如玻璃心、檸檬精、坑爹等250個.

1.3 領域情感詞典

由于在線評論中有很多專業詞語,基礎情感詞典難以識別,本文構造了專屬領域情感詞典,其中包括手機、相機以及筆記本電腦領域的專業詞匯.領域詞典包括順暢、清晰、畫質高、顆粒感等240個褒義詞;黑屏、死機、卡頓、Bug等180個貶義詞.

2 權重調優算法

從最基本的詞匯粒度出發,將一篇評論文本劃分為不同的部分并給予不同的權重,再以詞匯為基本顆粒進行分數計算.一篇文本的每個部分重要程度不同,對于一段評論文本,設定‘Head_num’,‘Tail_num’這2個參數,分別代表文本[0:Head_num]句和[Tail_num-1:]句.一般來說這2部分分數的權重相比于中間部分[Head_num:Tail_num]的權重更高.可以按文本長度設定參數的值,本文經過反復實驗比較,設定參數值為2,即首2句和末2句.

若評論文本過短,本文認為其不夠長度來進行分塊,即[0:Head_num]∩[Tail_num -1:]≠?,此時全文則采用統一權重來計算分數.為了減少首尾權重對于文本整體的影響過大,以至于算法忽略文本中間部分的分數,將首尾部分得出的分數乘以對應的頻率,公式為

表1 積極評論準確率

表2 消極評論準確率

3 特殊句式處理算法

3.1 程度副詞

在中文句式表達中,程度副詞不可或缺,可以加強或削弱用戶表達的語義情感[8].人工收集整理出70個程度副詞,根據它們不同的語義表達將其細化為7個層次,程度副詞強度值分布見表3.

表3 程度副詞詞表

根據程度副詞不同的強度值賦予句子不同的情感得分,具體方法是在情感詞的位置處向前搜索1~2個位置,根據其強度值,對分數乘以不同的系數.為了提高算法質量,降低程序在判定子分支語句方面的時間損耗.本文采用哈夫曼樹的優化思想:將條件分支‘if-else’看成二叉樹的結構,根據程度副詞在日常用語中出現的頻率,首先判斷‘very’和‘over’,再依次判斷‘more’‘most’和‘some’‘ish’和‘inverse’,來達到樹的加權路徑最小的目的.

3.2 提取關聯詞

經過對大量句式研究總結,本文將句式分為9類.其情感傾向主要通過關聯詞后的情感詞體現,本文共總結為4類關聯詞R1,R2,R3,R4分別對應幾類句式,具體分布見表4.

表4 關聯詞

第1類關聯詞引導的分句通常與用戶真正想表達的情感意圖相反;第2類關聯詞引導的分句通常與用戶真正想表達的意圖情感相同;第3類則是用戶情感意識的加強表達,如關聯詞“而且”“又…又”增加了句子相應的情感分數;第4類是直接將該總結句的情感判別為整個文本的情感.同時,否定詞語對判定文本整體的情感非常重要.通過總結其在日常用語中出現的頻次,本文收集55個否定詞,構建了否定詞典.

3.3 情感計算公式

4 機器學習算法

基于機器學習算法構建情感分類器,在對數據集進行相關的預處理過后,運用卡方統計方法進行特征提取,之后進行向量化,將所得到的特征詞組(1,2,…,X)作為獨立屬性輸入到各分類器中進行情感分類.數據集是從京東網站抓取的不同品牌的電子商品評論數據,人工標注后存儲到不同的Excel表格中.選取8 000條有價值的電商售后評論,使用正、負評價集作為語料庫,訓練情感分類器,使用Python的Nltk api進行分類任務.本文比對了多個分類器的分類結果,實驗結果見圖1.

圖1 不同分類器的分類準確率

由圖1可知,當特征維數為2 000維時LinearSVC分類準確率最高,為97.54%;當特征維數為2 500維時BernoulliNB分類準確率最高,為95.57%.

5 實驗結果

5.1 實驗語料

本文數據是從京東網站抓取的不同品牌的電子商品評論數據,如華為、小米、Canon、Lenovo等,進行數據的去重、去噪等數據清洗工作,人工標注后存儲到不同的Excel表格中.選取8 000條有價值的電商售后評論,其中手機品牌的4 000條,相機和筆記本各2 000條.

5.2 實驗對比

為了進行對比,先后實現了李愛萍[9]等提出的句子情感加權算法和基于關鍵句分析的微博情感傾向性(SOAS)算法(見表5)[10].由表5可知,本文提出的權重調優及特殊句式處理算法在各評價指標中均高于其它方法.

表5 情感分析對比結果

5.3 融合情感規則特征

歸一化就是要把需要處理的數據經過處理后限制在需要的一定范圍內.本文是將評論分數歸一化到(-1,+1)之間,是對原始數據的線性變換,使結果落到[-1,1]區間,公式為

由圖2可知,融合特征后各分類器準確率基本提高,在各個維度SVM的分類準確率普遍較高;當特征維數為2 000維時,LinearSVC分類準確率最高,為97.9%.整體情感分析過程見圖3.

圖2 融合特征后的分類準確率

表4 關聯詞

6 結語

本文構建了情感詞典,包括網絡熱詞詞典、領域專屬詞典等,并通過N-gram算法進行網絡新詞發現更新情感詞典.對文本進行分塊處理權重調優,文本不同部分賦予不同的位置權重,進一步提出特殊句式情感計算規則,將特殊句式分為9類,不同類型的特殊句式所具有的關聯詞對文本有不同的影響,本文共總結為4類關聯詞.將權重調優實驗所得最佳位置權重與特殊句式情感計算規則相結合,依次判定各評論文本所得情感分數,總結出情感計算公式.在對電商售后評論的情感分析中得到了較高的準確率.同時實現基于機器學習算法的情感分類,將所得評論情感分數歸一化后作為特征融合到SVM,NB分類器中訓練得到最優情感分類器,進一步提升了分類器的準確率.但仍存在不足之處,如有時一句話可能表達反義.因此,還需進一步研究確定不同句式表達對整個文本情感的影響.

[1] 朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):16-22

[2] 劉知遠,孫茂松.漢語詞同現網絡的小世界效應和無標度特性[J].中文信息學報,2007,21(6):52-58

[3] 張磊.基于機器學習的情感分析方法研究[D].成都:電子科技大學,2018

[4] Xu Weidi,Tan Ying.Semi-supervised target-oriented sentiment classification[J].Neurocomputing,2019,337(14):120-128

[5] 楊歡.文本情感分類預處理研究[J].計算機技術應用,2016(10):187

[6] 盧興.基于統計方法的中文短文本情感分析[D].北京:北京理工大學,2016

[7] Zhai Zhongwu,Xu Hua,Kang Bada,et al.Exploiting effective features for Chinese sentiment classification[J].Expert Systems with Applications,2014,38(8):9139-9146

[8] 林江豪,顧也力,周詠梅.基于表情符號的情感詞典的構建研究[J].計算機技術與發展,2019,29(6):182-185

[9] 李愛萍,邸鵬,段利國.基于句子情感加權算法的篇章情感分析[J].小型微型計算機系統,2015,10(10):2252-2256

[10] 邵帥,劉學軍,李斌.基于關鍵句分析的微博情感傾向性研究[J].計算機應用研究,2018(4):983-987

A method of emotion classification which combines emotion rules and machine learning

WAN Yanping,MENG Zhu,TANG Jiaming,GU Jiazhen,ZHANG Fang

(School of Artificial Intelligence and Data Science,Hebei University of Technology,Tianjin 300401,China)

A classification method combining emotional rules and machine learning is proposed to solve the problem of emotional orientation of long critical texts.First of all,the emotional score of the comment is obtained based on the emotional rules,the method refines the text into a set of clauses,with vocabulary as the basic particle scores calculated,it is concluded that the best position weight coefficient.Meanwhile,there are four types of related words corresponding to different types of sentence patterns.Combining the weight coefficient with the score of related words,the formula of emotion calculation is summarized.Then,the obtained emotion score is integrated into the input matrix of machine learning classifier to construct the optimal emotion classifier.The accuracy of the optimal classifier is 0.979,higher than the similar algorithm.

emotional tendency;emotional rules;weight tuning;relative term;feature fusion;optimal emotion classifier

TP391

A

10.3969/j.issn.1007-9831.2020.06.007

1007-9831(2020)06-0031-05

2020-01-03

河北省高等學校科學技術研究重點項目(ZD2014051)

宛艷萍(1968-),女,河北文安人,副教授,碩士,從事大數據處理與智能計算研究.E-mail:wanyp_ok@126.com

猜你喜歡
文本情感
如何在情感中自我成長,保持獨立
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美午夜小视频| 特黄日韩免费一区二区三区| www.日韩三级| 男女男免费视频网站国产| 91视频国产高清| 狠狠色成人综合首页| 免费毛片网站在线观看| 五月天福利视频| 日韩精品一区二区深田咏美 | 黄色不卡视频| 国产黑丝一区| 国产熟睡乱子伦视频网站| 国产欧美视频一区二区三区| a级毛片毛片免费观看久潮| 国产亚洲精品无码专| 亚洲综合激情另类专区| 久久精品电影| 欧美日韩一区二区三| 国产91av在线| a色毛片免费视频| 日韩成人在线视频| 在线免费无码视频| 国禁国产you女视频网站| 欧美不卡二区| 国产成人91精品| 亚洲无线国产观看| 亚洲欧洲自拍拍偷午夜色| 97久久人人超碰国产精品| 国产精品久久久久久影院| 亚洲视频黄| 欧美中文字幕一区二区三区| 欧美特黄一级大黄录像| 亚洲一欧洲中文字幕在线| 天天躁狠狠躁| 亚洲国产黄色| 亚洲青涩在线| 亚洲人成网站日本片| 日本成人精品视频| 日韩一级二级三级| 亚洲欧美激情小说另类| 日韩黄色大片免费看| 欧美97欧美综合色伦图| 欧美伦理一区| 午夜国产不卡在线观看视频| 91小视频版在线观看www| 国产成人综合在线视频| 久久中文无码精品| 激情国产精品一区| 亚洲无码免费黄色网址| 日本不卡视频在线| 激情乱人伦| 久久国产av麻豆| 国产毛片一区| 亚洲欧洲国产成人综合不卡| 国产成人精品高清不卡在线| 好久久免费视频高清| 国产高清在线观看91精品| 亚洲男人的天堂视频| 精品伊人久久久香线蕉| 国产人免费人成免费视频| 91精品啪在线观看国产91九色| 国产在线视频自拍| 一级毛片在线播放| 亚洲第一视频免费在线| 亚洲香蕉久久| 丁香六月综合网| 国产在线观看成人91| 在线毛片网站| 亚洲精品爱草草视频在线| 国产综合色在线视频播放线视 | 成人国产免费| 国产精品va| 色综合成人| 亚洲av无码人妻| 欧美黄网在线| 色国产视频| 成人小视频网| 色亚洲激情综合精品无码视频 | 国产成人精品无码一区二| 日本亚洲欧美在线| 一级成人a毛片免费播放| 欧美午夜久久|