999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合的評論文本情感分析

2018-08-21 02:07:24安,費
計算機技術與發展 2018年8期
關鍵詞:規則分類特征

龔 安,費 凡

(中國石油大學(華東) 計算機與通信工程學院,山東 青島 266580)

0 引 言

隨著互聯網的蓬勃發展,各類網絡評論也相應激增。大量用戶通過新聞網站、購物網站及微博等載體表達自己對時政、商品、電影及各類社會現象的觀點及看法,這其中隱含著大量的高價值信息,而合理地分析和利用這些評論文本能夠為個人消費決策、商家營銷策略規劃、政府輿情檢測等方面提供幫助,因此有效地挖掘評論文本中蘊含的情感具有重要的社會價值與商業價值[1]。

目前,文本情感分析[2-3]的主流方法一般分為兩種:一種是基于情感詞典的規則方法[4-5];另一種是基于機器學習的方法[6-8]。基于情感詞典的方法主要是根據情感詞典的先驗信息進行計算來判斷文本所蘊含的情感,但情感詞典的大小是有限的,且因為忽視語義往往不能得到準確的分類。機器學習方法是以模式分類的思想來處理這個問題,通過人工設計特征,將文本進行特征向量化輸入到各種分類器中進行分類。從整體來看,機器學習方法的表現好于規則方法。然而對于復雜的漢語來說,傳統的機器學習的建模方法不能取得令人滿意的結果。對此,充分利用規則情感分析的結果,提出了一種機器學習與情感規則相融合的中文文本情感分析方法。

文中主要內容如下:

(1)對現有中文情感詞典進行了擴充整合,整理建立了網絡情感詞典庫,形成比較全面的情感詞典。

(2)針對評論文本特點,提出一種改進的基于詞典的情感規則分類方法,在處理指代問題和特殊語言結構時分類結果更加精確。

(3)充分利用情感規則方法分析的結果,將經過情感語義規則方法中提取出的有效信息與人工設計的多種特征進行融合映射到N維特征空間中,使模型可以學習到更多的情感知識。

(4)將建立的情感分類算法在酒店評論分析任務上進行實驗驗證。

1 機器學習與情感規則融合的文本情感分析方法

對于NLP問題,由于漢語情感分析資源有限,且因其絕無僅有的復雜度,從而使得識別中文評論的情感成為一項具有挑戰性的任務。文中提出了一種機器學習與情感規則相結合的多特征融合的中文文本情感分析方法,目標是對現有評論文本進行情感分類,從而發現用戶對產品、主題的評價信息。將情緒結果映射到極性,并將其分為三類:正向情感、負向情感和中性情感。

1.1 情感詞典構建

情感詞典是構建的帶有情感極性色彩標記的一個集合,是文本情感分析任務中不可或缺的重要組成部分,通常情況下情感詞典越完備,得到的識別結果越精準。為了得到更好的識別結果,對目前使用廣泛的各大情感詞典(如HowNet、Ntusd、Tsing等)進行整合與擴展,建立了包含基礎情感詞、表情情感詞、程度副詞、否定詞及轉折連詞的綜合情感詞典。

除此之外,還建立了網絡情感詞詞典。對于網絡新詞的出現,有很多文獻研究了基于機器學習的擴充情感詞典的方法,取得了一定的效果[9]。但是針對現在各種層出不窮的網絡用語,如“驚不驚喜”、“2333”等詞,由于分詞及候選詞抽選等問題不能用算法得到很好的處理效果。故以知乎爬取的網絡用語詞典為基礎,對其他網絡情感詞進行了整理和擴充,構建了情感詞數量為726的網絡情感詞典。

1.2 文本預處理

中文評論文本通常包含了極強的個人風格和個人感情色彩,表達內容豐富,除了具有不規范性、語法基本都是偏向生活化和口語化之外,還包含大量不規范用語、錯別字、鏈接以及表情符號等,所以在進行文本情感分析任務之前,需要對其進行預處理。

為了提高文本情感分析的效率,首先進行濾除網址、標簽、不規則用語以及去除停用詞的處理。在文本預處理階段,分詞是非常重要的組成部分之一。由于評論文本口語化特點明顯,且包含大量網絡新詞,使用一般的分詞工具效果不是非常理想,所以采用中科院開發的可加入用戶自定義詞典的中文分詞系統ICTCLAS[10]對評論文本進行分詞處理,以達到更好的分詞效果。

1.3 基于詞典的情感規則分類方法

基于情感詞典的分類方法是以情感詞為中心,根據情感詞典的先驗知識來判斷文本的情感傾向,最經典的是對情感詞進行累加得到文本的情感傾向值,公式如下:

(1)

其中,Swi為第i個情感詞的極性;n為情感詞的總數。

根據式1將所有情感詞的極性進行疊加,根據最后得到的數值來判斷文本情感傾向值。但是在文本中決定情感極性的不僅只是情感詞,其他如否定詞、程度副詞以及語言結構等都會對情感傾向造成一定影響。

針對經典方法存在的缺陷,提出基于詞典的情感規則分類方法。由于評論文本一般較短,首先將文本中每個子句作為一個單元,通過以情感詞典為基礎設立的情感規則方法得到的情感計算公式2對每個單元進行情感傾向計算,最后將所有的單元得分值進行疊加,得到整個評論文本的情感傾向性。

(2)

其中,n表示文本中情感詞的總數;Pwi表示第i個情感詞的極值;m表示修飾第i個情感詞的詞數;modj表示其對應的修飾詞的權值;k表示強化削弱系數,是為了避免主語混淆所導致的情感分析偏差。

在文本情感分析任務各種算法中,往往由于缺少指代判定,所得出的情感極性并不是對主語的判定,結果存在偏差。

情感規則如表1所示。

表1 情感規則

1.4 機器學習方法

基于機器學習的分類方法是將情感分析看作一個模式分類問題,建立分類模型來判斷情感極性。首先,機器學習方法需要對文本進行標注工作,將其作為訓練集,然后提取特征對分類器進行訓練,最后對測試語料進行測試得到分類結果。

文本特征選擇是機器學習的關鍵步驟,決定著情感分類的精度。文中選擇三大類特征:一元詞(unigram)特征、句法特征以及依存詞語搭配特征。其中句法特征是研究組成部分和排列順序的特征,考慮到短語結構可以減少句子歧義,將二元詞(bigram)及其組合詞性標注作為其特征添加到特征集中;依存關系特征是從依存解析樹中得到的依存關系標識,它對情緒類別信息的標注有著重要的作用,可以保存情感詞與情感詞直接相關聯的信息及其他隱藏信息。

以”華為手機確實不錯,我很喜歡!”為例句進行特征提取。首先采用中科院ICTCLAS分詞工具進行處理,得到的詞性標注以及分詞結果如下所示:

華為/nz手機/n確實/ad不錯/a/,/wd我/rr很/d喜歡/vi! !/wd

其中,/nz代表專有名詞;/n代表名詞;/ad代表副形詞;/a代表形容詞;/wd代表標點符號;/rr代表代詞;/d代表副詞;/vi代表動詞。

從上述結果中可以得到例句的一元詞特征及句法特征。然后在分詞的基礎上,調用斯坦福大學的StanfordNlp工具包,獲得文本的依存關系及其詞語搭配特征。例句的依存關系及詞語搭配表如圖1所示。

依存關系assmod(手機-2,華為-1) punct(不錯-4,-5)nsubj(不錯-4,手機-2) nsubj(喜歡-8,我-6)advmod(不錯-4,確實-3) advmod(喜歡-8,很-7)root(ROOT-0,不錯-4) conj(不錯-4,喜歡-8)

圖1 例句依存關系及詞語搭配

從圖中可以發現文本的根節點及其蘊含的4種依存關系:關聯修飾(assmod)、名詞性主語修飾(nsubj)、副詞修飾(advmod)、并列詞連接(conj)。

由上述分析步驟可以得到機器學習方法的3種基本特征模板。為了避免由于原始特征空間維數較大導致的分類器效果下降的問題,采用信息增益(IG)[11]的特征選擇方法對原始特征空間進行維數約簡以選擇相應的特征,其公式如下所示:

(3)

1.5 機器學習與情感規則結合的多特征融合方法

機器學習方法和規則方法相融合的算法受到了很多研究者的關注,如Qiu等[12]將詞典分類結果作為分類模型的訓練語料,形成一個層級迭代的分類框架;Mohammad等[13]將情感詞累加和和收尾詞的極性作為特征。受前人的啟發,文中提出一種機器學習與情感規則相結合的多特征融合的分類算法,其流程如圖2所示。

圖2 情感分類流程

作為機器學習和情感規則融合方法的必要步驟,在根據改進的情感規則方法計算出情感得分后,對其有效信息進行提取和擴展,用以與機器學習特征相融合。文中提取了情感詞得分、正/負向情感詞數量之比、加強次數與削弱次數之比、褒/貶情感句數量之比四種特征,對其歸一化處理后擴展到機器學習特征模板中,訓練SVM分類器,再用測試語料進行測試。通過上述流程,實現了機器學習方法與基于詞典的情感規則方法相結合的多特征融合的文本分類方法,將從規則算法中提取出的多個有效情感信息擴展到向量空間,使得機器學習算法能更充分地利用規則特征,學習到更多的情感知識。

2 實 驗

2.1 實驗準備

實驗具體的配置如下:處理器為Intel(F) Core(TM)i5-6500 CPU @3.2 GHz;內存8 GB;編程平臺為Eclipse;開發語言為Java;數據庫為SqlSever2008。

實驗數據來自(學者譚松波)從攜程網上收集整理的酒店評論語料,隨機抽取正向類別和負向類別樣本各4 000條。其中70%的語料作為訓練數據,其余30%的語料作為測試數據。

為對實驗效果進行評價,采用情感分類準確率(accuracy),即分類正確的樣本數占所有樣本數的比例,作為評價指標:

accuracy=num(correct)/num(all)

(4)

2.2 實驗結果與分析

當前較為著名的分類器有支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰分類器(KNN)等,文中選擇在文本分類領域中性能較好的SVM算法來測試分類效果[14]。目前應用最為廣泛的SVM分類器主要有LibSVM和SVMLight兩種,采用由臺灣大學林智仁教授開發的LibSVM[15]進行分類測試,將所獲得的文本特征矩陣轉化成LibSVM所對應的格式,最終獲得情感分類類別。

表2比較了兩種基于詞典的情感規則方法的效果,結果表明,經過改進的情感規則方法的準確率得到了有效提升,但由于設定的情感規則仍較為粗糙,需要繼續改進。

表2 基于詞典的情感規則方法分類性能

為了更好地驗證情感規則方法與機器學習方法融合的有效性,將機器學習的基本特征模板作為基準,加入情感規則方法提取的有效信息特征作對比。其中,Ft1是一元詞特征,Ft2是依存關系特則,Ft3是句法特征。為了避免特征冗余現象造成的向量空間維數過大對分類器效果的影響,根據信息增益公式計算每個特征的信息增益分數,選擇分數靠前的1 000、2 000、4 000項特征構成文本向量。SVM的核函數選取徑向核函數。結果如表3和表4所示。

表3 機器學習與情感規則融合的方法

表4 對比實驗

從表3可以得知,在不加入從情感規則方法提取轉化的有效特征情況下,最好的分類精度在一元詞特征與依存特征取信息增益值前2 000項時達到了最好的分類效果,識別率為82.33%。并且一元詞特征與依存特征相結合取得的識別率高于一元詞特征與句法特征相結合取得的識別率,說明在這種短文本的語料中,依存關系特征帶來的性能提升大于句法特征。在融合從情感規則方法提取的有效特征后,識別效果均有較大提升,并且在三種基本特征信息增益分值前2 000項時與情感規則特征相融合得到了最好的識別效果,識別率為83.66%。

從表4可以得知,文中提出的方法相比單一的情感詞典方法、機器學習方法在識別準確率上有較大提升,且高于Qiu[12]、Mohammad[13]提出的機器學習與規則方法相融合的算法,更加適合中文評論文本情感分類,證明了該算法的有效性。

從以上結果可知,在文本情感分析任務中,提出的改進情感規則方法的準確率得到了有效提升,在提取其有效信息進行多特征融合后達到了最好的分類正確率。

3 結束語

對基于詞典的情感規則方法進行改進,提出一種基于多特征融合的文本情感分類算法,將從改進的規則方法中提取有效信息進行轉化擴展,融合基本特征模板形成了更為有效的特征模板,實現了機器學習方法與情感規則方法的融合。通過酒店評論語料測試,實驗結果表明,該方法在文本情感分類任務中取得了較好的效果。

猜你喜歡
規則分類特征
撐竿跳規則的制定
數獨的規則和演變
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 精品国产自在在线在线观看| 欧美一区二区三区国产精品| 波多野结衣一区二区三区四区| 国内精品小视频在线| 亚洲日韩精品伊甸| 久久青草免费91线频观看不卡| 在线观看国产小视频| 狠狠做深爱婷婷久久一区| 三级国产在线观看| 成人福利在线视频免费观看| a毛片在线播放| 午夜一级做a爰片久久毛片| 日本国产精品一区久久久| 欧美日韩在线成人| 97久久人人超碰国产精品| 国产精品亚洲一区二区三区z| 国产玖玖玖精品视频| 免费国产黄线在线观看| 欧美亚洲一区二区三区在线| 亚洲香蕉久久| 欧美一级黄片一区2区| 久久综合伊人 六十路| 久久毛片网| 日韩欧美一区在线观看| 色呦呦手机在线精品| 国产乱人伦AV在线A| 欧美日本在线播放| 亚洲三级色| 亚洲精品手机在线| 丝袜美女被出水视频一区| 91免费国产高清观看| 99久久国产综合精品2023| 成年人国产视频| 国产欧美日韩另类| 激情乱人伦| 91精品免费高清在线| 激情乱人伦| 久久美女精品国产精品亚洲| 国产美女无遮挡免费视频| 9久久伊人精品综合| 国产在线91在线电影| 国产高清国内精品福利| 欧美亚洲欧美| www.亚洲一区二区三区| 不卡的在线视频免费观看| 一本二本三本不卡无码| 婷婷99视频精品全部在线观看 | 天天躁狠狠躁| 成年片色大黄全免费网站久久| 亚洲天堂网在线播放| 亚洲成av人无码综合在线观看| 日韩专区欧美| 欧美国产日韩在线| 成年免费在线观看| 四虎精品免费久久| 免费高清毛片| 国产精品极品美女自在线网站| 情侣午夜国产在线一区无码| 免费亚洲成人| 在线观看欧美国产| 欧美精品1区| 亚洲女同一区二区| 中文纯内无码H| 国产一在线| 国产精品一区在线观看你懂的| 欧美劲爆第一页| 热九九精品| 亚洲无码日韩一区| 人人艹人人爽| 国产在线精彩视频二区| 亚洲AV无码一区二区三区牲色| 欧美成人第一页| 免费一级毛片在线观看| 无码中文AⅤ在线观看| www欧美在线观看| 国产原创自拍不卡第一页| 免费欧美一级| 欧美日韩国产成人高清视频| 国产在线视频欧美亚综合| 99色亚洲国产精品11p| aaa国产一级毛片| 日韩国产一区二区三区无码|