999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜句式短文本情感分類研究

2018-11-13 05:31:20李毅捷段利國李愛萍
現代電子技術 2018年22期

李毅捷 段利國 李愛萍

摘 要: 目前,網絡文本中主觀內容的情感傾向性識別成為文本信息處理的研究熱點。針對漢語中復雜句式的結構特點以及對多種復雜句式的有效分析,基于word2vec進行情感詞典的擴建,將擴充后的情感詞典、關聯詞表、否定詞表進行特征提取,得到有效的特征詞序列,構建新的復雜句式模型并結合SVM進行訓練和預測,完成復雜句式情感分類。實驗結果表明,提出的復雜句式情感分類模型在處理精度方面比傳統的句子級情感分類方法有了明顯的提高,獲得良好的情感分析效果。

關鍵詞: 文本信息處理; 情感分析; 復雜句式; word2vec; 情感分類模型; SVM

中圖分類號: TN911?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2018)22?0182?05

Abstract: The sentiment tendency recognition of the subjective content in the current network text is a hot research topic of text information processing. In allusion to the structure characteristics of complex sentence patterns in Chinese and effective analysis of various complex sentence patterns, the sentiment dictionary is expanded based on the word2vec. Feature extraction is conducted for the expanded sentiment dictionary, associated word list, and negative word list, so as to obtain the effective sequence of feature words. The new model of complex sentence patterns is established, which is trained and predicted by combining with the SVM, so as to complete sentiment classification of complex sentence patterns. The experimental results show that, in comparison with the traditional sentence?level sentiment classification method, the proposed sentiment classification model of complex sentence patterns has a significant improvement in processing accuracy and can obtain a good sentiment analysis effect.

Keywords: text information processing; sentiment analysis; complex sentence patterns; word2vec; sentiment classification model; SVM

隨著互聯網的興起及迅速普及,開放性不斷提高,人們通過微博等網絡平臺和電子商務等網站發表對時事新聞、熱門話題、各種商品的觀點和看法,用戶龐大而穩固。交互的便捷使網絡成為了人們越來越喜歡表達自己觀點和相互交流的主要方式之一。隨之而來網絡上產生的主觀性文本包含大量有用情感信息[1],因此對復雜句式的情感分析需要不斷探索與學習。

1 研究現狀

目前,對復雜句式的情感傾向性分析主要是基于機器學習的方法[2],吳曉吟研究了基于篇章情感分析中條件句、轉折句、比較句對情感分析的影響,提出這三種句型的情感分析算法使篇章級情感分析準確率有所提高[3]。楊富平等人提出基于SVM和復雜句式的情感分類方法,通過分析漢語復雜句的結構特點,比較各類特征組合的情感分類正確率[4]。Song Rui等人通過建立比較句式模型利用條件隨機場(CRF)進行比較句提取與分析[5]。Ramanathan Narayanan等人研究條件句情感分析,建立基于主題的監督學習模型從5個不同領域的條件句證明所提方法的有效性[6]。針對目前文本表達方式自由與多樣等問題造成的復雜句式影響句子級情感分析的問題,本文對各種中文復雜句式進行詳細情感分析,提出一種針對復雜句式的情感分類準則以及基于word2vec的情感詞典擴展方法,結合SVM分類器完成復雜句式的情感分類。

2 復雜句式

2.1 復雜句式簡介

漢語中復雜句由幾個分句組成,含有多個主謂(賓)結構陳述兩件或兩件以上事情,重點在主句陳述的事情而分句的出現是為了更全面地闡釋主句的含義,總結常見復雜句式:假設句式是某種情況下所產生的結果。例句:“如果不隨便扔垃圾,環境就會變好。”褒義詞“變好”影響句子情感極性,假設條件或特定條件下子句表達的情況不一定會發生。常用關聯詞:如果,只要……就;只有……才;即便、即使、就算、哪怕、縱使……還,也等。條件句式提出特定條件產生特定結果,或不管任何條件都產生某種結果。例句“不管這條道路多艱苦,我都會付出我的熱情。”中“艱苦”與“熱情”褒貶情感詞的出現對分類的判定產生影響,后一分句中的情感詞是重點。常用關聯詞:無論、不管、不論……都。

轉折句式前后分句意思完全相對或部分相對。例句:“雖然生活水平提高,但是不能奢侈浪費。”轉折句中“雖然”引導的分句不是整句話的重點,“但是”引導的分句情感是整句話的重點。常用關聯詞:雖然、雖說、雖是、盡管……但、但是、然而、可是、不過……。

說明因果句式前后分句分別闡明原因和闡釋結果,前后分句都是客觀真相。推論因果句式前后分句分別提出一個前提和由該前提推導出的結論,結論句中的情感詞更能代表句子的情感傾向。常用關聯詞:因為……所以;原來、因此……;既然……就。

并列句式由多個簡單句不分主次不分從屬關系并列組成,前后分句都是客觀事實。常用關聯詞:又……又……;既……又……;一邊……一邊……;那么……那么……。

選擇句式分句分別列舉多種情況并從中選出一種情況,例句:“你喜歡游泳,還是喜歡打球。”褒義情感詞“喜歡”對情感分類的判定產生影響。常用關聯詞:是……還是……;與其……不如……;或者……要么……。遞進句式前后分句的關系在意義上進一層次,前后分句都是客觀事實。常用關聯詞:不但、不僅……。

2.2 復雜句式處理

本文根據各種復雜句式的特點,將引導復雜句式的關聯詞歸納為三類,如表1所示。

若復雜句式包含否定詞,則前后分句分別統計否定詞數量,句中含有奇數重否定會改變句子的情感傾向,含有偶數重否定與句子表達情感傾向相同[7]。本文總結常見否定詞:未、從未、難以、絕非、不宜、沒有、非、不曾、莫、不夠、毋、否、不大、不太、顛覆、不、未曾、并非、未必、休、不要、沒、否認、勿、沒法、無、無法、不便、別、不許、不是。本文不僅通過關聯詞識別,還考慮關聯詞的詞性、復雜句式模型來識別復雜句。根據表1對復雜句式的分類,結合否定詞,將第一、二、三類關聯詞用[WA,WB,WC]表示,奇數和偶數重否定分別用[DO,DE]表示,情感詞用[WS]表示,總結復雜句式匹配模型如下:

3 資源構建

3.1 情感詞典

情感詞典的建立和擴展是文本情感分析研究工作的基礎。情感詞典[8]的完善對提高情感分析準確率有很大幫助。中文情感分析領域當前沒有統一標準化的情感詞典,本文選取的中文情感詞典:將HowNet中文情感詞典進行整理有褒義詞(4 566個)貶義詞(4 370個)。大連理工大學情感詞典對中文詞匯、短語進行詳細描述,將詞語情感分為7大類21小類,本文選取11 229個褒義詞匯、10 783個貶義詞匯以及5 375個中性詞匯。網絡文本中大量帶有情感傾向的新詞會影響分詞的性能,進而影響文本情感分類結果。為了提高文本情感分類的準確率,本文經收集整理網絡資源摘選出464個帶有情感傾向的網絡詞匯構建網絡熱點詞情感詞典,如表2所示。

3.2 word2vec原理

word2vec(word to vector)能夠學習含有上億條語句的語料庫并輸出適度維度空間中的詞向量,通過這些詞向量之間的運算完成各種自然語言處理的計算任務,許多文本處理把詞語作為原子單位,但詞語之間沒有語義相似這一概念,使處理文本任務時有一定局限性,word2vec能從龐大數據集中計算出高維詞向量空間中包含上下文語義信息,有利于挖掘更多情感信息。本文采用基于Hierarchical Softmax的CBOW模型進行訓練,該模型比傳統神經概率語言模型去掉了投影層,輸出層對應一個二叉樹,改用了Huffman樹,降低了計算復雜度,提高了計算速度[9]。

通過分析有些詞語不是輸入詞語的相近詞,例如“疼痛”“狀態”“疾病”等,為了將更精確的相近詞擴充到基礎情感詞典,本文使用改進的基于《知網》的詞匯語義相似度計算方法[10]。對上一步產生的詞語集進行過濾,計算輸入情感詞與相近詞集中每個詞的語義相似度,定義語義相似度取值為[0,1]內實數,當兩個情感詞相似度值等于1則語義完全相同。本文設定閾值為1,保留和種子詞語義相似度值為1的詞語作為最終入選的相近詞,如表4所示。

將已構建的基礎情感詞典中情感詞作種子詞,通過上述方法,去除基礎情感詞典中已存在的重復詞,經過人工整理,最終褒義情感詞擴充465個,貶義情感詞擴充510個,中性情感詞擴充105個。

3.3 復雜句式情感分析

4 實驗結果及分析

本文使用了豆瓣電影七大分類各100部電影共20 000條影評作為數據集,除去重復和無價值數據,剩余17 542條影評,進行情感極性標注,將分類數據集按比例1∶1用于訓練與測試。本文將情感傾向分為褒貶中三類,實驗分別使用傳統SVM分類器和加入本文構建的復雜句式情感評判規則進行情感傾向性研究,本文以準確率、召回率、F值作為實驗的評價指標,單位為%,實驗結果如表5和圖1所示。

根據實驗結果得出7種復雜句式在準確率、召回率、F值三方面都有不同程度的提高,遞進句式和并列句式提高程度略低。本文繼續驗證擴展后情感詞典對情感傾向性影響,設基礎詞典:關聯詞典+否定詞典+網絡熱點詞詞典。特征詞典1:HowNet詞典+基礎詞典。特征詞典2:大連理工大學情感詞典+基礎詞典。特征詞典3:HowNet詞典+大連理工大學情感詞典+基礎詞典。特征詞典4:擴展后情感詞典+基礎詞典。實驗結果如表6所示。

通過實驗結果分析,擴充后的情感詞典在情感分類準確率、召回率、F值三方面都有明顯提高,擴充后情感詞典包含了豐富的語義信息,挖掘到詞語間更多的語義關系,可以得到更完善的領域詞、網絡新詞、情感詞。綜合以上優勢本文提出的復雜句式情感傾向性分析方法有更好的分類效果,展現出優良的性能。

5 結 語

中文文本中涵蓋豐富的情感信息,情感分析所使用的方法要考慮是否能正確判斷出作者要傳達的所有情感,有些詞語同時具備褒貶性,例如“好事”,可以表示一件令人快樂的事件,也可以表示對他人的貶責。分詞對情感傾向性的判別也很重要,例如“我與其余人不同”,若沒識別出“其余”而識別成“與其”則影響情感分析結果。有些關聯詞的識別,例如“他不如你好看”中“不如”分詞系統標注是動詞,不是連詞,例如“她不管你了”中“不管”雖標注成連詞,但不符合復雜句式的匹配模式。有些日常詞語單獨使用不具備情感,搭配后具有情感傾向,例如“成績上漲”表達快樂,“物價上漲”表達不滿。這些問題都會影響情感傾向性的判斷,未來工作要繼續對文本情感分析進行更加深入的學習與研究。

參考文獻

[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834?1848.

ZHAO Yanyan, QIN Bing, LIN Ting. Text sentiment analysis [J]. Journal of software, 2010, 21(8): 1834?1848.

[2] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia: Association for Computational Linguistics, 2002: 79?86.

[3] 吳曉吟.中文復雜句型的情感分析研究[EB/OL]. [2013?03?15].http://www.doc88.com/p?1738770331623.html.

WU Xiaoyin. Sentiment analysis of complex sentences for Chinese document [EB/OL]. [2013?03?15]. http://www.doc88.com/p?1738770331623.html.

[4] 楊富平,黃志勇.基于SVM和復雜句式的中文微博情感分析[EB/OL].[2016?01?12].http://www.doc88.com/p?3317610703317.html.

YANG Fuping, HUANG Zhiyong. Chinese micro?blog sentiment classification based on SVM and complex phrasing [EB/OL]. [2016?01?12]. http://www.doc88.com/p?3317610703317.html.

[5] 宋銳,林鴻飛,常富洋.中文比較句識別及比較關系抽取[J].中文信息學報,2009,23(2):102?107.

SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction [J]. Journal of Chinese information processing, 2009, 23(2): 102?107.

[6] NARAYANAN R, LIU B, CHOUDHARY A. Sentiment analysis of conditional sentences [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 180?189.

[7] 李愛萍,邸鵬,段利國.基于句子情感加權算法的篇章情感分析[J].小型微型計算機系統,2015,36(10):2252?2256.

LI Aiping, DI Peng, DUAN Liguo. Document sentiment orientation analysis based on sentence weighted algorithm [J]. Journal of Chinese computer systems, 2015, 36(10): 2252?2256.

[8] BACCIANELLA S, ESULI A, SEBASTIANI F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [C]// Proceedings of the International Conference on Language Resources and Evaluation. Valletta: European Language Resources Association, 2010: 2200?2204.

[9] LILLEBERG J, ZHU Y, ZHANG Y. Support vector machines and word2vec for text classification with semantic features [C]// Proceedings of 14th International Conference on Cognitive Informatics & Cognitive Computing. Beijing: IEEE, 2015: 136?140.

[10] 江敏,肖詩斌,王弘蔚,等.一種改進的基于《知網》的詞語語義相似度計算[J].中文信息學報,2008,22(5):84?89.

JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008, 22(5): 84?89.

[11] 邸鵬,段利國.基于復雜句式的文本情感傾向性分析[J].計算機應用與軟件,2015,32(11):57?61.

DI Peng, DUAN Liguo. Text sentiment polarity analysis based on complex sentences [J]. Computer applications and software, 2015, 32(11): 57?61.

主站蜘蛛池模板: 九色91在线视频| 日本成人在线不卡视频| 孕妇高潮太爽了在线观看免费| 91尤物国产尤物福利在线| 国产精品不卡永久免费| 欧美激情网址| 在线va视频| 欧美乱妇高清无乱码免费| 午夜国产精品视频黄| 69视频国产| 91在线国内在线播放老师| 全部免费特黄特色大片视频| 亚洲精选无码久久久| 欧美天堂久久| 欧美视频二区| 暴力调教一区二区三区| 亚洲天堂高清| 她的性爱视频| 黄色一及毛片| 1024你懂的国产精品| 成人国产免费| 久久精品只有这里有| 四虎精品免费久久| 国产精品尤物在线| 黄色片中文字幕| 亚洲综合国产一区二区三区| 亚洲男人天堂网址| 国产免费福利网站| 亚洲无限乱码| 午夜日本永久乱码免费播放片| 亚洲AV成人一区二区三区AV| 欧美成人一级| 欧美在线三级| 国产精品第一区在线观看| 国产精品自在自线免费观看| 国产av无码日韩av无码网站| 国产一级毛片yw| 日本亚洲成高清一区二区三区| 国产一级在线观看www色| 国产不卡网| 国产精品污视频| 欧美A级V片在线观看| 国产97视频在线观看| 色综合狠狠操| 内射人妻无码色AV天堂| 欧美伊人色综合久久天天| 亚洲人在线| 精品小视频在线观看| 亚洲一欧洲中文字幕在线| 99久久亚洲综合精品TS| 91系列在线观看| 丁香婷婷久久| 亚洲人成网线在线播放va| 免费A级毛片无码免费视频| 亚洲一区黄色| 国内精品手机在线观看视频| 久久黄色毛片| 91久久国产成人免费观看| 欧美日韩精品一区二区在线线| 啦啦啦网站在线观看a毛片| 福利国产在线| 中文字幕永久视频| 国产成熟女人性满足视频| 一本大道香蕉久中文在线播放 | 无码'专区第一页| 国产精品成人不卡在线观看| 华人在线亚洲欧美精品| 这里只有精品在线播放| 亚洲色欲色欲www在线观看| 亚洲欧美另类中文字幕| 91香蕉视频下载网站| 国产精品亚洲日韩AⅤ在线观看| av手机版在线播放| 黄色成年视频| 高清精品美女在线播放| 欧美日韩国产高清一区二区三区| 国产美女精品一区二区| 伊人成人在线| 欧美a在线看| 日韩在线观看网站| 深爱婷婷激情网| 免费A级毛片无码免费视频|