趙天銳
(戰(zhàn)略支援部隊信息工程大學 洛陽校區(qū),河南 洛陽471000)
情感分析本質(zhì)上屬于文本分類任務,是以文本中包含的情感傾向為標準,對文本進行分類。隨著計算機和互聯(lián)網(wǎng)的不斷發(fā)展,對海量文本信息進行處理、分析后得出信息中的情感分布成為可能。對社交媒體、新聞評論等進行情感分析后得到的結(jié)論,也可以進一步應用在輿情分析、觀點挖掘等領域當中。
傳統(tǒng)情感分析方法分為基于情感詞典的方法和基于機器學習的方法,兩種方法各有所長。而隨著深度學習技術的持續(xù)進步,提出了將深度學習和詞向量相結(jié)合,引入情感分析領域的研究方法。目前在自然語言處理領域,詞向量是具有代表性的語義分布式表示方式,其中具有代表性的是Word2Vec[1]和FastText[2]。但是,目前大部分相關研究都是基于英文、中文等通用語。而對韓語而言,無論是韓國國內(nèi)學者還是國際學者,對韓語情感分析的研究成果較少。因此,本文利用網(wǎng)絡爬蟲,爬取韓語影評語料形成語料庫,使用FastText方法訓練詞向量,而后使用多個深度學習模型進行對比實驗,尋找適合韓語的情感分析模型。進而提出融合卷積神經(jīng)網(wǎng)絡和雙向長短時記憶網(wǎng)絡,并加入Self-Attention機制的韓語情感分析模型,并在自建的韓語數(shù)據(jù)集上證明了該模型的有效性。
情感分析最早是由Pang等[3]于2002年提出的概念。近來,深度學習因在自然語言處理任務中逐漸顯露出優(yōu)越的性能[4],受到越來越多的關注。……