摘 要:隨著社交網(wǎng)絡(luò)的飛速發(fā)展,互聯(lián)網(wǎng)平臺時刻涌現(xiàn)出大量的文本信息。這些文本信息的情感分析結(jié)果對于政府部門監(jiān)管、消費者決策等具有重要的意義。文本情感分析的方法目前分為基于情感詞典方法、基于機器學(xué)習(xí)方法以及基于深度學(xué)習(xí)方法。本文主要介紹情感分析方法,并提出未來情感分析研究重點。
關(guān)鍵詞:社交網(wǎng)絡(luò);文本;情感分析
一、前言
情感分析與觀點挖掘是自然語言處理領(lǐng)域的一個基礎(chǔ)任務(wù),屬于文本分析范疇。其目的是從文本中判定識別觀點,挖掘分析情感傾向,抽取得出主要的觀點要素。情感分析的處理對象是文本,而文本有大有小,既可以是一個完整的文檔,也可以是一個句子,還可以是一個單詞或短語。根據(jù)文本的這一特性,情感分析研究可以劃分為3個層次,即:文檔級情感分析、句子級情感分析、方面級情感分析[1]。情感分析的方法根據(jù)發(fā)展分為基于情感詞典方法、基于機器學(xué)習(xí)方法以及基于深度學(xué)習(xí)方法。
二、基于情感詞典的方法
傳統(tǒng)情感分析研究方法主要是基于情感詞典的研究方法,基本原理是根據(jù)經(jīng)驗將廣泛使用的情感詞進行歸納整理,當(dāng)文本輸入后就與詞典內(nèi)容進行匹配,尋找文本中與情感詞典中重合的情感詞,從而判斷文本的情感極性。基于情感詞典方法性能主要取決于情感詞典的構(gòu)建,這必將耗費大量的資源進行維護。
三、基于機器學(xué)習(xí)的方法
基于機器學(xué)習(xí)對文本進行情感分析的原理是人工提取文本特征后由計算機根據(jù)某種特定的算法對文本進行處理然后輸出情感分類。相較于完全依賴人工構(gòu)建情感詞典的方法,機器學(xué)習(xí)具有明顯的優(yōu)勢,一方面能有效地緩解勞動力的負(fù)擔(dān)且減少非理性判斷,另一方面能構(gòu)建龐大的數(shù)據(jù)庫且能根據(jù)時代發(fā)展及時對詞庫進行更新。根據(jù)機器學(xué)習(xí)的發(fā)展階段將機器學(xué)習(xí)分為有監(jiān)督的機器學(xué)習(xí)和弱監(jiān)督的深度學(xué)習(xí)。
有監(jiān)督的機器學(xué)習(xí)方法相較于構(gòu)建情感詞典的方法雖然有了一定的進步,但是局限性也比較明顯。首先,有監(jiān)督的機器學(xué)習(xí)方法主要是依賴分類器,還是需要人工對文本特征進行標(biāo)記。其次,有監(jiān)督的機器學(xué)習(xí)方法是計算機根據(jù)已有程序?qū)ξ谋具M行重復(fù)機械操作,并沒有“學(xué)習(xí)”的過程,在進行文本情感分析時不可避免地會產(chǎn)生無效作業(yè)。效率不高的有監(jiān)督學(xué)習(xí)模型無法適應(yīng)大數(shù)據(jù)時代的要求。
四、基于深度學(xué)習(xí)的方法
傳統(tǒng)的文本情感分析方法主要有人工構(gòu)建情感詞典的方法或基于監(jiān)督的機器學(xué)習(xí)模型,但是這2種方法不僅耗費大量的人力,而且在大數(shù)據(jù)時代任務(wù)完成效率和任務(wù)完成質(zhì)量較低。深度學(xué)習(xí)可以通過構(gòu)建網(wǎng)絡(luò)模型模擬人腦神經(jīng)系統(tǒng)對文本進行逐步分析、特征抽取且自動學(xué)習(xí)優(yōu)化模型輸出,以提高文本分類的正確性。
神經(jīng)網(wǎng)絡(luò)模型的使用不可避免地要涉及詞向量嵌入技術(shù),例如Word2Vec,隨著深度學(xué)習(xí)的發(fā)展,基于時間序列的模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等被應(yīng)用于情感分析,并取得了較好的效果。RNN有個長依賴問題,在特征參數(shù)反向傳播的過程中會發(fā)生梯度消失或者梯度爆炸問題,為了解決這一問題,LSTM(長短時記憶網(wǎng)絡(luò))被提出,不僅解決了長依賴問題,而且還能捕捉到文本的實際上下文特征。目前普通的情感分析已經(jīng)研究得比較成熟,而方面級的情感分析正在探索研究階段,主要任務(wù)是提取句子中蘊含的方面術(shù)語,并進行分類任務(wù)。聯(lián)合方面術(shù)語和方面情感詞提取任務(wù)被制定為序列標(biāo)簽問題,但是由于在許多領(lǐng)域中缺乏有標(biāo)簽的數(shù)據(jù),這阻礙了監(jiān)督方法的有效性,并且先前的方法只能通過方面詞和觀點詞常見句法關(guān)系來彌補領(lǐng)域差距,這種方法高度依賴于外部語言資源,因此Li等[2]人探索了一種無監(jiān)督域自適應(yīng)的學(xué)習(xí)方式,并提出一種新穎的選擇對抗學(xué)習(xí)(SAL),以對齊自動捕獲其潛在關(guān)系的推斷相關(guān)向量。SAL方法可以動態(tài)學(xué)習(xí)每個單詞的對齊權(quán)重,以便更重要的單詞可以擁有更高的對齊權(quán)重,以實現(xiàn)細(xì)粒度(單詞級)的適應(yīng),大量實驗證明了所提出的SAL方法的有效性。
五、總結(jié)
從上述研究中可以看出眾多學(xué)者已經(jīng)意識到了深度學(xué)習(xí)的優(yōu)越性,并著力于將深度學(xué)習(xí)方法應(yīng)用于文本情感分析任務(wù),從而達到優(yōu)化情感信息提取以及情感分類的目的。在普通情感分析的研究上已經(jīng)比較成熟。但是,目前深度學(xué)習(xí)在方面級情感分析這一領(lǐng)域還處于探索階段,對于方面術(shù)語和方面分類進行端到端建模分析、聯(lián)合提取方面術(shù)語和方面分類是這一研究的重點任務(wù)。
參考文獻
[1]Y.Y.Zhao,B.Qin,and T.Liu,"Sentiment Analysis," Journal of Software,vol.21,no.8,pp.1834-1848,2010.
[2]Z.Li,X.Li,Y.Wei,L.Bing,Y.Zhang,and Q.Yang,“Transferable End-to-End Aspect-based Sentiment Analysis with Selective Adversarial Learning,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019:Association for Computational Linguistics,pp.4590-4600.
作者簡介:
丁利(1995-),男,漢族,四川瀘州人,學(xué)生,工學(xué)碩士,單位:西華大學(xué)計算機與軟件工程學(xué)院計算機技術(shù)專業(yè),研究方向:情感分析.