李長鏡 趙書良 池云仙 羅燕
摘要 文本情感分析是多媒體智能理解的重要問題之一,情感分類是情感分析領域的核心問題,旨在解決評論情感極性的自動判斷問題。隨著近年來深度學習技術的快速發展,其在大規模文本數據的智能理解上表現出了獨特的優勢,越來越多的研究人員青睞于使用深度學習技術來解決文本分類問題。
【關鍵詞】文本分類 情感分析 分類方法
1 引言
文本情感分類可以被看成為一類特殊的文本分類問題,目前的絕大多數研究將文本的情感傾向性按褒義(正向)、貶義(負向)這兩種類別來進行極性分類,少數研究也涉及到三類(褒義、貶義和中立)。文本的粒度再被處理后可以在不同的級別上進行分類研究,如文檔級和詞語級等等,由于其處理的范圍不同,根據其研究領域我們可以將情感分類研究再一次進行分類,單領域和跨領域情感以及單語言、跨語言情感是目前比較合適的、科學的分類標準。
2 文本情感分類面臨的問題
2.1 數據稀疏性問題
隨著智能手機、平板電腦等移動設備的普及,以及微博、在線社區等社會媒體的興起,人們表達情感的方式也越來越多,實現的途徑也更加多樣化,同時可以隨時隨刻發表自己的觀點,不再受時間與空間的限制。同時在這個過程中,人們在發表觀點或者進行評論時更多的時應用簡約化的短文本,進一步加劇了數據稀疏性這個問題。數據稀疏性問題給文本情感分類帶來極大困難。
2.2 標注樣本獲取困難的問題
如果想要有監督學習方法具有用戶滿意的分類特征,就需要在進行模型的前期訓練時,有針對性的標注大量典型樣本。而人工標注樣本過程主要存在兩方面的問題,
(1)許多情況下,人工標注樣本需要耗費大量的人力物力,進而增加了巨大的成本。
(2)樣本標注的準確度或者標準會隨著人的主觀意識而發生變化,這一現象直接影響了研究的結果的準確度,直接造成一定的誤差,不利于研究的順利進行。
2.3 情感資源的不平衡性問題
隨著當今社會科技的不斷進步,互聯網信息的呈現出多元化的特點尤其是在語言方面,這直接影響了情感資源的不平衡性,舉個例子,英國早年在情感分析問題上進行了一系列的研究,其研究成果也影響了全國各地的研究學者的研究,這成果就包括了標注語料、情感詞典等,而相比之下我國的國語標注語料、情感詞典等資源也就相對較少,其原因也不僅僅是我國的研究時間較晚,更多的是情感資源在不同語言間具有分布不平衡性,這種不平衡性直接導致了各個國家在此研究方向或者領域的高度。
3 基于情感分析的文本分類方法
3.1 文檔級情感分類
3.1.1 基于有監督學習的文檔情感分類方法
這類方法中,需要先將文檔表示為相應的特征向量,然后在標注樣本上訓練分類器,再用分類器來對新文檔進行分類。Pang等人首先將有監督機器學習方法應用于文檔情感分類問題中,比較了樸素貝葉斯、最大熵和支持向量機這幾種方法在電影評論數據集上的褒貶分類效果,發現文本情感分類比傳統文本分類更具挑戰性。
這種分類方法研究深度相對較高,同時也在一些實際應用中得到了比較理想的分類結果。同時,因為任何一個分類器都具有自己的優劣勢,針對不同領域,分類器效果也存在差別,每一種分類器都有其最優的應用領域,因此要有效選擇分類器,進而發揮其最佳分類效果。
3.1.2 基于無監督學習的文檔情感分類方法
無監督學習方法與監督學習方法不同的是在樣本標注方面上,這一研究在文檔情感分類上直接吸引了一批研究學者的興趣,這里面就有一些有名的學者,如Turney計算情感短語與種子詞間的點對互信息(PMI)值并進行了用形容詞和副詞的短語來作為情感短語的舉措,在此基礎上計算情感短語的情感傾向值。
他的這種方法具有獨特的優勢和先創性,獨立性強、應用范圍廣、便于應用,并且無需使用人工標注樣本,但是由于在發展初期,其缺點也是顯而易見的,其詞匯量有限,情感詞匯的領域相關性以及在文章中的邏輯性都不是非常理想,這也導致了分類標準的不是很差強人意。因此,如何突破情感詞典資源的各種限制性因素對無監督情感分類方法的影響,也是未來需要值得關注的研究內容。
3.1.3 基于半監督學習的文檔情感分類方法
半監督學習的方法是相對于監督學習方法和無監督學習方法而言的,其關鍵點在于有效利用未標注數據,來進一步提升分類性能,這種方法目前已經廣泛應用于文本情感分類,在使用這種方法的同時也需要注意分類模型假設的正確性,并不是未標注數據越多分類效果就越好,有時會得到相反的結果。
3.2 句子級情感分類
3.2.1 句子的主客觀分類
在實際評論中,包含了許多對客觀事實進行直接描述的句子,比如,“今天我和朋友一起逛了蘇果超市,買了蘋果、橘子還有香蕉”就是對客觀事實直接描述的句子,沒人任何的感情以及修飾在里邊。
3.2.2 句子的情感傾向性分類
有監督學習方法在句子的情感傾向性分類的研究中具有非常重要的地位,在此基礎上多重標記CRF的分級模型、將馬爾科夫邏輯網與深度學習相結合、基于表情符號的規則方法、基于情感詞典的規則方法、基于SVM的多策略方法也相繼被一些研究學者提出來,這些分類方法也在實踐中進行了試驗,如在中文微博數據集上進行了情感分類。
3.3 詞語級情感分類
詞語級情感分類研究側重于對所研究內容的極性判斷,基于語義詞典的方法和基于語料庫的方法是當前社會及科研中經常用的到方法。
3.3.1 基于語義詞典的方法
基于語義詞典的方法顧名思義是與詞語的語義相關,根據目前已有的詞典提供的解釋以及相反、同義詞、相近等意思來進行詞語級情感分類。Kim等人是基于此種方法,假設同義詞為正向極性,反義詞為負向極性,他們通過定義種子詞為動詞和形容詞以及利用這些詞匯進行情感詞匯的擴充,同時通過對它們詞義的意思進行極性判斷,這種方法一出隨即就有大量的研究學者研究與模仿,其中頗有名氣的便是Hassan等人,他們一方面在他們的基礎上進行研究,另一方面用WordNet來構建了詞的語義關系圖,并在圖上使用馬爾可夫隨機游走模型來計算給定詞的情感極性。
3.3.2 基于語料庫的方法
基于語料庫的方法的關鍵或者核心就在于詞語與詞語之間的共現關系,利用這種關系來確立情感詞的傾向性,最早進行這方面的研究學者有Hatzivassiloglou,他們挖掘出來的形容詞主要是來自于華爾街日報語料庫,依據的原理就是利用連接詞的關系來確定情感詞的傾向性。盡管進行了大量研究工作,但是就情感判斷而言難度依然很大,特別是很多情況下沒有明顯的情感傾向性,但應用在一些特定領域或環境中就表現出情感傾向性的的詞匯進行識別時,還存在很大的不足。
3.4 跨語言情感分類
單語言環境下的文本情感分類是當前研究的重點,但是隨著計算機網絡技術的不斷發展,網絡上出現越來越多的情感詞典、情感語料,并且充斥著各種不同的語言,這直接帶來了情感基礎資源的分布極不均衡,這也是進行跨語言情感分類研究的原因之一。目前跨語言情感分類的研究面臨著一系列的難點問題,主要包含語言遷移、情感分析本身兩方面的問題,語言遷移主要表現在不同的語言所表達的情感思想差異巨大,再進行語言情感的轉換會丟失大部分的信息,而在情感分析方面最大的問題是容易造成情感歧義的干擾,Kevin等人將跨語言情感分類看成為領域適配( domainadaptation)問題,并認為即使應用非常完美的翻譯工具,跨語言情感分類仍然會面臨領域適配的挑戰,會導致精度退化。
總的來說,跨語言情感分類還存在許多不足之處,仍要進行大量的工作,不斷完善當前存在的不足,這也是文本情感分類中一個非常重要的關注方向。
4 總結
文本情感分類研究涉及的領域范圍非常廣泛,包括自然語言處理、機器智能、大數據處理等,與此同時自然語言處理研究是一個非常復雜的工作,文本情感分類也具有很強的挑戰性,該領域的研究工作雖然取得了長足進步,但目前仍然存在一些亟需解決的問題,需要進一步探索創新。
參考文獻
[1]宋光鵬,文本的情感傾向分析研究[D].北京郵電大學,2008.
[2]倪茂樹,基于語義理解的觀點評論挖掘研究[D].大連理工大學,2007.
[3]楊立公,朱儉,湯世平,文本情感分析綜述[J].計算機應用,2013 (06).
[4]王光,邱云飛,史慶偉,集合CHI與IG的特征選擇方法[J],計算機應用研究,2012 (07).