金保華,周兵,王睿,殷長魁
(鄭州輕工業學院,鄭州 410002)
隨著互聯網的發展和普及,其影響已經深入到了人們的日常生活,對人們的生活方式也產生了巨大的影響。網絡空間已經成為人們獲取知識和信息的重要渠道,同時,也是人們表達自己的情感觀點的集散地和社會事件輿論信息的放大器。例如:微博,跟帖評論等。如何對這些承載著情感信息的網絡文本進行情感分類,有利于了解和掌握社會事件輿情的動態。
面對這些數據量如此龐大的文本信息,以人工的方式對它們識別分類,這顯然是不現實的,因此就需要一種智能的方法代替人工來處理這種事情。文本信息的情感分類研究是一項新的研究領域,它包含人工智能、計算機語言學、機器學習、信息挖掘等學科內容。近年來,關于文本情感信息分類的研究已經取得了長足的進步。
基于文本的情感傾向分析是一個多學科相互交叉的研究工作,它包含人工智能、數據挖掘、信息檢索等多個領域和學科。自21世紀初,Pang[1]提出了有關文本情感傾向分析的概念后,不少的學者都對此問題進行了卓有成效的研究。Hinton[2]于2006年提出了深度學習的方法,隨后,深度學習方法在計算機語音與圖像識別領域得到了廣泛運用,并且取得了不錯的研究效果,于是越來越多的學者和研究人員,在借鑒了該方法在其他領域的成功經驗,將其應用于文本情感傾向分析判斷的研究中。
目前為止,常用的文本情感分析方法是基于機器學習的情感分類分析方法,該類分析方法又可以分為支持向量機(SVM)、最大熵(ME)、樸素貝葉斯分類器(NB)、k-最鄰近(kNN)等方法。雖然以上方法可以有效地促進情感傾向分析的準確率,但是這些方法在對文本進行分析之前,需要對文本預處理,例如,對文本信息的預處理、分詞、特征提取等步驟和過程,這些過程對文本情感傾向分析的準確率,起著至關重要的作用。由于需要對文本信息進行過多的人工預處理,而且還忽略了詞義之的關系,費時費力。因此選用一種減少人工預處理的方法,對現在不斷飛速擴展的互聯網文本信息的處理,就顯得尤關必要了。
詞義消歧是自然語言處理中一項重要的工作,同一個的詞匯在不同的語境之下含義不同的現象在自然語言的語境中普遍存在,所以消除詞匯之間的歧義,在文本情感傾向分析中,有著至關重要的作用。為了獲取文本內容向下文相關聯的文本特征信息,Graves[3]提出一種BLSTM模型,該模型采用雙向的LSTM(長短時記憶網絡)對文本信息和特征進行雙向識別。Zhou[4]介紹了帶注意力機制的BLSTM模型,該模型能夠在沒有太多干預的情況下依靠自己來獲取文本特征信息。在2014年,學者Kim[5]提出了一個新的文本情感分類模型,它利用卷積神經網絡模型(CNN),對提取到的文本數據特征進行處理操作,該模型中運用兩個大小不同的過濾器,作為一個分布式的文本特征提取器,被應用于文本情感分類模型中。
本文采用了一種基于卷積神經網絡和詞義消歧的結構模型,大大減少了以人工的方式對文本進行預處理,利用有關數據集對模型進行一定量的訓練后,再進行文本情感傾向的分析。實驗結果表明,該方法模型在減少人工預處理的工作之后,仍然能取得良好的結果。
為了實現計算機能夠有效地識別和處理現實生活中的文字文本信息,就需要找到一種計算機能夠識別的合適的對文本內容信息結構化表示的方法,向量空間模型(Vector Space Model,VSM)是現在最常用的文本表示方法,它是在20世紀60年代末,由哈佛大學的Gerard Salton[6]首先提出的,該表示方法模型最早被應用于Smart信息檢索系統上。在這個模型中,每一個文本都被映射成多維向量中的一個點,以向量的形式給出。將這些向量集合在在一起,于是就形成一個文本的向量空間。
例如,對于給定的文本 D,其中包含單詞集W(w1,w2,…,wm),提取到文本的特征集 K(k1,k2,…,kn),m是文本中的單詞個數,n是表示提取到的文本特征個數。第 j個單詞提取到的 i個文本特征表示為對文本信息做詞向量化處理:

其中,rw是詞 w向量的向量表示,Wword∈Rl×||m表示文本的詞向量矩陣。
兩個文本向量在它們的空間上的距離稱之為它們的相似度。文檔 d1和文檔 d2向量在空間上的夾角余弦值稱之為文檔在該空間上的相似度,其向量余弦值定義為:

文檔向量之間的向量余弦值越高,則表示兩個文檔之間的相關度越高。
在人類自然語言的語境中,一個詞匯往往含有一個甚至多個語義,如果將這個詞匯在一定的語境中獨立出來,這個詞匯就會產生語義歧義。確定一個詞匯的哪個語義在哪個語境中被使用,是詞義消歧研究的目的。
關于詞義消歧的研究在機器翻譯、信息檢索、文本分析、知識挖掘等研究方向都具有十分重要的意義。現有的詞義消歧方法主要可以分為兩類:一、基于詞典的方法,二、基于語料庫的方法。基于詞典的方法利用詞典資源中詞匯和語義之間的對應關系進行詞義消歧,基于語料庫的方法從提供的語料庫中學習自然語言的語言規則,以此來實現語義消岐。
本文選取一種基于知網的語義消歧算法[7],作為本文的研究工具。該算法利用利用語義聯系強度來進行語義消歧。
例如一個詞匯 W,它對應的語義集為R={r1,r2,…,rn},其中n≥1。設 Wi是 W 的一個常用的關聯詞,它們在一起組成一個特定意義的短語,此時與 Wi關聯在一起時,W 對應的語義為 ri(ri∈R,0<i<n),此時Wi就與 W的語義 ri之間有個關聯度,于是就可以建立起一個詞匯與詞匯語義之間的聯系強度網。
文本針對現有的文本情感分類模型,在對詞向量進行訓練的時候,往往忽略詞匯在不同語境的詞義歧義問題,特在模型中引入詞義消歧的概念,在詞向量訓練的同時,對詞向量結合上下文關系進行詞義消歧,然后得到消歧后的文檔特征作為卷積神經網文本情感分類模型的底層輸入數據。其模型示意圖如圖1所示:

圖1 詞義消歧的卷積神經網絡分類模型示意圖
在向量空間模型中,自然語言信息被轉化成由字、詞組和短語等元素組成的結構化向量,這些元素中,有些更能夠代表文本的內容,并且對該文本類區別于其他文本的辨識貢獻度越高,這樣的元素可以被稱作文本的“特征項”。
輸入層:該模型中,文本特征信息利用訓練好的詞向量來表示,然后結合文本中的上下文信息,對當前詞匯進行語義消歧,利用詞義消歧后的詞來表示當前文本的特征表示[8],詞匯在某時刻 t語義消歧后的特征表示為 xt,則有:

則此時的文檔特征矩陣表示為:

卷積層:利用不同大小窗口的過濾器與輸入層相連起來,假使其中一個過濾器窗口大小為 h,與它相對應的卷積過濾器為 v∈Rhk,如果該卷積過濾器對輸入數據樣本中大小為 h的詞向量上,于是對原來的輸入樣本處理操作,產生一個新的特征向量,生成新特征的公式如下所示:

其中,函數 f是一個非線性函數,b∈R是函數f的偏置項元素,并且 b和 v均為該卷積神經網絡模型中的重要參數。此卷積過濾器作用于輸入樣本中所有可能的窗口大小為 h的相鄰此向量{w1:h,w2:h,…,wn-h+1:n}上,然后生成一個特征向量:

其中向量 c∈Rn-h+1。
池化層:池化層對數據特征向量 c進行池化操作。池化操作對數據特征向量 c取最大值c?=max{c}操作,得到的這個最大值 c?就是數據特征向量 c對應卷積過濾器的特征。卷積神經網絡模型中池化層的設計思想是利用池化操作,獲得的特征向量的最大值就是與卷積濾波器中相對應起來的最重要特征。
本文采用現有的數據測試集COAE2014任務4評測語料數據集對模型進行測試,該數據集中共含有40000條測試數據,其中官方公布了5000條評論的極性。利用數據測試集中提供的40000條測試數據來訓練詞向量。
其中數據集中的數據評論樣例如表1所示:
卷積神經網絡中模型有許多重要的參數,這些參數對模型分類效率和準確率都有十分重要的影響,例如:卷積核大小、學習速率等。本文選取Filter與Hidden_unit兩個參數作為訓練參數,Filter為模型卷積層中過濾器滑動窗口的大小;Hidden_unit決定了模型中卷積過濾器的數目[9]。
本文的實驗對參數 Filter,給出(2,3,4)、(4,5,6)、(6,7,8)三個備選項,對參數Hidden_unit給出50和100兩個備選項,然后對參數相互組合,然后給出每種參數組合模型的分類效果,如表2所示:

表1 評論數據例子

表2 不同參數組合模型的準確率對照表
從實驗結果中,我們可以看出本文提到的方法,略好于傳統的卷積神經網絡文本分類模型的結果。且對實驗參數做出調整,發現,當參數Filter為(4,5,6)且參數Hidden_unit為100時,文本分類的準確率最高。因為微博文本的長度一般在140字左右,文本句子的特征維度一般不會太高,經過卷積神經網絡模型的池化操作后,選取到的文本句子的主要特征在100左右,Fliter的寬度決定了詞向量的長度,詞向量的長度過長,不但增加了算法的復雜度,而且還不利于特征的提取。
本文在傳統的卷積神經網絡文本情感分類模型的基礎上,引入了詞義消歧的概念,在對文本訓練的過程中對詞匯進行詞義消歧,得到消歧后的文本特征向量,更能體現文本的原始語義特征,并以此作為輸入數據,利用卷積神經網絡進行分類,得到了比單一的卷積神經網絡模型更好的分類效果,這說明詞義消歧對文本特征的提取是有意義的,而且對分本的分類效果也有一定的提高。