基于并行化遞歸神經網絡的中文短文本情感分類

2017-04-14 00:47:18王修君

計算機應用與軟件 2017年3期

關鍵詞：情感模型

謝鐵鄭嘯張雷王修君

(安徽工業大學計算機科學與技術學院安徽馬鞍山 243002)

基于并行化遞歸神經網絡的中文短文本情感分類

謝鐵鄭嘯張雷王修君

(安徽工業大學計算機科學與技術學院安徽馬鞍山 243002)

情感分析的一個重要應用是判斷用戶對于產品評論的情感傾向，這些用戶評論一般都是字數較少的短文本。傳統方法多利用詞袋模型獲取單詞的淺層特征來進行情感分析，利用這些簡單特征訓練的模型在短文本，尤其是在復雜語法問題上效果并不理想。通過利用深度遞歸神經網絡算法來捕獲句子語義信息，并引入中文“情感訓練樹庫”作為訓練數據來發現詞語情感信息，在短文本情感五分類的問題上取得了較高的準確率。針對復雜模型在海量數據訓練上的時間效率問題，通過在Spark并行框架下實現了模型的并行化處理，使得模型的可擴展性和時間效率得到提升。

深度學習情感分析文本分類 Spark

0 引言

在自然語言中，除了反映客觀事實的信息之外，通常也包含著反映人類主觀感情色彩的信息。情感分析的目的就是讓計算機通過規則或統計學習等手段，來標注出人類自然語言文本里表達的情感、觀點。

情感分析的對象最初是篇章級的文本。隨著移動互聯網的發展，互聯網上出現了更多的短文本數據,情感分析的研究對象也開始轉為短文本。短文本相對于篇章級的長文本而言，其提供的信息量較少，且口語化嚴重，提升了分析和分類難度。在基于機器學習的情感分類算法中，傳統方法主要采用了詞袋模型，詞袋模型無法適應短文本中更加復雜的語言環境，其容錯率大為降低。神經概率語言模型出現以后，抽取詞語的特征并進行向量化表示的方法得到了較大認可。于是在短文本的情感分類算法中，特征選取也開始從學習數據集的統計特征轉向每個詞語的語義特征。Socher[1]使用的遞歸自編碼模型正是利用詞向量自底向上結合的方式，來計算一個句子的特征向量。這種語義合成的方式在情感分類任務中取得了不錯的效果，但無法準確地捕獲一個詞語對周圍詞語的影響。同時，隨著以微博、社交評論為代表的短文本的大量涌現，當前算法也面臨了短文本大數據帶來的計算性能下降的挑戰。

本文使用遞歸張量神經網絡作為模型，該模型用一個張量參數捕獲詞語對其鄰近詞語的語義影響。為了使模型能夠運用于中文文本，本文建立了中文情感訓練樹庫。為了更好滿足算法對大數據處理實時性的需求，本文對該模型在Spark框架下做了并行化處理的優化。

1 相關工作

情感分析目前主要有兩類方法：基于詞典的方法和基于機器學習的方法。前者需要構建情感詞典，通過統計文本中情感詞的條目來計算情感傾向，其局限性在于無法解決未登錄詞問題。Pang[2]較早運用機器學習方法處理情感分類任務，通過n元模型(n-gram)作為特征，再運用樸素貝葉斯、最大熵分類器、支持向量機進行分類，取得了較好的效果。隨后研究者開始嘗試各種方法進行情感分析任務：Mulle[3]把傳統的特征與句法關系相結合。之后Kennedy[4]把上下文語境和情感傾向性轉移考慮到特征選擇中。但以上方法本質上還是基于詞袋模型，詞袋模型其忽視語序的特點導致某些情形下的分類效果很差。比如，像這樣兩個句子：“這部電影優點大于缺點”和“這部電影缺點大于優點”，對于詞袋模型來說，這兩個句子具有相同的詞袋模型的向量表示，意味著在詞袋模型中，這兩個句子處理結果是一樣的。然而，事實上，這兩個句子表達的觀點截然相反。Nakagawa[5]運用加依存樹的條件隨機場模型(CRF)對詞袋模型進行改進，該模型可以適用于一些情感極性轉移的情況。但一方面該方法需要大量人工構建的語料，另一方面以上方法在建模過程中使用的函數簡單，特征的選取也較為簡單，導致其對復雜語句的表達能力有限。

中文文本的情感分析基本沿用英文情感分析的方法。如Zhao[6]等人在CRF的基礎上加入“冗余特征”來進行情感分析。李壽山等人[7]認為不同領域需要選擇不同的分類方法，因此他采用一種基于Stacking的組合分類方法用以組合不同的分類。謝麗星[8]等人使用了三種不同的方法，包括表情符號規則方法，情感詞典規則方法，基于SVM的層次結構多策略方法，進行情感分析，并指出基于SVM的層次結構多策略方法效果最好。目前針對中文的情感分析的研究進展相對英文的情感分析有所滯后，主要在于中文情感分析存在以下難題。(1) 中文需要分詞，分詞錯誤會對情感分析產生影響。(2) 由于中文一詞多義現象繁多，給中文情感詞典的構建造成了難度。如“水分”，一般認為是物理意義上的水，為中性詞。引申義為夾雜著不真實的成分，為貶義詞。(3) 中文環境下，尤其是語言較為隨意的網絡上，“反諷”的用法較多。這給情感分析造成很大困難。

上述方法多采用語言的淺層特征，如詞頻，這難以應對短文本復雜的語法環境。因此情感分析任務開始從這些淺層特征，轉向更加抽象的高層特征，如語義。使用深度學習可以通過一種深層的非線性網絡結構來實現復雜函數的逼近，從而捕獲數據的本質特征。深度學習的網絡結構本質是一個多層神經網絡[9]。Bengio[10]提出神經概率語言模型，使用二元語言模型把單詞映射為一組向量，這種詞向量可以抽象出單詞的語義特征，這為后面深度學習算法在自然語言處理領域里的應用奠定了基礎。此后，Socher[11]認為，文本跟圖像一樣也具有類似的樹形遞歸結構，在進行單詞的組合時，往往不是按照單詞的順序組合，而是先組合語法或語義相近的單詞或者短語。這樣一個句子的每個單詞作為一個節點按照相應的語法規則可以自底向上結合為一個樹形結構。由于一個詞可以映射為一個詞向量，因此按照這種樹形結合以后，樹的根節點則代表著整個文本的向量。隨后，Socher[1]就利用該方法提出遞歸自編碼器模型RAE(RecursiveAutoEncoder) 應用于情感分類任務。但是RAE模型無法完全捕捉復雜句子結構下長短語的合成語義[12]，于是在矩陣向量神經網絡模型(Matrix-VectorRNN)[12]中，在沿用RAE模型中向量的同時為每個節點賦予一個矩陣。向量描述的是該詞語本身的含義，矩陣則用于描述該詞語是如何改變其相鄰詞語或短句的含義。但MV-RNN的問題在于，參數太多，而且參數規模依賴于詞表大小，這將會導致計算量非常大，學習也會不夠充分。遞歸張量神經網絡RNTN(RecursiveNeuralTensorNetwork)[13]解決了這一問題，但該模型依賴于特殊的數據集——情感樹庫。如果要在中文文本分析中運用此模型，需要建立一套中文情感訓練樹庫。

2 基于遞歸神經網絡的情感分類模型

基于遞歸神經網絡的情感分類模型的核心思想是通過葉子節點(單詞)自底向上計算父節點而得到的句子向量來進行情感分類。圖1展示了這一過程，當輸入一個句子時，它把該句子解析為一棵二叉樹，每個葉子節點是一個詞，并以向量表示。接著自底向上計算每個葉子節點的父節點的向量。父節點同樣也將作為下次的輸入接著向上計算父節點的向量，直到計算到頂點為止。

圖1 節點利用f函數來自底向上的合成父節點向量，通過softmax函數來預測情感

圖1中每個單詞是一個d維的向量，并進行隨機初始化。所有的向量存于一個矩陣L。其中L∈Rd×|V|， |V|是數據集中所有詞語的個數，即詞表的大小。

每個節點還包含一個softmax分類器：

ya=softmax(Wsa)

(1)

其中，WS∈Rk×d(k是情感標簽的數量)。a表示節點的向量。

不同遞歸神經網絡模型最大的區別在于模型的組合函數f可以根據應用需求來定義。正如前面所說，遞歸張量神經網絡模型(RNTN)既要捕獲單詞組合時的組合含義，又要保證參數的數目不能過多。因此，在遞歸張量神經網絡模型中，使用張量來表示組合參數，所有節點共用一套張量參數。這樣通過張量進行坐標變換使得某些分量可以依照某些規則作線性變換，來降低整體的參數數量。因此組合函數為：

p=f([c1;c2]TV[1:d][c1;c2]+w[c1;c2])

(2)

其中，V[1:d]∈R2d×2d×d是張量參數。

實際上RNN模型可視為RNTN模型在張量V為0時的特例。在這種情況下V不會對輸入的詞向量造成任何影響。反過來，當V不為0時，V顯然會改變詞向量的特征。在充分訓練以后，可視為張量V捕獲了語義合成時的信息。

模型的任務是最大化正確預測情感標簽的概率，也就是最小化每個節點的預測值yi∈Rc×1與目標值ti∈Rc×1的交叉熵(C表示類別的數目)。

RNTN模型使用如下交叉熵函數：

(3)

其中j表示第j個節點。θ表示RNTN模型參數，θ=(V,W,WS,L)。

由于softmax分類中對權重WS求導具有一般性，僅僅是簡單地把各個節點的誤差相加而得到。因此定義xi作為節點的一個向量。忽略權重WS的微分表達式。每一個節點都是通過權重V,W遞歸反向傳導修正其誤差。定義δi,s∈Rd×1為節點i本身的softmax誤差：

δi,s=(WS(yi-ti))?f′(xi)

(4)

其中?是哈達姆算子。取tanh()，f′是其導數。某一節點的求導必須是通過樹的自頂向下的計算過程來完成。參數W，V的完整求導過程是各個非葉子節點導數的總和。下面舉例來說明這一問題。對于節點i，將這個節點反饋的誤差定義為δi,com。顯然，對于頂點p2來說，它只接收來自自己的softmax誤差。因此δp2,com=δp2,s。δp2,com可用于計算對V的求導:

(5)

δp2,down=(WTδp2,com+S)?f′([a;p1])

(6)

其中定義：

(7)

上述中p1節點的反饋誤差等于該節點本身誤差加上p2節點向下傳給p1節點的誤差δp2,down。其中δp2,down分為兩個部分，δp2,down[1:d]和δp2,down[1+d:2d]，前者傳給左孩子a，后者傳給右孩子p1，因此p1的誤差為：

δp2,com=δp1,s+δp2,down[1+d:2d]

(8)

V[k]完整的導數計算過程就是每個非葉子節點的導數相加，公式如下：

(9)

對W的求導方式也是類似的，不再贅述。

RNTN模型的訓練是通過最小化交叉熵函數來實現的，通過對上述參數求導不難實現梯度下降算法尋找函數的最優值。但傳統的隨機梯度下降(SGD)算法本質上是順序性的，這種完全串行都得方式使得參數更新非常耗時，也因此模型的并行較為困難。

考慮到模型參數更新過程的獨立性，本文對RNTN模型做如下修改：(1) 將參數更新部分從RNTN模型中提出，單獨置于參數服務器上運行，參數服務器由一個或多個節點組成。(2) 將訓練集劃分多個子集，并對每個子集運行一個單獨的RNTN模型。(3) 每個模型副本計算出參數的最優值后，與參數服務器交換參數，并獲得參數服務器提供的最新參數進行迭代更新，而參數服務器對不同的節點傳來的參數進行求平均以更新參數。

3 中文情感訓練樹庫的構建

由于模型非常依賴于情感樹庫，語言之間的語法差異使得樹庫無法跨語言，因此這也給模型的跨語言問題上增加的難度。目前中文環境下并沒有標注好的情感樹庫，因此本文為了使RNTN模型能夠適用于中文環境建立了一套情感訓練樹庫。

本文利用python爬蟲在大眾點評網對某一餐飲業的評論數據進行爬取。共收集了11 256條數據。首先需要對這些數據去除HTML標簽以及去除標點符號,然后人工去除與評價內容無關的評論數據。接下來使用分詞軟件進行分詞處理,本文采用了python下的開源分詞工具Jieba分詞。構建語法樹的過程同樣基于上述的遞歸神經網絡模型，但去掉softmax層。為了增加訓練結果中樹結構的可靠性，可以在一個更大規模的語料中進行訓練。在得到語法分析樹后，利用本文建立的標注系統對樹的每個節點人工進行情感標注，這樣生成一套含有11 256棵標注好情感的語法樹庫，即情感訓練樹庫。

考慮到普通兩類(褒貶義)或者三類(褒貶意加中性)情感劃分無法準確把握句子情感，比如“喜歡”和“非常喜歡”的區別，或“不是特別滿意”和“特別不滿意”的區別。此外由于非常極端的情感出現率很低，一般情況下五類足以覆蓋用戶的情感觀點，過多的情感分類也會提升模型訓練的難度。綜合以上，本文選擇五類情感劃分——分別為非常消極、消極、中性、積極、非常積極五類。

RNTN模型一方面需要靠情感訓練樹庫來決定節點合成順序，另一方面，通過節點標簽的變化來捕獲句子情感極性的轉移。如圖2所示，模型的輸入值是一棵每個節點都被標記了情感標簽的句法分析樹。

圖2 “味道很好”這個句子組成的一棵情感訓練樹

模型首先會通過一個映射層把每個單詞賦予一個向量，向量通過softmax層，自底向上地根據語法樹的合成順序來計算出情感極性。在圖2中，注意到“好”字被標記為積極類情感，在與“很”字結合以后，它們的父節點被標記為非常積極類的情感。通過這種極性的變化，來對向量和張量的值進行調優，使其捕獲到這種類型的語義變化。

4 基于Spark的并行化RNTN模型

RNTN模型涉及到大量迭代操作，因此本文選擇基于內存計算的Spark云計算平臺進行并行化處理。如第2節所述，算法訓練的迭代過程主要集中在梯度下降算法更新參數部分，通過對這種串行方式的改進，并行化的基本操作主要是將數據集劃分為若干分片，并在每個分片上運行一個單獨的模型副本，模型副本之間的通信均需要通過參數服務器，該服務器用于維護各模型副本的參數狀態。但是，傳統的并行方式通常是同步模式，比如Spark的Mllib庫以及Mahout。這一做法的缺點在于參數服務器總要等待所有節點提交完參數誤差以后，再統一進行參數的更新。由于不同節點上的處理時間不同，這樣會導致已經計算完畢的節點需要等待其他未完成本輪計算的節點。而本模型由于計算過程相對獨立，計算結果并不依賴于其他模型副本的計算結果，因此最佳方式是異步模式，即：在參數服務器上一旦有節點提交參數，立即更新本地參數，并分配新的參數給該節點，無需等待其他節點計算完畢。在這個過程中一個模型副本產生的最新結果不會立刻體現在其他模型副本中，直到他們進行下次參數交換。參數服務器也可以是由多個節點組成，這時每個參數服務器只與和自己通信的計算節點交換參數。如圖3所示。

圖3 異步模式的并行方式

由于異步模式的一個特點是計算節點與參數服務器交換完參數需要進行下一輪迭代，因此必須把數據集切分成若干子集，一方面如果參數服務器是由多臺計算機組成的，可以分配給不同的參數服務器，另一方面把大數據集切分成多個小批量的數據集以便在計算節點完成計算后多次迭代。需要指出的是，這里和Spark的parallelize函數進行數據切分的目的不同。如果直接使用parallelize函數把數據切分為計算節點數量對應的份數并分配給計算節點，這樣整個模型計算完成仍然需要等待最后一個計算節點完成計算，就談不上異步模式了。因此異步模式的一個前提就是需要把數據切分為非常多個小的子集，然后進行多次迭代實現。

在Spark環境下進行異步模式的另外一個難點在于，Spark提供的函數是基于同步并行模式的，那么參數服務器在迭代過程中，必須等待計算節點計算完成才會進行下一輪迭代。所以為了實現異步模式，需要一些改進。例如：在通常做法中，Spark通過mappatations方法把某個計算過程廣播到計算節點，然后對分配給節點的數據進行一系列的計算，得到結果后進行下一輪迭代，這和同步模式無異。因此，如果進行異步模式，不能直接廣播計算過程。本文對其修改如下：mappatations傳給計算節點的函數作用是用于向參數服務器發出url請求，當參數服務器接收到請求會返回給該節點一個模型的副本。計算節點拿到模型副本完成計算后再向參數服務器post出自己的計算結果。這樣，只要mappatations能夠成功把該函數分配給某一計算節點就完成此次迭代，而無需等待計算節點反饋結果。

由上分析可知，對RNTN模型并行化的一般步驟如下：首先在參數服務器上需要對數據切分成若干子集。每次迭代分配給計算節點一個子集。同時，參數服務器上定義gradient函數和descent函數。前者用于運行模型的梯度下降過程，該函數會在計算節點請求模型副本時發送給計算節點執行。后者運行于參數服務器用于在計算節點返回梯度時更新參數。在計算節點處理每個分片之前，都會向參數服務器請求最新的模型副本(包含最新參數的模型副本)，在計算節點收到模型副本后會執行descent函數，運行梯度下降過程。該過程執行完畢會向參數服務器發送梯度，此時參數服務器更新參數，等待計算節點發出下一輪請求。

下面的算法偽代碼中，getModel()的作用是向參數服務器請求一個模型的副本。sendGradient()的作用是把誤差返回給參數服務器。decent()是在參數服務器上更新參數。gradent()主要是在計算節點運行模型副本，更新參數。SparkRNTN()是并行化RNTN的主函數。

算法1getModel，向服務器請求最新的模型副本

input:ParamServerIP

//參數服務器的IP地址

output:model

//model為包含了最新參數的RNTN模型副本

getModel(ParamserverIP)

model = getModelFormParamserver(ParamserverIP)

return model

算法2 計算節點向參數服務器返回參數誤差

input: ParamserverIP,update

//update為參數誤差

sendGradient(update.ParamserverIP)

sendGradientToParamserver(update,ParamserverIP)

算法3 descent，更新參數服務器上的參數

input:model,update

descent(model,update)

model.paramater += update*α

算法4 在計算節點訓練模型

input:model,data

output:update

gradient(model,data)

update = model.train(data)

return update

算法5 程序的主函數

input:trees

//輸入數據為情感語法樹的括號表示形式

SparkRNTN (trees)

sc = SparkContext()

for i=0 to 數據集總和 step = minibatch

data = sc.parallelize(trees[i:i+minibatch])

//把sendGradient、gradient、getModel發送到計算節點執行

rdd.mapPartitions(sendGradient(gradient(getModel(ParamserverIP), data),ParamserverIP )).collect()

while true:

if 有節點發出更新參數的請求：

update = 獲取計算節點post來的參數誤差

descent (model，update)

//在本地更新模型參數

if 有節點請求模型：

將最新的model發送給計算節點

return model

5 實驗

本文設計兩套不同的實驗。第一個實驗是驗證模型在中文數據下的準確性。第二個實驗主要是驗證并行RNTN模型的性能。在實驗1中，所用數據為11 256條美團網上用戶對新石器燒烤店的評論數據。實驗2在Spark云平臺環境中進行，所用環境配置為：4臺CPU2.8 GHz、8 GB內存的臺式機作為計算節點，1臺CPU2.2 GHz，內存8 GB的臺式機作為參數服務器，Spark版本為2.4.1，python版本2.7.3。

5.1 RNTN模型在中文語言環境下的應用

首先對每條數據經過如下處理：去重，去標點，分詞，構建語法樹。其中語法樹結構用樹的括號形式表示，并對每個節點從非常消極到非常積極用1到5之間的數字進行標記。整理后的數據如表1所示。

表1 情感樹的括號表示形式

為驗證RNTN模型在中文環境各類復雜句式下的情感分類準確率，本文針對轉折句式、否定句式和一般句式幾種不同句式分別做了實驗。其中采用的典型轉折句式251條，否定句式198條，一般句式11 256條。

從表2可以看出：首先，單純的word2vec模型能夠捕獲語義信息但無法捕獲情感信息，因此在三類測試中的準確率均較低。其次，由于詞袋模型忽略語序，無法分辨哪個情感詞在轉折之前哪個之后，也就無法區分情感往哪一方偏移，在否定句式中也只是記錄否定詞出現的次數，因此誤差也較大。RAE在使用語義做特征的基礎上捕獲情感信息，相對其他模型有一定的優勢。而RNTN模型由于加入情感樹庫作為訓練集，節點上的標簽能夠非常清楚地指示情感轉移或否定現象，加之張量對某些修飾詞語的捕獲，因此獲得了最高的準確率。同時也驗證了引入了中文情感樹庫的RNTN模型能夠很好地應用于中文語言環境。

表2 情感5分類的準確率

5.2 RNTN模型在Spark云平臺的并行效果

為了衡量RNTN模型在并行優化后的性能，使用如下指標[17]：

(1) Scaleup：度量不同處理器規模下，處理不同規模數據的性能。該指標計算式為：

(10)

其中runTime(n×Data,m)表示模型在m個計算節點上處理n份數據的時間，下同。

(2)Sizeup：度量了在平臺固定的情況下，依次增加數據量時算法的性能。該指標計算式為：

(11)

(3)Speedup：度量了在數據規模相同下，并行計算比串行計算運算速度加快的程度。該指標計算式為：

(12)

首先是Scaleup，分別在1臺至4臺機器上處理一份完整的數據，所得到的Scaleup性能如4圖所示。

圖4 Scaleup的性能展示

從圖4中可以看出，隨著節點的規模增大，所得到的Scaleup曲線趨于穩定，顯示出了很好的擴展性。此外數據量規模變大，節點擴展性變高，這是因為數據量越大越能較好利用節點的計算能力。

為驗證Sizeup的性能，本文分別考慮1至4臺計算節點分別在10倍、20倍和40倍的原始數據集上運行的結果。

從圖5可以看出，除了增加節點性能會得到提升外。數據規模的增大，也會導致性能的明顯增大，這是因為隨著數據規模增大，節點通信的時間在整個算法的運行時間的比例會減小。因此獲得了較好的Sizeup性能。

圖5 Sizeup的性能展示

在驗證Speedup性能的實驗中，使用與驗證Sizeup性能一樣的實驗環境。如圖6所示。

圖6 Speedup的性能展示

可以發現圖6中隨著節點數目變多，線性加速比下降。原因在于節點數增加會增加節點的通信時間。另外在規模越大的數據集上，模型的線性加速比效果越好。因此并行算法可以有效地應對大數據集。

6 結語

本文主要工作一是通過構建一套中文情感訓練樹庫并引入遞歸張量神經網絡模型進行了中文環境下的5分類短文本情感識別，取得了較好的效果。二是對遞歸張量神經網絡模型實現了并行化處理，通過實驗證明，該并行化的模型有良好的并行性能。

但是并行化的RNTN模型依然有很多問題需要解決。主要在：(1) 在較長文本中，句子的樹形結構會非常壯大，導致性能下降，而且節點越多，實際上干擾信息也就越多。因此下一步工作解決句子節點過多對模型產生的負影響。(2) 在并行化過程中，本文對Spark異步模式改進只是通過建立一個Web服務器在計算節點完成任務之后以Http通信方式來代替Spark內部的通信，更好的方式顯然是針對Spark的內部通信機制加以改進，未來將會在這方面進行研究。

[1]SocherR,PenningtonJ,HuangEH,etal.Semi-SupervisedRecursiveAutoencodersforPredictingSentimentDistributions[C]//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2011:151-161.

[2]PangB,LeeL,VaithyanathanS.Thumbsup?SentimentClassificationusingMachineLearningTechniques[C]//ProceedingsofEMNLP-2002,2002:79-86.

[3]Mullen,Tony,NigelCollier.Sentimentanalysisusingsupportvectormachineswithdiverseinformationsources[C]//ProceedingsofEMNLP-2004,2004:412-418.

[4]Kennedy,Alistair,DianaInkpen.Sentimentclassificationofmoviereviewsusingcontextualvalenceshifters[J].ComputationalIntelligence,2006,22(2):110-125.

[5]NakagawaT,InuiK,KurohashiS.DependencyTree-basedSentimentClassificationusingCRFswithHiddenVariables[C]//HumanLanguageTechnologies:The2010AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2010:786-794.

[6]ZhaoJun,LiuKang,WangGen.AddingRedundantFeaturesforCRFs-basedSentenceSentimentClasification[C]//ProceedingsofEMNLP-2008,2008:117-126.

[7] 李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學報,2010,24(5):56-61.

[8] 謝麗星,周明,孫茂松.基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,26(1):73-83.

[9]HintonGE,OsinderoS,YwT.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,2006,18(7):1527-54.

[10]BengioY,SchwenkH,SenécalJS,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch,2003,3(6):1137-1155.

[11]SocherR,LinCY,NgAY,etal.ParsingNaturalScenesandNaturalLanguagewithRecursiveNeuralNetworks[C]//ICML.2011:129-136.

[12]SocherR,HuvalB,ManningCD,etal.Semanticcompositionalitythroughrecursivematrix-vectorspaces[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.AssociationforComputationalLinguistics,2012:1201-1211.

[13]SocherR,PerelyginA,WuJY,etal.Recursivedeepmodelsforsemanticcompositionalityoverasentimenttreebank[C]//ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2013:1631-1642.

[14] 梁軍,柴玉梅,原慧斌,等.基于深度學習的微博情感分析[J].中文信息學報,2014,28(5):155-161.

[15] 李寧,羅文娟,莊福振,等.基于MapReduce的并行PLSA算法及在文本挖掘中的應用[J].中文信息學報,2015,29(2):79-86.

[16]DeanJ,CorradoGS,MongaR,etal.LargeScaleDistributedDeepNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012:1232-1240.

[17]XuX,J?gerJ,KriegelHP.AFastParallelClusteringAlgorithmforLargeSpatialDatabases[J].DataMining&KnowledgeDiscovery,1999,3(3):263-290.

[18] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.

[19] 陳釗,徐睿峰,桂林,等.結合卷積神經網絡和詞語情感序列特征的中文情感分析[J].中文信息學報,2015,29(6):172-178.

SENTIMENT CLASSIFICATION OF CHINESE SHORT TEXT BASED ONPARALLELIZED RECURSIVE NEURAL NETWORK

Xie Tie Zheng Xiao Zhang Lei Wang Xiujun

(SchoolofComputerScienceandTechnology,AnhuiUniversityofTechnology,Maanshan243002,Anhui,China)

A significant application of sentiment analysis is to determine the user’s semantic orientation in product reviews which are generally short texts. Traditional methods often acquire the shallow characteristics of words for sentiment analysis through bag-of-words model. However, the model trained through these simple characteristics doesn’t have a good performance in short text, especially complex syntax context. Through using deep recursive neural network to capture the semantic information and introducing a Chinese sentiment training treebank as the training set to find the sentiment information, a relatively higher accuracy on five-class short text sentiment analysis is achieved. Aiming at the problem of training time efficiency in large scale data, the parallelization is implemented through Spark, which can enhance the scalability and time efficiency of the model.

Deep learning Sentiment analysis Text classification Spark

2016-03-28。國家自然科學

61402008，61402009)；安徽省科技重大專項(16030901060)；安徽高校省級自然科學研究重大項目(KJ2014ZD 05)；安徽省高校優秀青年人才支持計劃。謝鐵，碩士生，主研領域：自然語言處理。鄭嘯，教授。張雷，教授。王修君，講師。

TP3

10.3969/j.issn.1000-386x.2017.03.037

基于并行化遞歸神經網絡的中文短文本情感分類

0 引 言

1 相關工作

2 基于遞歸神經網絡的情感分類模型

3 中文情感訓練樹庫的構建

4 基于Spark的并行化RNTN模型

5 實 驗

6 結 語

0 引言

5 實驗

6 結語