朱憲瑩,劉箴,金煒,劉婷婷,劉翠娟,柴艷杰
(寧波大學信息科學與工程學院,浙江 寧波 315211)
基于特征融合的層次結構微博情感分類
朱憲瑩,劉箴,金煒,劉婷婷,劉翠娟,柴艷杰
(寧波大學信息科學與工程學院,浙江 寧波 315211)
情感分類是觀點挖掘的熱點研究之一,微博文本情感分類具有很高的應用價值。鑒于傳統特征選擇方法存在語義缺陷,采用神經網絡語言模型,提出了基于概率模型的對詞向量進行權重分配的深層特征表示方法,構建文本語義向量。將文本深層特征與淺層特征融合,構建融合語義信息的特征向量,彌補傳統特征選擇方法語義的缺陷。采用SVM層次結構分類模型,實現多種情感分類。實驗結果表明,采用特征融合的層次結構情感分類方法,能有效提高微博情感分類的準確率。
情感分類;詞向量;深層特征;特征融合;層次結構分類模型
近年來,隨著各種網絡社會媒體的出現,在眾多社會媒體中挖掘用戶情感已成為自然語言處理和數據挖掘領域中的重要內容。微博因其開放性、及時性、廣泛性等特點,自問世以來,吸引了眾多研究人員的關注。針對微博的自然語言處理研究已成為當前的熱門,其中,情感分析技術是該領域的重要研究內容。
傳統文本情感分類中,研究的主要內容是特征選擇方法。傳統的特征選擇方法選取的特征均為文本淺層特征,沒有考慮文本的語義信息。2013年Google(谷歌)推出了Word2Vec,該工具是一款開源框架,其利用深度學習思想,采用神經網絡語言模型,通過訓練,把對文本內容的處理簡化為K維向量空間中的向量運算。Word2Vec利用詞的上下文,使語義信息更加豐富。本文采用神經網絡語言模型,利用Word2Vec工具訓練詞向量,提出WWBP方法 (word vector weighting distribution based on probabilistic model of deep features representation,基于概率模型的詞向量權重分配的深層特征表示方法),該方法通過概率模型,建立文本概率向量,采用softmax函數歸一化文本概率向量,結合文本詞向量矩陣與情感系數,構建文本語義向量;將文本深層特征與淺層特征融合,構建融合語義信息的特征向量,彌補傳統特征選擇方法的語義缺陷。
傳統文本情感分類主要是粗粒度的分類,如極性分類或多種情感分類。但語料中無情感的文本往往占很大比例,會降低分類器的精度。在多分類中,情感之間存在一定的相關性,采用全局分類器難以達到很好的分類效果。基于以上問題,提出基于SVM的層次結構情感分類模型。
本文采用WWBP方法與傳統特征選擇方法融合的方法,構建含有語義信息的特征向量,采用層次結構的SVM分類器,實現微博情感的多分類。
基于機器學習的文本情感分析技術在情感分析領域取得了很大的發展。Pang[1]首次將機器學習的方法應用于文本情感分析中,嘗試使用N-gram詞語特征和詞性特征,并對比了樸素貝葉斯、最大熵、SVM這3種分類器,實現對電影評論的分析,實驗結果表明SVM分類器分類效果最好。2004年,Pang[2]將主、客觀句的總結引入情感分類中,通過最小分割法選擇文本中的主觀句,對選擇出的主觀句進行訓練和測試,對文本進行情感分類,提高了分類器的準確度。Alam等人[3]對神話故事進行情感分析,使用情感詞特征、POS特征、特殊標點符號特征,根據神話故事自身特點,抽取特定的文本特征,利用SVM分類器對文本進行分類,實現6種基本情緒分類[4]。Ghazi等人[5]采用兩層的層次模型,克服了數據集不平衡的狀況,結果表明層次結構分類器模型提高了分類的準確率。之后他們又提出了兩層和三層的層次結構分類模型[6]。
Huang等人[7]提出一種多標簽多任務的情感分類模型,應用在情感分類和話題分類中,解決了文本多情感問題。Liu等人[8]提出基于多標簽的情感分析,首次將多標簽的分類方法應用到微博情感分析中。Xu等人[9]提出一種基于層次情感分類的中文微博情感分析模型,實現細粒度的微博情感分類,但只考慮了淺層的文本特征,且情感類型存在冗余。Cho等人[10]構建了一個領域情感詞典,通過情感詞典構建特征向量,將情感詞作為特征,采用SVM分類器進行情感分類;實驗證明,該方法提高了分類的準確率。Sun等人[11]利用微博中的表情符號,采用SVM分類器進行情感分類,實現微博情感分類。劉翠娟等人[12]采用基于依存句法和人工標注相結合的情感分析技術,對新浪微博的話題數據進行群體情感強度分析,并對微博情感分析進行了可視化。
Hinton[13]在1986年提出概念的分布式表達,開創了詞語分布式表達的先河。其基本思想是通過大量語料庫訓練,將某種語言中的每個詞語映射成一個固定長度的向量,得到詞向量表示方法。Word2Vec[14,15]由Google團隊提出并實現,該工具能夠在較短時間內,從大規模語料庫中學習到高質量的詞向量。
本文提出基于概率模型的詞向量權重分配的深層特征表示方法(WWBP方法),將文本淺層特征與深層特征融合,采用層次結構分類器,實現微博情感分類。
本節從傳統文本特征、基于詞向量的文本深層特征、特征融合和分類器構建幾個方面進行闡述。基于特征融合的層次結構情感分類總體框架如圖1所示,主要有數據采集、數據預處理、特征選擇、深層特征表示、層次結構分類器構建這幾部分。其中,深層特征表示和層次結構分類器的構建為主要創新部分。
傳統的文本情感分析特征主要有以下幾種。
(1)詞典特征
包括情感詞特征、詞特征或短語特征。本文利用大連理工大學的情感詞典構建情感詞特征,該情感詞典囊括7類情感,即樂、好、怒、哀、懼、惡、驚。

圖1 基于特征融合的層次結構情感分類框架
(2)語言結構特征
包括 N-gram特征、詞性(POS)特征。N-gram特征有unigrams、bigrams、trigrams特征,本文選取了 unigrams和bigrams特征,詞性特征選取了名詞、動詞、形容詞等特征。
(3)微博特征
包括特殊標點符號特征、表情符號特征。特殊標點符號,如連續出現的“!”“?”,該特征在情感表達中起強調作用。表情符號在微博中直接表達用戶情感,是評判微博情感的重要指標。
本文利用向量空間模型與布爾權重表示法構建基于傳統特征選擇方法的文本特征向量。分別使用CHI(Chi-square,卡 方 統 計 )、IG (information gain,信 息 增 益 )、MI(mutual information,互信息)這幾種特征選擇方法,實現特征選擇。
在自然語言處理領域,深度學習的一個重要應用是挖掘文本特征的分布式表示,深度學習方法將單詞用固定長度的實數向量表示,即詞向量,詞向量包含了該詞在文本中的語義信息。傳統特征選擇方法存在語義缺陷,只考慮文本的淺層特征,沒有表達詞之間、句子之間深層的語義信息。本文從深度學習文本表示的角度,針對傳統文本特征存在語義缺陷的問題,提出WWBP方法。
定義1 (全局概率模型)指每個詞或短語在語料庫中的貢獻度,頻率高的貢獻度大,反之貢獻度小。采用詞或短語在語料中的概率作為貢獻度的評價標準,提出了全局概率模型,如下:

其中,sumwi表示詞wi在語料中出現的次數,sumall表示語料中詞的總數,sumwi/sumall表示詞wi在語料中出現的概率,即該詞在語料庫中的全局概率。該模型描述了詞wi在語料中的貢獻程度。
本文提出的WWBP方法利用全局概率模型,結合詞向量,構建與詞向量維度相同的文本語義向量,其實現流程如下。
(1)數據預處理
使用新浪微博API采集微博數據,對采集的數據進行預處理,如去除特殊符號、網址、話題符號等。利用中國科學院分詞系統,對微博數據分詞,得到2 GB微博數據語料庫。將該語料庫作為訓練詞向量的語料庫。
(2)詞向量訓練
利用gensim庫的Word2Vec工具,訓練微博數據語料庫的詞向量,得到每個詞的詞向量。本文分別訓練了100、150、200、250 和 300 維的詞向量。
(3)概率語料庫構建
通過全局概率模型式(1),計算語料庫中詞的全局概率,構建概率語料庫。該概率語料庫共98 724個詞,每一行由詞和其對應的概率組成。
(4)文本概率向量
結合概率語料庫與詞向量,構建文本概率向量。文本概率向量表示文本中詞的貢獻度分布,其計算式為:

其中,Pj表示第j篇文本的概率向量,pi(i=1,2,…,n)表示第j篇文本中第i個詞的概率,n表示第j篇文本詞的數目。
在概率語料庫中詞的概率成指數形式,對語料貢獻度不明顯。使用該概率為詞向量分配權重,使得詞向量每個維度語義的信息較少,構建的文本語義向量語義信息不明顯。為了使文本語義向量包含更多的語義信息,采用基于softmax函數的概率向量歸一化方法,利用softmax函數柔化文本概率向量,將文本概率向量每個維度的概率值歸一化為0~1之間的數值,使出現在文本中詞的概率和為1。其計算式為:

其中,pi(i=1,2,…,n)表示該篇文本中第i個詞的概率,n表示文本中詞的總數。通過softmax函數歸一化,得到新的文本概率向量為:Pj′=[σ(p1)σ(p2)… σ(pn)] (4)
其中,Pj′表示第 j篇文本歸一化的概率向量,σ(pi)(i=1,2,…,n)表示第j篇文本中第i個詞歸一化后的概率,
且文本概率向量歸一化后,新的文本概率向量數值間的差距縮小,更能反映每個詞對文本的貢獻度。
(5)文本詞向量矩陣
一條微博由多個詞構成,每個詞均有唯一的詞向量與之對應。文本詞向量式為:

其中,Mj表示第 j篇文本的詞向量矩陣,vik(i=1,2,…,n,k=1,2,…,K)表示第i個詞向量第k維的語義信息,表示第j篇文本中第i個詞的詞向量。根據式(4)得到的文本概率向量,為文本詞向量分配權值。權值分配后的文本詞向量矩陣為:

其中,σ(pi)(i=1,2,…,n)表示詞向量對應的歸一化后的概率。
(6)情感系數設定
微博中的情感詞直接表達微博情感,為了強調情感詞對微博情感的影響,設定情感系數α,其中,α∈(0,1)。通常非情感詞在微博中對情感的影響比情感詞小,為了強調非情感詞與情感詞對文本情感貢獻的不同,設定非情感系數為β,其中,β∈(0,1)。對微博中每個詞設定情感系數,設定規則為:

(7)文本語義向量
將文本詞向量矩陣中所有詞向量對應維度相加,構建的文本語義向量為:

特征選擇方法有CHI、IG、MI等,每種特征選擇方法都有其自身的優缺點。CHI判定了特征項與類別之間的關聯程度,關聯度越大,信息量也越多;但該方法只統計文本中是否出現詞,而不管詞出現的次數,因此對低頻詞有所偏袒。IG是基于信息熵的特征選擇方法,文本特征越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵越高,信息熵可以更好地區分特征對于類別區分度的貢獻。但是該方法只考察特征對整個系統的貢獻,而不能具體到某個類別中。MI作為特征詞和類別之間的測度,互信息量越大,其特征類別相關度越高,該方法不需要對特征詞和類別之間關系的性質作任何假設,適合于文本分類的特征選擇;但是該方法存在詞頻缺陷。
由以上可知,CHI、IG、MI方法僅選取與類別相關的特征項,沒有考慮文本詞之間、上下文之間的語義關系,存在語義缺陷問題。WWBP方法結合概率模型與詞向量,抽取文本的語義信息,構建文本語義向量;CHI、IG、MI方法選取與類別相關的特征項,構建文本特征向量;因此本文提出將語義向量與特征向量融合的方法,構建融合語義信息的文本特征向量。采用的特征融合方式分別為CHI+WWBP、IG+WWBP、MI+WWBP。
傳統分類模型實現的是粗粒度的情感分類,沒有考慮文本之間的情感聯系。例如:a.今天很開心;b.今天很傷心;c.今天天氣晴朗。a是積極的文本,是開心的情感;b是消極的文本,是傷心的情感;c是沒有情感的文本。文本數據量大時,沒有情感的文本會降低傳統分類器的精度,且有情感的文本,由于極性不同,也會降低情感分類的精度。因此本文構建了一個基于SVM的層次結構分類器模型,首次使用層次結構分類模型實現7種情感分類,提高了情感分類的精度。
本文構建了具有3個層次結構的情感分類模型。第一層構建主客觀分類器,實現主客觀分類,剔除文本中無情感的文本,減少最終情感分類的誤判率。第二層構建極性分類器,將第一層分類得到的有情感的文本作為第二層的輸入數據,實現文本的極性分類。第三層分別構建消極情感分類器和積極情感分類器,將第二層分類后極性不同的文本分別作為第三層的輸入數據,得到文本最終的情感類型。層次結構情感分類模型如圖2所示。
本文利用自然語言處理與中文計算會議數據集,將近幾年該會議的數據集進行整合,得到14 000條已經標注情感類型的微博數據。主要的情感類型有無情感、厭惡、傷心、生氣、吃驚、害怕、喜好、開心。各情感類型分布見表1。

表1 各情感類型微博數量
對該數據集(data)進行情感層次劃分,首先,劃分為有情感類型的文本數據(subject)和無情感類型的文本數據(object)。其次,對有情感數據集進行極性劃分,將喜好和開心劃分為積極(positive)情感,其他情感類型,包括厭惡、傷心、生氣、吃驚、害怕劃分為消極(negative)情感。
將數據集劃分為10 000條數據的訓練集和4 000條數據的測試集,用來訓練全局分類器;將data、subject、positive和negative數據集分別劃分為訓練集和測試集,用來訓練層次結構分類器。
本文采用 P(precision,準確率)、R(recall,召回率)、F1
(F1-measure,F1 值)作為評價指標。
文本類別歸屬判別見表2。

表2 文本類別歸屬判別
(1)準確率
分類器判別為ci類別的文本數與實際屬于ci類別的文本數的比值,其計算式為:

(2)召回率
實際屬于ci類別的文本數與分類器判別為ci類別的文本數的比值,其計算式為:

準確率和召回率分別反映分類器不同方面的性能:準確率反映分類器的準確性,召回率反映分類器的完備性。
(3)F1 值
它綜合了準確率和召回率,其計算式為:

實驗采用LibSVM工具包和已處理好的實驗語料。

圖2 層次結構情感分類模型
為了驗證WWBP方法的有效性,做了以下實驗。首先,研究了不同維度的詞向量構建的文本語義向量,對有無情感分類、極性分類和多分類實驗結果的影響,選擇最佳的維度進行WWBP方法與傳統方法CHI、IG、MI的對比實驗,由于MI方法存在詞頻缺陷,根據詞頻大小對選取的特征項進行排序,提取詞頻較大的特征項,計算它的互信息。其次,為了得到更好的分類效果,提出了特征融合的方法,將 CHI、IG、MI方法分別與 WWBP方法融合,構建包含語義信息的特征向量,即CHI+WWBP、IG+WWBP、MI+WWBP,分別實現文本有無情感分類、極性分類、多情感分類。
用 2 GB 的微博語料訓練 50、100、150、200、250、300維詞向量,分別用這幾種維度的詞向量,根據深層文本特征構建文本語義向量,實現有無情感分類(motion)、極性分類(polarity)、多種情感分類(positive 和 negative),實驗結果如圖3所示。

圖3 不同維度詞向量分類器精度
實驗結果表明,隨著詞向量維度的增加,分類器精度不是線性變化,當詞向量的維度由50維增加為100維時,每個層次的分類精度均有所提高;維度繼續提升時,精度沒有明顯的變化。因此,在接下來的實驗中,采用100維的詞向量。
5.1.1 有無情感分類
數據集采用data,分類器采用SVM,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法。實驗結果見表3。
實驗結果表明,在有無情感的二分類中,WWBP方法的P、R、F1值均比傳統文本特征選擇方法高 1%~5%。特征融合方法與傳統方法相比,其P、R、F1值平均提高了3%左右。WWBP方法和特征融合方法與傳統方法相比,分類精度均有提高,如圖4所示。

圖4 基于各特征選擇方法的有無情感分類器精度
5.1.2 極性分類
數據集采用subject,分類器采用SVM,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法。實驗結果見表4。
實驗結果表明,在極性分類中,WWBP方法的P、R、F1值均高于MI方法;積極文本分類時,WWBP方法的R值高于其他特征選擇方法;消極文本分類時,WWBP方法的P值高于其他傳統特征選擇方法,F1值高于MI和CHI方法。特征融合方法與傳統方法相比,其P、R、F1值平均提高了1%左右。WWBP方法得到的分類器精度高于IG和MI方法,特征融合的方法與傳統方法相比,分類器精度均得到提高,具體如圖5所示。
5.1.3 多種情感分類
數據集采用negative,分類器采用SVM,特征選擇方法采用 CHI、IG、MI、WWBP和特征融合方法。實驗結果見表5。

表3 基于各特征選擇方法的有無情感分類

表4 基于各特征選擇方法的極性分類

表5 基于各特征選擇方法的消極情感多分類

圖5 基于各特征選擇方法的極性分類器精度
實驗結果表明,在多情感分類中,WWBP方法的F1值高于IG、MI方法;傷心分類時,WWBP方法分類效果最優,其P、R、F1值均高于傳統方法。特征融合方法與傳統方法相比,其P、R、F1值均有所提高。WWBP方法得到的分類器精度高于IG和MI方法,特征融合法與傳統方法相比,分類器精度均得到提高,具體如圖6所示。
以上實驗得出,WWBP方法的分類效果優于傳統的特征選擇,且將WWBP方法與傳統方法融合,在有無情感分類、極性分類和多分類中分類效果均得到一定提高,取得了更好的分類效果。
由上述實驗結果可知,WWBP方法與傳統方法融合實現的分類效果優于傳統方法。為了驗證基于特征融合的層次結構情感分類方法的高效性,分類器采用全局SVM分類器和基于SVM的層次結構分類器,特征選擇方法采用CHI、IG、MI、WWBP和特征融合方法,對微博進行多種情感分類。實驗結果見表6、表7。

圖6 基于各特征選擇方法的消極情感分類器精度
由表6、表7可知,采用SVM的層次結構分類器,對微博進行 8種情感分類,與全局分類器相比,其P、R、F1值均得到了一定幅度的提高。對無情感的微博分類,其P、R、F1值達到80%以上。并且每種特征選擇方法,使用層次結構分類器后,其P、R、F1值均得到了提高。實驗結果表明,采用層次結構分類器模型時,根據每個層次分類任務使用對應分類器,P、R、F1值均得到了提高。

表6 基于各特征選擇方法的全局情感多分類

表7 基于各特征選擇方法的層次結構情感多分類
采用特征融合的層次結構分類器分類,與使用傳統方法的層次結構分類器相比,其分類結果的P、R、F1值均得到一定的提高,與使用傳統方法的全局分類器相比,其P、R、F1值均提高了8%~50%。綜合評價各種組合,采用CHI+WWBP特征融合的層次結構分類器分類效果最佳。
由以上實驗可知,采用層次結構的分類效果優于全局分類,說明對情感類型采用對應類別的分類器分類,能夠提高分類的準確率;采用特征融合方法的分類效果優于單個特征選擇方法分類效果;采用特征融合的層次結構分類器對文本分類,其分類效果最佳。
文本情感分類在自然語言處理、數據挖掘、社會媒體中的應用越來越廣,傳統的文本特征選擇方法存在語義缺陷,選取的特征沒有語義信息。Word2Vec利用詞的上下文關系,訓練出的詞向量包含豐富的語義信息。因此,本文提出WWBP方法,構建文本語義向量,該語義向量為文本深層特征;將深層特征與淺層特征融合,構建融合語義信息的特征向量,彌補傳統方法語義缺陷問題。實驗結果表明,特征融合的方法與傳統特征選擇方法相比,在有無情感分類中,準確率、召回率和F1值平均提高了3%左右;在極性分類中,準確率、召回率和F1值平均提高了1%左右;在多分類中,準確率、召回率和F1值均有所提高。在多種情感分類時,提出基于特征融合的層次結構情感分類方法,采用SVM層次結構情感分類模型,實驗結果表明,該方法與全局分類器相比,其準確率、召回率和F1值均提高了8%~50%,提高了微博多種情感分類的準確率。
本文采用的分類器均為SVM分類器,未分析不同分類器分類結果的優劣;詞向量的好壞取決于語料庫的大小。以后將從分類器選取和語料庫擴建兩方面著手,優化實驗。
[1]PANG B,LEE L,VAITHYANATHAN S.Thumbs up sentiment classification using machine learning techniques[J].Computer Science,2009(10):79-86.
[2]PANG B,LEE L.Seeing stars:exploiting class relationships for sentiment categorization with respect to rating scales[J].Arxiv Cornell University Library,2004:115-124,arXiv:cs/0506075v1.
[3]ALAM C O,ROTH D,SPROAT R.Emotions from text:machine learning for text-based emotion prediction[C]//Conference on Human Language Technology and Empirical Methods in Natural Language Processing,October 6-8,2005,Vancouver,British Columbia,Canada.New York:ACM Press,2005:579-586.
[4]ECKMAN P.Universaland culturaldifferencesin facial expression of emotion [EB/OL]. [2016-05-02].https://www.researchgate.net/publication/248224937_Universal_and_cultural_differences_in_facial_expression_of_emotion.
[5]GHAZI D,INKPEN D,SZPAKOWICZ S.Hierarchical versus flat classification of emotions in text[C]//NAACL HLT 2010 Workshop on ComputationalApproachesto Analysisand Generation of Emotion in Text,June 5,2010,Los Angeles,USA.New York:ACM Press,2010:140-146.
[6]GHAZI D,INKPEN D,SZPAKOWICZ S.Hierarchical approach to emotion recognition and classification in texts[M].Berlin:Springer,2010:40-50.
[7]HUANG S,PENG W,LI J,et al.Sentiment and topic analysis on social media:a multi-task multi-label classification approach[C]//The 5th Annual ACM Web Science Conference,May 2-4,2013,Paris,France.New York:ACM Press,2013:172-181.
[8]LIU S M,CHEN J H.A multi-label classification based approach for sentiment classification[J].Expert Systems with Applications,2015,42(3):1083-1093.
[9]XU H,YANG W,WANG J.Hierarchical emotion classification and emotion component analysis on chinese micro-blog posts[J].Expert Systems with Applications,2015,42(22):8745-8752.
[10]CHO S H,KANG H B.Text sentiment classification for SNS-based marketing using domain sentiment dictionary[C]//2012 IEEE International Conference on Consumer Electronics(ICCE),Jan 13-16,2012,Las Vegas,NV,USA.New Jersey:IEEE Press,2012:717-718.
[11]SUN X,LI C,YE J.Chinese microblogging emotion classification based on support vector machine[C]//2014 International Conference on Computing,Communication and Networking Technologies (ICCCNT),July 11-13,2014,Hefei,China.New Jersey:IEEE Press,2014:1-5.
[12]劉翠娟,劉箴,柴艷杰,等.基于微博文本數據分析的社會群體情感可視計算方法研究[J].北京大學學報 (自然科學版),2016,52(1):178-186.LIU C J,LIU Z,CHAI Y J,et al.Visual study on calculation method of social groups emotional based on the micro-blog post analysis [J].JournalofPeking University(NaturalScience Edition),2016,52(1):178-186.
[13]HINTON G E.Learning distributed representations of concepts[EB/OL].[2002-08-01].https://www.researchgate.net/publication/2883217_Learning_Distributed_Representations_of_Concepts
[14]MIKOLOV T,CHEN K,CORRADO G,etal.Efficient estimation of word representations in vector space[J].Computer Science,2013(9),arXiv:1301.3781v3.
[15]MIKOLOV T,SUTSKEVER I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.
Hierarchical micro-blog sentiment classification based on feature fusion
ZHU Xianying,LIU Zhen,JIN Wei,LIU Tingting,LIU Cuijuan,CHAI Yanjie
Faculty of Information Science and Technology,Ningbo University,Ningbo 315211,China
Sentiment classification is an important issue of opinion mining.It has a high application value to classify sentiment in micro-blogs.As traditional feature selection method has semantic gap,a neural network language model was used to propose a deep feature representation method based on probability model to distribute weight to the word vector.Using this method,text semantic vector could be built.In order to avoid the semantic gap,the deep features and shallow features of text were integrated and feature vector that contained semantic information was constructed.With SVM hierarchical classification model,a variety of sentiments could be classified.Experimental results show that the hierarchical sentiment classification method based on feature fusion can improve the accuracy of sentiment classification in micro-blogs.
sentiment classification,word vector,deep feature,feature fusion,hierarchical classification model
s:The National Natural Science Foundation of China(No.61373068,No.61271399),Ningbo Science and Technology Plan Project(No.2015A610128,No.2015C50053,No.2015D10011,No.2011B81002),Specialized Research Fund for the Doctoral Program of Higher Education(No.20133305110004)
TP391
A
10.11959/j.issn.1000-0801.2016182
2016-06-16;
2016-07-05
國家自然科學基金資助項目 (No.61373068,No.61271399);寧波市科技計劃基金資助項目 (No.2015A610128,No.2015C50053,No.2015D10011,No.2011B81002);高等學校博士學科點專項科研基金資助項目(No.20133305110004)

朱 憲 瑩 (1991-),女 ,寧 波 大 學 信 息 科 學 與工程學院碩士生,主要研究方向為文本情感分析。

劉箴(1965-),男,博士,寧波大學信息科學與工程學院教授,主要研究方向為虛擬現實和社會媒體。

金煒(1969-),男,博士,寧波大學信息科學與工程學院副教授,主要研究方向為圖像處理。

劉婷婷(1980-),女,寧波大學信息科學與工程學院博士生,主要研究方向為虛擬現實和社會媒體。
劉翠娟(1979-),女,寧波大學信息科學與工程學院博士生,主要研究方向為社會媒體。
柴艷杰(1968-),女,寧波大學講師,主要研究方向為信息檢索和動漫仿真。