999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本特征和語言知識的神經網絡情感分類

2021-03-08 06:17:06楊善良
關鍵詞:分類特征情感

楊善良

(山東理工大學 計算機科學與技術學院,山東 淄博 255049)

文本情感傾向性分類在網絡輿情、危機公關、品牌營銷等領域有著廣泛應用。網絡媒體上積累了大量的用戶評論數據,這些數據集中反映了網民對社會熱點事件、政策實施和產品服務的情感、態度和傾向。由于網絡評論數據分析具有很強的實用價值,在業界和學術界得到了深入的研究。Ye等[1]研究旅游博客數據中的情感傾向性分類問題,幫助旅游者選擇喜歡的旅游目的地。Bollen等[2]通過判斷Twitter文本的情感傾向來預測道瓊斯工業指數的漲跌。

情感傾向性分類把評論數據分成正面、負面和中性等類別,已成為自然語言處理領域重點研究內容之一。在網絡環境下,文本表達具有不規范的特點,常使用縮略詞、網絡新詞,具有拼寫錯誤、語法錯誤等問題,給情感傾向性分類帶來了很大挑戰。解決情感傾向性分類問題的方法主要包括基于詞典的方法、傳統機器學習方法和深度學習方法等。

為提高網絡文本情感傾向性分類的準確率,研究語言知識和情感知識在模型中發揮的作用,本文提出基于文本特征和語言知識融合的卷積神經網絡MI-CNN(multi-features integrated convolutional neural network)模型,把詞語、詞性、情感詞典等外部知識融合到情感傾向性分類模型。首先使用詞向量訓練模型訓練詞向量,加入詞性和情感詞語產生多種特征數據,用于消除詞語歧義和表達情感信息;然后構建卷積神經網絡模型,通過特征層融合和分類層融合的方法將多種特征融合到模型中;最后訓練神經網絡模型,評估模型情感傾向性分類效果。

1 相關研究

神經網絡模型在圖像處理、語音識別和文本分析等領域得到了廣泛應用,取得了比傳統機器學習方法更好的效果。LeCun等[3]提出經典的卷積神經網絡模型LeNet5,并應用于圖像分類。在文本情感傾向性分類上,神經網絡模型也取得了非常好的效果。Kim[4]最早使用卷積神經網絡對句子進行分類,將深度學習引入文本分類領域。Huang等[5]使用LSTM循環神經網絡表達句子向量,然后再根據句子向量表達篇章向量,進行篇章級情感分類。由于神經網絡結構在很大程度上決定了模型的效果,學者對神經網絡結構進行了更深入的研究。例如Zhang等[6]通過融合CNN、LSTM、Attention等多種模型的優勢來解決單個神經網絡模型的缺陷,提出CCLA情感分類神經網絡模型。劉敬學等[7]針對短文本分類的特點,結合卷積神經網絡CNN和長短記憶網絡LSTM,提出一種字符級神經網絡模型。

在神經網絡模型中使用詞向量表示文本信息,詞向量表示能力是影響模型效果的重要因素。2013年由Google發布的詞向量訓練工具Word2vec實現了CBOW和Skip-Gram兩個詞嵌入模型[8-9],成為在自然語言處理領域使用深度學習模型的基礎。根據情感傾向性分類表達情感信息的需求,研究者對詞向量訓練模型進行了改進。例如Tang等[10]使用情感詞嵌入模型SSWE訓練詞向量,以提高情感傾向性分類模型效果。Xiong等[11]使用情感詞典和遠距離監督信息訓練包含情感信息的詞向量。何鴻業等[12]使用詞語和詞性拼接,然后訓練Word-Pos向量,消除詞語歧義,提高詞向量文本表示能力。

文本情感特征表示和使用對情感傾向性分類效果起到重要作用,學者研究了多種情感特征及其組合方法。梁斌等[13]針對特定目標情感分析任務,提出多注意力卷積神經網絡模型,模型中使用詞語、詞性和詞位置等3種注意力特征矩陣。陳珂等[14]針對中文微博情感分析任務,提出多通道卷積神經網絡模型,融合詞語、詞性、詞位置等多種情感信息特征。杜慧等[15]在對象級情感分類中使用詞性信息和對象注意力機制,提出融合詞性和注意力機制的卷積神經網絡模型。

文本情感傾向性分類是自然語言處理領域的重要任務之一,神經網絡模型在情感分類問題上取得了成功,但是關于文本特征表示、語言知識表示、情感知識表示以及多特征融合等問題的研究仍不充分。本文在詞向量表示的基礎上,增加詞性信息和情感詞語信息等外部知識;然后改進卷積神經網絡模型結構,在特征層和分類層融合多種特征,以提高情感傾向性分類效果。使用詞嵌入模型訓練詞語向量WV(word vector),詞語向量能夠表示詞語的上下文信息和語義信息;使用詞語和詞性拼接后訓練詞語詞性向量PoSV(part of speech vector),使用不同向量表示同一詞語的不同詞性,避免了部分詞語歧義問題;使用情感詞語和文本情感標簽訓練情感詞向量SWV(sentiment word vector),SWV能夠表達詞語的情感信息。將多種特征融入到神經網絡模型中,以提高卷積神經網絡情感分類模型的效果。

2 文本特征表示

詞向量是神經網絡語言模型中重要的文本特征表示形式,通過詞向量訓練模型得到詞向量表示。本文在詞語特征的基礎上,增加詞性特征和情感特征。使用神經網絡語言模型訓練詞語、詞性和情感詞3種特征向量,使用詞嵌入模型訓練語料數據得到詞語向量WV,在詞性信息的基礎上訓練得到詞性向量PoSV,在情感詞典和情感標簽等外部知識的基礎上訓練得到情感詞向量SWV。

2.1 詞語特征

神經網絡語言模型在詞語信息表示上發揮著重要作用。詞語是組成句子的基本單元,反映了評論文本的基本信息,是最重要的文本特征;詞語特征向量表達了詞語的語義信息,本文采用連續詞袋模型CBOW(continue bag of word)[10]訓練語料得到。CBOW模型根據當前詞語的上下文預測當前詞語,模型結構如圖1所示,包括輸入層、投影層和輸出層三層結構。假設當前詞語表示為向量wi∈Rm,m是向量維度,輸入層是當前詞語的上下文,選取上下文窗口大小為c,上下文詞語序列表示為context(wi) = [wi-c,wi-c+1,…,wi+c-1,wi+c];投影層是輸入層上下文詞向量的累加和或求平均,這里使用累加操作,累加計算如式(1)所示;輸出層使用Hierarchical softmax計算當前詞語出現的概率p(wi|context(wi))。使用對數似然函數作為CBOW模型的目標函數,如式(2)所示,其中W是訓練樣本中包含的所有詞語。在CBOW模型上訓練語料數據,得到包含語義信息和上下文信息的詞語特征向量。

wsum=∑wj∈context(wi)wj,

(1)

L=∑wi∈Wlbp(wi|context(wi))。

(2)

圖1 CBOW模型結構Fig.1 Model structure diagram of CBOW

2.2 詞性特征

詞性是詞語在文本中表現出來的重要語言知識,詞性特征向量在詞語特征向量的基礎上加入詞性信息,用于解決詞語表現出不同詞性時出現的歧義問題。使用CBOW模型訓練得到的詞向量,一個詞語使用一個詞向量表示。但是詞語經常存在一詞多義的現象,也就是同一個詞語在不同的語境下表達的語義不同,這種情況下就會出現歧義。例如“員工的新制服非常漂亮?!焙汀熬熘品舜跬?。”,這兩句話里面都有“制服”一詞,但是其表達的詞義完全不同。使用詞性可以區分一詞多義現象,第一個句子中的“制服”是名詞,表示統一制式的衣服;第二個句子中的“制服”是動詞,表示用武力馴服。

本文使用詞性緩解詞語歧義問題,將詞語與詞性拼接后形成“詞語_詞性”字符串。然后使用CBOW模型訓練詞向量,將詞性信息編碼到向量中,同一個詞語的不同詞性使用不同向量表示。例如上述示例中的詞語“制服”,詞性特征向量w11表示“制服_動詞”,w12表示“制服_名詞”。當同一個詞語在語境中的詞性不同時,w11和w12能有效解決詞語歧義問題。

2.3 情感特征

情感特征在情感傾向性分類中是重要的信息,文本表達的情感傾向多由其中包含的情感詞語決定,但是在詞向量訓練模型CBOW中沒有考慮情感信息。本文設計能夠學習詞語情感信息的特征向量訓練模型,即情感特征向量模型。使用情感詞典和情感標簽作為情感特征向量模型的監督信息,然后使用模型預測每個詞語的情感傾向性,以及預測詞語所在上下文的情感標簽,最后通過聯合訓練優化模型參數,得到包含情感信息的情感特征向量。情感特征向量訓練模型結構如圖2所示,包含輸入層、全連接層、tanh層和輸出層四層結構。輸入層是當前詞語的上下文,選擇上下文窗口大小為k,上下文詞語序列表示為w= [wi-k,wi-k+1,…,wi+k-1,wi+k];全連接層對上下文詞向量做線性變換,如式(4)所示;tanh層使用雙曲函數對全連接層做非線性變換,如式(5)所示;輸出層使用softmax函數計算當前詞語在情感傾向性類別上的概率分布,計算方法如式(6)所示。公式中Wl1、Wl2、bl1、bl2是網絡模型參數。使用情感詞典和語料訓練模型得到情感特征向量。

input=embedding(w),

(3)

outputl1=input·Wl1+bl1,

(4)

outputtanh=tanh (outputl1),

(5)

y=softmax(outputtanh·Wl2+bl2)。

(6)

圖2 情感詞向量訓練模型結構Fig.2 The diagram of sentiment word embedding training model

3 卷積神經網絡模型

卷積神經網絡CNN被廣泛應用于圖像處理、語音識別、文本分析等領域,在情感傾向性分類任務上也取得了非常好的效果。為了充分利用文本數據中的情感信息,提高情感傾向性分類準確率,本文提出基于多特征融合的卷積神經網絡模型MI-CNN。模型使用詞語特征向量、詞性特征向量和情感詞特征向量作為特征數據,然后使用卷積神經網絡處理特征數據,最后預測文本的情感傾向性類別。

3.1 卷積神經網絡結構

卷積神經網絡結構由Hubel和Wiesel于1962年提出,經過多年的發展演變,目前已經是深度學習領域重要的網絡結構。在自然語言處理領域所使用的卷積神經網絡結構如圖3所示,由輸入層、卷積層、池化層、全連接層和輸出層等組成。輸入層將詞語映射成詞向量輸入到神經網絡模型中,詞向量通過預訓練模型得到。這里輸入層的數據為x(x1,x2,...,xn),其中xi∈Rk表示語句中第i個詞語的詞向量,向量維度為k。卷積層使用卷積核對輸入數據進行操作,卷積核權重矩陣W∈Rh,k,其中h為卷積窗口處理詞語的數量,卷積操作的計算方法如式(7)所示,其中f為激活函數,xi:i+h-1表示從第i到第i+h-1個詞語,b表示偏執量。經過單個卷積核操作后得到特征向量c(c1,c2,...,cn-h+1),c的維度為n-h+1。

ci=f(w·xi:i+h-1+b)。

(7)

c′=max(c)。

(8)

全連接層將特征向量映射到向量z(zj)上,并輸入分類器進行分類。使用邏輯回歸方法進行分類,根據softmax公式得到各個類別的概率分布p(yi|z;θ),如式(9)和(10)所示,其中θ為變量參數,bj為偏置參數,yi為分類類別。輸出層輸出概率最大的分類類別作為預測值。

sθ(yi)=∑zj∈z(zj·θij+bj),

(9)

p(yi|z;θ)=esθ(yi)/∑yi∈yesθ(yi)。

(10)

圖3 卷積神經網絡結構Fig.3 The structure of convolutional neural network

3.2 情感傾向性分類模型

在基于多特征融合的卷積神經網絡模型MI-CNN中分別采用特征層融合和分類層融合兩種融合方法,形成特征層融合模型MI-CNN-F和分類層融合模型MI-CNN-C。特征層融合模型MI-CNN-F先融合特征再使用卷積神經網絡處理,結構如圖4所示。首先對多種特征向量進行組合,輸入詞語向量WV、詞性向量PoSV和情感詞向量SWV,拼接后得到綜合特征向量,然后進行卷積層和池化層操作,最后使用全連接層和分類器進行情感分類。MI-CNN-F模型結構包括6個部分。

圖4 特征層融合模型MI-CNN-F網絡結構Fig.4 The network structure of features fusion model MI-CNN-F

1)輸入層,接收詞語特征向量、詞性特征向量和情感詞特征向量,輸入到卷積神經網絡模型。

2)拼接層,將多種特征向量進行拼接組合,形成整體特征向量。

3)卷積層,對特征數據使用多個卷積核進行卷積操作,卷積核的寬度為特征向量維度,高度分別設置為1、2、3,每個卷積核提取出一組特征向量。

4)池化層,對每個卷積核得到的特征向量進行最大池化操作,通過池化操作獲取每組特征向量的重要信息。

5)全連接層,使用全連接層連接全局特征向量和情感類別,通過權重矩陣學習特征向量和情感類別之間的非線性關系。

6)輸出層,使用softmax函數輸出概率最大的情感類別。

在模型中使用線性整流函數ReLU作為卷積層中的激活函數,卷積操作的計算如式(11)所示,其中h為卷積窗口的長度。

ci=ReLU(w·xi:i+h-1+b)。

(11)

(12)

在經過全連接層處理后,得到長度為類別數量的向量,根據softmax函數計算的概率分布得到最后的分類結果。使用隨機梯度下降法訓練神經網絡模型,在訓練模型過程中使用交叉熵作為模型的損失函數。

分類層融合模型MI-CNN-C將在卷積神經網絡處理之后,再將多種特征的處理結果進行拼接融合。模型結構如圖5所示。首先將特征向量輸入到卷積層和池化層進行處理,然后通過拼接層融合多種特征的處理結果,最后使用全連接層和分類器進行情感分類。MI-CNN-C模型同樣包含6個部分,每個部分的計算方法和特征層融合模型類似。

圖5分類層融合模型MI-CNN-C網絡結構Fig.5 The structure of classification level fusion model MI-CNN-C

4 實驗

4.1 數據集

實驗中采用中國科學院譚松波整理的酒店評論語料數據集,簡稱Hoteldata。數據集包含重復數據,經過去重處理,得到的酒店評論數據集包含2 296 篇正面評論和2 435 篇負面評論,總共4 731 篇評論。

4.2 實驗指標

評價指標采用準確率Precision、召回率Recall和F-score,其計算如式(13)、(14)、(15)所示。其中TP是分類結果中正確的數量,FP是分類結果中錯誤的數量,FN是該類樣本數據集中未被正確分類的數量。F-score是綜合考慮準確率和召回率的調和值,反映了模型的整體效果。

(13)

(14)

(15)

4.3 特征組合比較

MI-CNN模型在文本特征的基礎上,增加了詞性和情感詞語等語言知識作為輸入數據,增強了文本語義信息和情感信息,該實驗通過調整輸入特征數量和組合來檢驗模型的情感分類效果。使用詞語向量WV、詞性向量PoSV和情感詞向量SWV等3種特征進行組合得到WV、PoSV、SWV、WV+PoSV、WV+SWV和WV+PoSV+SWV等6種特征組合形式。

特征層融合模型MI-CNN-F的特征融合實驗結果見表1。從表1可以看出,詞語特征、詞性特征和情感詞特征的組合方式WV+PoSV+SWV取得了最好的情感分類結果,該組合的正面類別F值達到89.9%,負面類別F值達到90.7%,宏平均F值達到90.3%,高于其他特征組合方式,說明多種特征組合能夠提高分類效果。使用單個特征作為輸入的情況下,情感詞向量SWV的F值為89.4%,高于詞語向量和詞性向量,說明情感特征在情感分類任務中發揮重要作用。

表1 MI-CNN-F模型特征組合實驗結果Tab.1 The experiment result of MI-CNN-F with different features combination 單位:%

分類層融合模型MI-CNN-C的特征融合實驗結果見表2。從表2可以看出,詞語特征、詞性特征和情感詞特征的組合方式WV+PoSV+SWV取得了最好的情感分類結果,明顯高于其他單個特征或兩個特征的組合方式。3種特征組合的正面類別F值達到92.8%,負面類別F值達到93.2%,宏平均F值達到93.0%,高于其他特征組合方式,說明在分類層融合模型中組合多種特征能夠提高分類效果。

實驗驗證了在文本特征的基礎上,加入詞性特征和情感詞特征等外部語言知識,能夠有效地提高卷積神經網絡情感分類模型的準確率。

表2 MI-CNN-C模型特征組合實驗結果Tab.2 The experiment result of MI-CNN-C with different features combination 單位:%

4.4 融合方法比較

在MI-CNN模型中使用了特征層融合和分類層融合兩種融合方法。通過對比表1和表2 MI-CNN-F和MI-CNN-C兩個模型的實驗結果,研究合適的特征融合方式。在WV+PoSV+SWV特征組合數據上進行實驗,MI-CNN-C的宏平均F值比MI-CNN-F模型提高了2.7%。說明采用分類層特征融合方式的效果更好。

4.5 模型比較

為了驗證所提出的MI-CNN 模型的有效性,和相關文獻中的多種模型進行比較。從情感分析相關文獻中選擇使用譚松波酒店評論數據集作為實驗數據的研究作為基準模型,包括LSA-SVM[16]、情感詞典模型[17]、HGSD[18]、W2V-Att-CNN[19]等4種。將本文模型MI-CNN-C的最優結果作為文本特征和語言知識融合的結果。各種模型的準確率、召回率和F值的結果見表3。從表3可以看出,本文模型的F值均高于其他基準模型,驗證了文本特征和語言知識融合的卷積神經網絡模型的有效性。

表3 模型對比試驗結果表 Tab.3 The result of comparative experiment 單位:/%

5 結束語

本文提出了融合多種特征的卷積神經網絡模型MI-CNN,將文本特征和語言知識融入情感分類模型中。在酒店評論數據集上進行了實驗,實驗結果表明了本文模型的有效性。該模型探索了在神經網絡模型中融入外部語言知識的方法,為多特征融合提供了有效形式,并在情感傾向性分析任務上進行了實驗驗證。在以后的研究中,將繼續研究文本情感特征表示方法和注意力機制在該模型結構上的應用,進一步提高情感傾向性分類模型的準確性。

猜你喜歡
分類特征情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 91色老久久精品偷偷蜜臀| 精品伊人久久久久7777人| 日韩精品久久久久久久电影蜜臀| 国产激情无码一区二区三区免费| 国产亚洲精久久久久久久91| 欧美日韩亚洲综合在线观看| 亚洲精品第一页不卡| 91国语视频| 一级毛片免费的| 一本久道热中字伊人| 99热国产这里只有精品9九| 一本色道久久88| 成人亚洲天堂| 国产精品13页| 色婷婷在线播放| 国产午夜不卡| 国产精品亚洲一区二区三区在线观看| 国产91小视频在线观看| 国产成人无码播放| 国产精品一区二区不卡的视频| 99精品福利视频| 国产区网址| 国产精品开放后亚洲| 久久综合九色综合97婷婷| 日韩天堂在线观看| 97视频精品全国免费观看 | 国产无码制服丝袜| 亚洲免费福利视频| 国产免费人成视频网| www.亚洲一区二区三区| 国产成人亚洲无码淙合青草| 九九久久99精品| 小说 亚洲 无码 精品| 国产亚洲欧美日本一二三本道| 色丁丁毛片在线观看| 免费播放毛片| 国产精品区网红主播在线观看| 大乳丰满人妻中文字幕日本| 亚洲国产黄色| 国产人成乱码视频免费观看| 欧美一区二区福利视频| 二级特黄绝大片免费视频大片| 欧美精品亚洲精品日韩专区va| 亚洲第一中文字幕| 免费无遮挡AV| 老司国产精品视频| 欧美一级黄色影院| 亚洲成人在线免费| 在线看AV天堂| 国产成+人+综合+亚洲欧美| 老熟妇喷水一区二区三区| 欧美国产精品拍自| 亚洲 日韩 激情 无码 中出| 国产精品丝袜在线| 欧美激情网址| 三上悠亚一区二区| 第一区免费在线观看| 国产精品一区不卡| 久久夜色精品国产嚕嚕亚洲av| 亚洲精品欧美重口| 免费一级毛片在线观看| jizz国产视频| 伊人激情综合网| 东京热一区二区三区无码视频| 亚洲AⅤ永久无码精品毛片| 久久精品国产电影| 精品午夜国产福利观看| 1769国产精品视频免费观看| 久久久无码人妻精品无码| 制服丝袜无码每日更新| 国产人成网线在线播放va| 亚洲视频三级| 九九这里只有精品视频| 日本一区二区不卡视频| 精品撒尿视频一区二区三区| 国产精品极品美女自在线网站| 亚洲国产中文在线二区三区免| 午夜少妇精品视频小电影| 丁香婷婷激情网| 98精品全国免费观看视频| 国产成人亚洲无吗淙合青草| 少妇精品久久久一区二区三区|