999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制和Parallel DenseNet 的文本情感分析

2022-08-18 01:56:42陳大文
無線互聯科技 2022年11期
關鍵詞:特征提取特征文本

陳大文

(江蘇金盾檢測技術股份有限公司,江蘇 南京 210000)

0 引言

隨著計算機與信息技術的發展,人們已經越來越離不開網絡。 隨之,信息出現了爆炸式的增長。 據統計,截至2020 年4 月,中國網民使用網絡人數已經達9.04 億,互聯網普及率已經達64.5%[1]。 網絡已經成為人們現代生活中的重要組成部分。 因此,網民可以在微博等社交媒體公共平臺上發布各種自己的情感看法和評論。 利用自然語言處理技術,在輿情分析方面,對熱點話題和評論進行分析,理解人們所表達的情感色彩,對政府了解民意、預防危害事件有一定的積極性作用;在情感對話方面,對人話語進行分析,可以創造情感機器人撫慰人的心靈、陪伴人類;在市場競爭方面,對物品的評論進行分析,可以幫助商家提升物品質量,同時也可以幫助顧客對該物品下是否購買的決定。

文本情感分析又稱意見挖掘,是指對帶有情感色彩的主觀性文本進行分析,挖掘其中蘊含的情感傾向,對情感態度進行劃分[2]。 文本情感分析組成部分,如圖1 所示。 文本情感分析主要由原始數據獲取、特征提取、分類器和情感類別輸出4 個部分組成。 其中,特征提取和分類器是文本情感分析結果好壞的重要部分。

圖1 文本情感分析組成部分

因此,從分類器來看,目前主要有基于詞典、基于傳統機器學習和基于深度學習3 種文本情感分析方法。 基于詞典的文本情感分析方法是指根據帶有情感信息的詞語,對文本情感分數進行計數和加權,以此獲得文本情感傾向。 基于傳統機器學習的文本情感分析方法不依賴于詞典,具有自我學習文本情感特征的能力[3]。 基于深度學習的文本情感分析方法可以學習更加高級、難以描述的文本情感特征,即使是非常抽象、難以人工表述的特征,也可以學習提取,以此作為文本的重要特征。

近年來,較流行的文本情感分析模型使用卷積神經網絡(CNN)[4]和循環神經網絡(RNN)[5]。 雖然,這類模型優先考慮位置和順序信息,能較好地學習句子中的局部特征,以此來進行分類但是忽略了全局特征。2021 年,Yan 等[6]通過將Parallel DenseNet 融入CNN網絡中,進行短文本情感分析,可以較好地提取局部特征和全局特征,得到更好的短文本情感分析效果,但是對于該模型來說全局特征和局部特征對情感分析貢獻度是一樣的。 這顯然存在一定的問題。

本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel Dense-Net 文本情感分析模型[7]。 該模型不僅可以同時提取文本的局部特征和全局特征,還可以為局部特征和全局特征設置學習不同的權值,以期待得到最好的文本情感分析效果。

2 相關工作

根據特征提取和分類器的不同方法,文本情感分析主要有基于情感詞典的情感分析方法、基于傳統機器學習的情感分析方法和基于深度學習的情感分析方法,如圖2 所示。

圖2 文本情感分析方法分類

基于情感詞典的情感分析方法是指根據帶有情感信息的詞語,對文本情感分數進行計數和加權,以此獲得文本情感傾向。 現有的情感詞典都是人工構造的,需要消耗大量的人力與物力。 例如,SentiWordNet[7]情感詞典是一部國外最早的情感詞典,它將含義一致的詞語放在一起,并且賦予了代表正面或者負面的情感極性分數。 當一句話出現時,就可以根據每個句子中每個詞的情感極性分數進行累加得到最終的每個句子的情感極性分數,而這些分數就代表了每個用戶的情感傾向。 與英文情感詞典不同,中文情感詞典主要有NTUSD[8]、How Net 和情感詞匯本體庫[9]等,這些情感詞典中分別包含不同數量的褒義詞和貶義詞。 在早期得到了廣泛的應用,然而因為人工量大、難以維護,所以逐步退出了歷史舞臺。

基于傳統機器學習的文本情感分析方法是指不依賴于詞典,具有自我學習文本情感特征能力的方法。該方法是一種通過給定的數據訓練模型,通過模型預測結果的一種學習方法。 該方法研究至今,已經取得了諸多有效的成果,分為有監督模型、半監督模型與無監督模型。 有監督模型是指訓練帶有情感極性的文本樣本,得到模型,后根據模型預測無情感極性的樣本。該類方法對樣本集依賴度大。 當樣本集足夠全且多時,效果較好。 當樣本集不全且少式時,效果一般。 半監督模型是指在有監督模型的基礎上,模型具有訓練提取未帶情感極性文本樣本能力的模型。 該模型從一定程度上可以解決帶有極性數據集稀缺的問題。 無監督模型是指模型可以自動學習未帶極性數據集特征判別其所屬情感傾向。 通常而言是根據提取特征之間的距離而判斷的,在情感分析中所用較少。 然而,因為其所提取的特征較淺且不全,隨著深度學習的出現,該類方法得到了一定的沖擊。

基于深度學習的文本情感分析方法是指可以學習更加高級、難以描述的文本情感特征。 即使是非常抽象、難以人工表述的特征,它也可以學習提取,以此作為文本的重要特征的模型。 該類模型是從傳統機器學習方法引申而來的,它由兩種類型構成。 一是單一神經網絡構成的模型,二是組合神經網絡構成的模型。而單一神經網絡構成的模型一般以CNN 與RNN 兩類為主。 Kim[4]提出的TextCNN 就是以CNN 構成的用于文本情感分析的方法。 該方法通過一維卷積來獲取句子中n-gram 的特征表示,其對文本淺層特征的抽取能力很強。 然而,該方法卻無法提取遠距離特征和全局特征。 Liu[5]提出的適用于情感分析的RNN 模型就是以RNN 構成的用于文本情感分析的方法。 該方法通過RNN 模型來提取文本特征,其對遠距離特征提取能力強,然而卻無法提取淺層特征與全局特征。 因此,后來的研究者普遍將RNN 與CNN 相結合企圖在模型中同時提取文本的淺層特征和遠距離特征。 何野等[10]2021 年提出的LSTM-CNN 模型就是將LSTM 與CNN相結合在中文電子商務網站評論上獲得了較好的準確率。 李儉兵等[11]2021 年提出的跳轉LSTM-CNN 模型也是將LSTM 與CNN 相結合解決純LSTM-CNN 模型訓練較長短文本效率低下的問題,可以很好地獲取局部特征。 郭勇等[12]2021 年提出的結合改進Bi-LSTM 和CNN 的文本情感分析模型同時獲得淺層特征和長距離依賴特征,在Twitter 上獲得了較好的改進。 程艷等[13]2021 年提出的融合卷積神經網絡與雙向GRU 的文本情感分析膠囊模型利用雙向GRU 與CNN 提取特征在酒店評論數據集上獲得了較好的效果。 劉道華等[14]2021 年提出的一種加權詞向量的混合網絡文本情感分析方法將CNN 與ATT-BiGRU 相結合,兩者分別提取特征,再將其進行組合,最終分類任務,效果較好。 然而,這些方法雖能同時提取淺層特征和遠距離特征,但是因為其將兩種或兩種以上網絡進行組合,效率比較低,速度較慢且從某種程度上來說依賴數據集。 數據集若小,則效果一般。

Yan 等[6]2021 年通過將Parallel DenseNet 融入CNN 網絡,進行短文本情感分析,可以較好地提取局部特征和全局特征,且速度較快,得到更好的短文本情感分析效果。 然而,對于該模型來說,全局特征和局部特征對情感分析貢獻度是一樣的。 事實上,對于情感分析任務來說,局部特征和全局特征貢獻度是不同的,局部特征大于全局特征。

因此,本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel DenseNet 文本情感分析模型[7]。 該模型不僅可以同時提取文本的局部特征和全局特征,還可以為局部特征和全局特征設置學習不同的權值,以期待得到最好的文本情感分析效果。

3 融合注意力機制和Parallel DenseNet 的ATTParallel DenseNet 文本情感分析模型

3.1 ATT-Parallel DenseNet 模型

為了提高文本情感分析的準確率,本文結合注意力機制和Parallel DenseNet,設計了一個新的情感分析模型ATT-Parallel DenseNet。 如圖3 所示,該情感分析模型主要包括數據預處理模塊、生成詞向量Embedding層模塊、分類器模塊。 而分類器模塊主要包括2 個卷積特征提取模塊、Attention 層、Concatenate 層、Full connection 層和Softmax 層。

圖3 ATT-Parallel DenseNet 情感分析模型

數據預處理階段主要是因為原始的文本擁有許多停頓詞和換行符或者一段英文文章大小寫不一致等格式不統一混亂問題。 因此,數據預處理階段將把停頓詞和換行符這類多余的符號詞語清理掉,將大小寫不一致的詞語換成統一的小寫字符;然后將處理好的數據通過Word2Vector 進行向量化即生成詞向量階段;接著將詞向量放入分類器中進行處理提取出重要特征;最后通過全連接層和Softmax 層得到分類結果。

3.2 Embedding 層

Embedding 層就是詞嵌入層。 初始的文本計算機是無法理解的,只有將文本轉化為詞向量或者句向量,計算機和神經網絡才能理解并進行處理。 本文主要使用Word2Vector 來實現詞語向量化。 該模型將詞語轉化為300 維的詞向量。 Word2Vector 的本質是將原始的稀疏詞向量通過模型映射到高維空間中使得所獲得的詞向量既不稀疏又準確。 當表示的詞向量方向和尺度都很相近時,則表示這兩個詞之間的詞意十分接近。如圖4 所示,文本最開始將每個詞轉化為one-hot 編碼詞向量即第i個詞對應的詞向量第i維就應該是1;然后通過Word2Vector 后得到的新詞向量第j維就應該是1,而這個第j維跟前詞向量對應的第i維表示的詞是一致的。

圖4 Word2Vector 模型

3.3 Parallel DenseNet 模型

該模型將Embedding 層輸出的詞向量矩陣輸入兩個卷積特征提取模塊,分別提取全局特征和局部特征,分別為多尺度卷積特征提取模塊和稠密連接卷積特征提取模塊。

3.3.1 多尺度卷積特征提取模塊

首先,令xi∈Rd為文本中第i個詞的d維預訓練詞向量,則原始輸入文本可以表示為矩陣x0=[x1,x2,…,xm]m×d,然后將x0同時輸入大小為5× d、4× d、3× d、2× d的卷積層進行特征提取得到y1、y2、y3、y4,接著將其輸入大小為46,47,48,49 的最大池化層進行最大池化操作得到新的特征矩陣x1、x2、x3、x4。 最后,將新的特征矩陣相合并得到該多尺度卷積特征提取模塊的特征矩陣x2。

3.3.2 稠密連接卷積特征提取模塊

首先,令xi∈Rd為文本中第i個詞的d維預訓練詞向量,則原始輸入文本可以表示為矩陣x0=[x1,x2,…,xm]m×d;然后,將x0串行輸入大小為5×d的卷積層進行特征提取,將原始輸入文本矩陣、經過一次卷積變換后的特征矩陣和經過二次卷積變換后的特征矩陣相合并得到新的特征矩陣x2;最后,將新的特征矩陣輸入大小為46 的最大池化層,得到該稠密連接卷積特征提取模塊的特征矩陣x1。

3.4 Attention 層

注意力機制是一種類似人腦的注意力分配機制,它對重要的區域投入更多的資源,以獲取更多的細節,對無用的信息則進行抑制。 其中,該部分的實現公式為:

其中,h為上文所產生的特征矩陣如X1和X2,W和b為Attention 的權重和偏置量,a是最終產生的主注意力分數。 在訓練過程中,不斷地更新W和b以得到最好的a。

4 實驗與分析

4.1 數據預處理

為了驗證本文模型的合理性和有效性,本文選取了4 個廣泛使用的基準語料庫并在其上進行實驗,主要包括:GameMultiTweet 數據集、SemEval 數據集、SSTweet 數據集和 IMDB 電影評論數據集。 Game MultiTweet 數據集是通過搜索游戲數據等游戲主題構建的。 在這個數據集中,本文獲取了12 780 條數據,這些數據被標注為三類別。 SemEval 數據集是由Twitter情緒分析任務創建的20 K 數據組成的。 在這個數據集中,本文獲取了7 967 條數據,這些數據被標注為三類別。 SS-Tweet 數據集是情緒強度Twitter 數據集。 在這個數據集中,本文獲取了4 242 條數據,這些數據被標注為三類別。 IMDB 電影評論數據集是電影評論的數據集。 在這個數據集中,本文獲取了25 000 條數據,這些數據被標注為兩類別。 首先,對數據集進行預處理,過濾掉非ASCII 字符、清洗換行符以及將大寫字母轉換為小寫,并使用Word2Vector 初始化評論文本的詞嵌入信息;然后將數據集按8 ∶1 ∶1 的比例隨機分為訓練集、驗證集和測試集。

4.2 評價指標

本文采用準確率(ACC)、召回率(REC)和F1 作為評價指標,計算式如下:

其中,TP 表示預測為正樣本且分類正確的樣本,TF 表示預測為負樣本且分類正確的樣本數,FP 表示實際為負樣本但是分類錯誤的樣本數,FN 表示實際為正樣本但分類錯誤的樣本數。

4.3 對比實驗和參數設置

本實驗將ATT-ParallelDenseNet 模型與以下3 種模型進行對比。

(1)文獻[4]提出的TextCNN 模型。

(2)文獻[15]提出的fastText 模型。

(3)文獻[16]提出的BiLSTM-Attentions 模型。

本實驗中的詞向量維度為300,模型設置每個batch 中含128 個樣本數據,完成一個epoch 需要50 次迭代。 本實驗共訓練4 個模型,選擇Adam 為優化器,設置學習率為0.001;采用dropout 函數防止過擬合,參數設置為0.5。

4.4 實驗結果分析

同樣的數據采用不同的模型處理進行對比實驗。將提出的模型與TextCNN 模型、fastText 模型以及BiLSTM-Attentions 模型作比較, 從分類的準確率(ACC)、召回率(REC)和F1 這3 方面評估其可行性和有效性。 表1 展現了本文的模型與基準模型結果。 從結果上可以看出,本文的模型可以獲得較好的準確率。

表1 各個模型在各個數據集上的結果對比

5 結語

本文基于上文Parallel DenseNet 提出了一種融合注意力機制和Parallel DenseNet 的ATT-Parallel Dense-Net 文本情感分析模型。 該模型在數據預處理階段把停頓詞和換行符這類多余的符號詞語清理掉,將大小寫不一致的詞語換成統一的小寫字符;將處理好的數據通過Word2Vector 進行向量化,即生成詞向量階段;將詞向量放入分類器中,兩個特征提取模塊進行處理提取出重要特征,然后通過attention 模塊為提取的特征分配權值,通過全連接層和Softmax 層得到分類結果。 實驗比較了本文的模型與TextCNN,fastText 和BiLSTM-Attentions 幾種深度學習模型的好壞。 實驗結果表明,本文的模型比其他模型有一定的優勢。

猜你喜歡
特征提取特征文本
如何表達“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 一本大道香蕉高清久久| 青青青国产免费线在| 亚洲精品在线观看91| 99久视频| 亚洲一级毛片| 青青网在线国产| 欧美中文字幕在线二区| 永久免费AⅤ无码网站在线观看| 成人免费视频一区二区三区| 呦视频在线一区二区三区| 亚洲第一成网站| 亚洲成a人在线观看| 精品亚洲国产成人AV| 亚洲天堂久久久| 亚洲国产成熟视频在线多多| 久久精品无码一区二区日韩免费| av大片在线无码免费| 无码久看视频| 国产波多野结衣中文在线播放| a级毛片毛片免费观看久潮| 日韩免费毛片视频| 国产乱论视频| 欧美精品1区| 亚洲一级毛片在线观播放| 在线观看国产黄色| 成人福利免费在线观看| 亚洲男人的天堂在线观看| 亚洲成人精品| 40岁成熟女人牲交片免费| 亚洲Av激情网五月天| 午夜视频免费一区二区在线看| 91在线国内在线播放老师| 国产jizzjizz视频| 五月婷婷综合在线视频| AV老司机AV天堂| 女人爽到高潮免费视频大全| 免费高清a毛片| 久热精品免费| 五月婷婷激情四射| 日韩美女福利视频| 国产自在线拍| 国产精品成人免费视频99| 亚洲婷婷六月| 538精品在线观看| 久久天天躁狠狠躁夜夜2020一| 国产亚洲视频在线观看| 色婷婷综合在线| 国产精品久久久久久久久kt| 国产玖玖视频| 大学生久久香蕉国产线观看| 国产杨幂丝袜av在线播放| 欧美不卡视频在线观看| 一本大道视频精品人妻| 黑人巨大精品欧美一区二区区| 亚洲国产中文在线二区三区免| 成年免费在线观看| 成人毛片在线播放| 网友自拍视频精品区| 欧美不卡视频在线| 奇米影视狠狠精品7777| 亚洲成人在线免费| 欧美三级视频在线播放| 国内毛片视频| 久久久久88色偷偷| 国产精品免费入口视频| 国产精品自在拍首页视频8| 狠狠色丁香婷婷| 欧美成人综合在线| 国产免费a级片| 久久情精品国产品免费| 亚洲精品少妇熟女| 亚洲三级片在线看| 免费在线播放毛片| 国产三级成人| 久久久噜噜噜久久中文字幕色伊伊| 国产美女免费| 精品天海翼一区二区| 四虎亚洲国产成人久久精品| 97无码免费人妻超级碰碰碰| 亚洲码在线中文在线观看| 欧美精品在线免费| 精品欧美一区二区三区久久久|