999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合LDA與Self-Attention的短文本情感分類方法

2020-09-15 04:47:58朱翌民余宇新
計算機工程與應用 2020年18期
關鍵詞:分類文本情感

陳 歡,黃 勃 ,2,朱翌民,俞 雷,余宇新

1.上海工程技術大學 電子電氣工程學院,上海 201620

2.江西省經濟犯罪偵查與防控技術協同創新中心,南昌 330103

3.上海外國語大學 國際金融貿易學院,上海 201620

1 引言

隨著Web2.0時代的到來,以微博、電商為首的平臺的快速發展,網民可以快速地在網絡平臺上表達自己的觀點和看法。其中短文本逐漸成為網絡文本信息的主體,與其他網絡文本相比其在數量上有著巨大的優勢。挖掘短文本中的情感信息和觀點態度,實現對文本的情感分類有著重要的現實意義。文本情感分類包括分詞、文本表示、特征提取、分類四個過程。

傳統的文本情感分類模型對文本進行one-hot 編碼,利用TF-IDF[1]、交叉熵[2]等進行特征提取,然后使用SVM[3]、Random Forest[4]等分類器進行分類。LDA[5](Latent Dirichlet Allocation)模型在經歷了LSI[6(]Latent Semantic Indexing)、PLSI[7(]Probabilistic Latent Semantic Indexing)等技術的發展后,被廣泛用于文本特征提取。例如吳江等人[8]使用LDA模型進行主題特征詞選取,組成特征詞庫進行特征提取。胡勇軍等人[9]針對短文本特征稀疏、噪聲大的缺點,使用LDA模型將概率大于某一閾值的主題詞分布的高頻詞擴展到文本中,以降低短文本分類時噪聲和稀疏性的影響。近年來,深度學習算法的快速發展給文本情感分類帶來了新的思路。其中基于注意力機制和LSTM(Long Short Term Memory network)的一類算法成為了主流的文本情感分類算法。其中LSTM用于獲取文本的上下文依賴關系,注意力機制對LSTM 編碼后的文本進行權重分配,然后進行情感分類[10-12]。例如吳小華等[11]針對分詞的準確性問題提出了基于字向量的表示方法并使用Self-Attention和Bi-LSTM進行中文短文本情感分類。陶志勇等[12]使用Bi-LSTM網絡進行特征提取,將雙向長短時記憶網絡的兩個方向的輸入獨立輸入到注意力機制進行全局權重分配。

基于LDA的文本特征提取方法作為一種概率主題模型,雖然能夠獲得文檔之間的關系,然而在建模過程中卻忽略了文檔的上下文依賴關系,導致了語義信息的丟失。深度學習算法基于序列建模的方法彌補了LDA的不足。如吳彥文等[13]使用詞嵌入對LDA 獲得的文檔特征詞進行表示,然后和LSTM 編碼后的文本進行拼接,用于解決數據稀疏問題。張群等人[14]通過拼接相加平均合成的詞向量和經過LDA 特征擴展的短文本向量,利用kNN進行分類。

從上述可知,在短文本情感分類的過程中可以使用LDA進行特征擴展,用于解決短文本數據稀疏問題,然而現有的方法都是通過word2vec對主題特征擴展后的文本進行表示,弱化了主題特征的作用。針對這個問題,本文提出一種基于LDA 和Self-Attention 機制的短文本情感分類方法。通過使用LDA獲得評論的主題詞分布,并將主題詞和評論文本進行拼接輸入到word2vec模型進行訓練,得到包含主題信息的詞向量,然后使用Self-Attention機制對文本進行動態權重分配,最后通過softmax層輸出進行情感分類。通過在譚松波酒店評論數據集上的實驗表明,本文方法與當前主流的短文本分類情感方法相比,有效地提高了分類性能。

2 相關工作

2.1 LDA

LDA 模型是一種文檔生成模型,其概率圖模型如圖1所示,它將文檔表示為主題的概率分布,而主題表示成詞的概率分布,因此LDA 可以被用來進行文本特征提取。LDA 的輸入是文本的one-hot 編碼,輸出是文檔的主題分布、主題的詞分布[5]。LDA模型可以描述如下:

(1)文檔的主題先驗分布服從參數為α的Dirichlet分布,其中文檔d的主題分布為θd=Dirichlet(α)。

(2)主題中的詞的先驗分布服從參數β的先驗分布,其中主題k的詞分布為φk=Dirichlet(β)。

(3)文檔d中的第n個詞,從主題分布獲得其主題編號分布為zdn=multi(θd)。

(4)文檔d中的第n個詞分布wdn的分布為wdn=multi(φzdn)。

圖1 中D是訓練數據集的大小,N是一條訓練數據的大小,K是主題數。

圖1 LDA概率圖模型

從模型假設可知,已知每個文檔的文檔主題的Dirichlet 分布與主題編號的多項式分布滿足Dirichletmulti 共軛,使用貝葉斯推斷的方法得到文檔主題的后驗分布。同樣已知主題詞的Dirichlet 分布與主題編號的多項式分布滿足Dirichlet-multi 共軛,通過貝葉斯推斷得到主題詞的后驗分布。然后通過使用Gibbs采樣的方法去獲得每個文檔的主題分布和每個主題的詞分布。

2.2 word2vec模型

文本信息需要被編碼成數字信息才能進行計算處理。傳統的模型使用基于one-hot 編碼的方法的BOW(Bag of Words)模型,該方法通過構建詞典,統計文本的詞頻信息,對文本進行編碼。然而,one-hot模型的編碼方法孤立了每個詞,無法表達出詞之間的關系,導致語義信息的丟失。而且,當詞的種類過多時,還會帶來維度爆炸的問題。因此,提出了詞的分布式表示,將經過one-hot編碼的詞,映射到一個低維空間,并保留詞之間的語義信息。word2vec 模型是目前主流詞分布式表示模型,word2vec包含兩種模型,分別是CBOW與Skip-Gram。CBOW 模型通過輸入中心詞相關的詞的詞向量,輸出中心詞的詞向量。Skip-Gram則相反,通過輸入中心詞的詞向量,輸出上下文的詞向量[15]。兩種模型的結構如圖2所示。

2.3 attention模型

注意力機制是一種權重分配機制,通過模仿生物觀察行為的過程,將內部經驗和外部感覺對齊從而增強觀察行為的精細度,在數學模型上表達為通過計算注意力的概率分布來突出某個關鍵的輸入對輸出的影響[16-17]。其首先被提出應用于圖像特征提取過程,而后被Bahdanau等人[10]引入到自然語言處理領域。如公式(1)所示,其中k(ikey)與v(ivalue)一一對應,通過計算qt(query)和各個ki的內積,求得與各個vi的相似度,然后進行加權求和與歸一化。

圖2 word2vec模型結構

其中,Z是歸一化因子,為輸入詞嵌入向量的維度,起到調節因子的作用,使得內積不至于過大。

3 模型描述

本章介紹了本文提出的短文本情感分類方法,主要包括四個部分:第一部分,訓練LDA 模型,得到每條評論的主題詞分布,設置主題數、主題詞提取閾值,進行主題詞提取;第二部分,將前述提取到的主題詞和原有評論內容進行拼接輸入到word2vec 模型進行訓練;第三部分,使用Self-Attention 機制進行動態注意力更新;第四部分,通過softmax層進行情感分類,根據情感分類準確率確定最佳主題數和主題詞選取閾值。研究框架如圖3所示。

3.1 評論主題信息提取

統計語料集的詞頻信息建立字典,對文本進行BOW編碼,輸入到LDA 模型中,獲得每條評論的主題分布d_t=[z1,z2,…,zK],其中z為每個主題編號的概率。然后找到每個主題的詞分布t_w=[w1,w2,…,wN],其中w為字典中每個詞的分布概率。則每條評論的主要特征詞可以表示為如公式(2)所示:

圖3 研究框架

通過設置閾值,選取D_W中超過閾值的詞作為評論文本的主要詞特征。

3.2 文本向量化

為了更好地實現對評論文本進行聚類,本模型將主題信息融合到評論文本詞向量訓練的過程。使用LDA獲得該條評論的主題信息,和原有的評論內容進行拼接,作為評論與主題信息結合后的向量表達。將前述得到的融合主題信息的評論文本作為輸入,訓練CBOW模型。假設詞向量的維數為dk,每條評論文本可以表示為一個行數是詞向量的維度dk,列數是評論文本長度N與主題特征詞的個數l之和的文本矩陣W=<w,wz >。其中w為評論文本的詞向量表示,wz為通過LDA 獲得該評論文本的主題特征的詞向量表示。CBOW模型損失函數如公式(3)、(4)、(5)所示[15,18]。

其中,wi為某個中心詞,s為中心詞左右窗口大小,P(wi|wi-s,…,wi+s)已知上下文中心詞為wi的概率大小計算方法如下:

其中w0是wi上下文詞向量的均值,dict為字典。

通過在評論文本中融合主題的特征信息,從而使得編碼后的詞向量在高維空間同類信息之間的余弦距離更小,使得相同主題評論文本在向量空間的聚類效果更好。

3.3 Self-Attention機制

傳統的注意力機制通過計算源端的每個詞與目標端的每個詞之間的依賴關系來更新訓練參數,Self-Attention機制僅通過關注自身信息更新訓練參數,不需要添加額外的信息。將前述通過CBOW模型得到的融合主題特征的評論文本向量輸入到Self-Attention層,通過公式(6)計算權重分布:

3.4 模型訓練

使用交叉熵作為損失函數,利用Adam更新網絡參數。公式(7)計算評論文本向量γx屬于類別yx的概率,n_c為類別的數目。以公式(8)為損失函數,通過迭代更新參數,最小化監督標簽gx和預測標簽之間的交叉熵。

3.5 模型描述

本文提出的模型可以描述如下:

輸入:帶標簽短文本數據集。

輸出:訓練好的分類模型。

步驟1對數據集進行分詞、去停用詞等預處理過程,得到處理后的數據集doc。

步驟2將數據集doc輸入到LDA 模型,得到每個短文本的主題概率分布和每個主題的詞語的概率分布,根據公式(2)構建每條評論的主題特征詞矩陣D_W。

步驟3根據步驟2 的結果選取每條評論的主題特征詞,并和原評論進行拼接輸入到word2vec 模型進行訓練,構建融合主題信息的詞向量模型,得到每條評論與主題特征詞的詞向量表示W。

步驟4添加Self-Attention層,根據公式(6),對步驟3的向量表示的評論結果,進行自注意力計算。

步驟5根據分類準確率選擇LDA 模型的主題數K,主題詞選取閾值。

步驟6通過迭代訓練更新模型參數,進行文本分類。

4 實驗分析

4.1 實驗環境

實驗的硬件和軟件的配置保證著實驗的順利進行,本文實驗的環境如表1所示。

表1 實驗環境配置

4.2 實驗數據

本文使用哈工大譚松波老師整理的酒店評論數據集,共6 000條,其中正向情感評論3 000條,負向情感評論3 000 條,數據類別分布均衡。對數據集中評論的長度進行統計得到評論長度分布如圖4所示。其中,共有6 000條數據,評論的長度30以下的有3 198條,在20以下的有1 601條。因此,如何對評論文本中的短文本數據進行合理的處理,使得短文本情感分類成為研究的重點。

圖4 數據集長度分布

對分詞后的數據用詞云表示如圖5 所示,其中“服務”“入住”“早餐”等為酒店評論的熱點詞匯。

圖5 數據集詞云

4.3 參數設置

深度學習模型參數設置十分關鍵,該模型主要由三部分參數組成,分別是LDA、word2vec、Self-Attention三個模型的參數,參數大小設置如表2所示。

4.4 LDA主題詞提取

將酒店評論語料集經過預處理后輸入到LDA 模型,得到語料庫的主題詞概率分布和每條評論的主題概率分布。使用公式(2)計算添加到每條評論中的主要詞特征。根據情感分類準確率選擇主題詞選取閾值為0.03,對添加到評論中的主題詞進行統計,在指定LDA主題總數為30、35、40、45時,評論中滿足閾值條件的主題詞如表3所示,其中包含了酒店評論中的軟硬件配置以及顧客的情感態度和服務水平等各種信息。

表2 實驗參數設置

表3 LDA提取主題詞示例

為了研究情感分類過程中準確率、添加到文本中的主題詞數目以及主題詞種類之間的變化關系(主題詞數目表示總共添加多少詞到模型訓練中、主題詞種類表示總共添加了多少個不一樣的主題詞到文本中)。

設置主題數目變化范圍為K∈[0:100],以5 為步長,繪制準確率、主題詞數目、主題詞種類隨著主題數的變化曲線。其中為了便于觀察,對實驗結果進行了歸一化處理。如圖6所示,主題詞的種類隨著主題數的增加而不斷增加;主題詞數目先隨著主題數不斷上升,在主題數為30達到了最大,而后不斷下降并趨于穩定;準確率剛開始隨著主題數不斷上升,在主題數為35,準確率達到了最高,而后開始下降,并在一定范圍內波動。

圖6 準確率及主題信息隨主題數K 變化曲線

由此可以看出,模型分類的準確率與添加到評論中主題詞總數和LDA 模型的主題總數相關,但可以直接由LDA 模型的主題總數進行確定,且不會隨著添加到評論中主題詞的種類的增加而增加。

4.5 評價指標選取

本文采用Precision、Recall、F1-Score對實驗結果進行評測[19]。Precision用來描述所有預測該類別的測試數據中,真正是該類別的數據所占的比率。Recall用來描述所有該類別的測試數據中,預測為該類別數據所占的比率。F1-Score綜合了Precision和Recall兩個指標,定義如下:

TP表示將真實正樣本預測為正樣本,FN表示將真實正樣本預測為負樣本,TN表示將真實負樣本預測為負樣本,FP表示將真實負樣本預測為正樣本。

如表4所示,本文選取了五種基于詞向量、LSTM和Self-Attention相結合的算法[10,20]進行復雜度和準確率的對比分析。由于五種模型都使用了word2vec 詞向量,因此word2vec模型復雜度可以忽略。因此對比模型可以劃分為4種基于LSTM的模型和1種基于Self-Attention的模型。根據文獻[21],LSTM單層的復雜度為O(n×d2),Self-Attention單層復雜度為O(n2×d),其中n為序列長度,d為詞向量的維度。當n <d時,Self-Attention模型單層復雜度低于基于LSTM 模型單層復雜度。本文使用的LDA 模型的復雜度為O(K×N),其中K為主題數,N為字典的大小。因此本文提出的模型復雜度低于基于LSTM 模型,而高于只使用Self-Attention 的模型。與基于LSTM 的模型相比,不僅降低了模型復雜度,而且提高了分類準確率。與只使用Self-Attention的模型相比,本文提出的添加了主題信息的情感分類模型提高了情感分類的準確率。

表4 酒店評論數據集評測結果對比 %

5 結語

本文提出了基于注意力機制的評論文本情感分類方法,使用LDA獲取評論文本的主題信息,將文本的主題信息和評論文本進行拼接融合,輸入到CBOW 模型進行詞向量訓練,實現詞向量在高維空間的主題信息聚類,使用Self-Attention 機制進行動態權重分配,有效地避免了由于文本長度過短導致文本情感分類準確率降低的問題,實驗證明了本文提出的情感分類方法優于主流的短文本情感分類方法。其中主題信息的提取是決定本文提出的情感分類方法準確性的重要因素,無效的主題信息不僅不能提高分類的準確性,還會降低分類的準確性。本文通過人工篩選的方式提取主題信息,但人工的方式帶來了工作量大的問題,因此下一步研究的重點是如何自動提取有效的主題信息。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 日韩免费中文字幕| 欧美精品亚洲二区| 国产精品欧美亚洲韩国日本不卡| 午夜电影在线观看国产1区| 国产导航在线| 一区二区三区四区精品视频| 全色黄大色大片免费久久老太| 国产精品欧美亚洲韩国日本不卡| 91免费观看视频| 成人在线不卡| 日韩精品一区二区三区大桥未久| 亚洲狠狠婷婷综合久久久久| 亚洲国产成人久久精品软件| 久久黄色视频影| 久久精品嫩草研究院| 无码啪啪精品天堂浪潮av| 欧美自慰一级看片免费| 中文字幕在线观看日本| 午夜福利在线观看入口| 91欧美亚洲国产五月天| 免费无遮挡AV| www中文字幕在线观看| 国产精品无码久久久久久| 久久91精品牛牛| www.91在线播放| 99视频国产精品| 欧美一级99在线观看国产| 欧美一级色视频| 91麻豆精品国产高清在线| 亚洲人成网站观看在线观看| 熟女日韩精品2区| 国产精品19p| 国内精品伊人久久久久7777人| 久久毛片基地| 精品久久国产综合精麻豆| 国产成人高清精品免费| 亚洲国语自产一区第二页| 国产真实乱子伦精品视手机观看 | 亚洲码一区二区三区| 欧美在线精品怡红院| 国产裸舞福利在线视频合集| 色综合五月婷婷| 色屁屁一区二区三区视频国产| 国产又粗又猛又爽视频| 亚洲一区无码在线| 国产精品偷伦视频免费观看国产 | 制服丝袜在线视频香蕉| 国产福利微拍精品一区二区| 红杏AV在线无码| 亚洲香蕉在线| 亚洲精品无码高潮喷水A| 国产最爽的乱婬视频国语对白| 欧美亚洲国产精品久久蜜芽| 午夜少妇精品视频小电影| 国产高清毛片| 亚洲一区二区三区中文字幕5566| 嫩草影院在线观看精品视频| 久久国产精品嫖妓| 亚洲高清在线播放| 99中文字幕亚洲一区二区| 亚洲天堂视频在线观看| 中日韩一区二区三区中文免费视频 | 强乱中文字幕在线播放不卡| 夜夜拍夜夜爽| 国产理论精品| 免费在线播放毛片| 欧美精品三级在线| 免费网站成人亚洲| 色男人的天堂久久综合| 婷婷激情五月网| 91人妻日韩人妻无码专区精品| 午夜精品福利影院| 亚洲国语自产一区第二页| 人妻中文字幕无码久久一区| 人人看人人鲁狠狠高清| 国产乱码精品一区二区三区中文 | 國產尤物AV尤物在線觀看| 成人日韩视频| 人妻无码AⅤ中文字| 青青草原国产一区二区| 玖玖免费视频在线观看| 国产超碰一区二区三区|