999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自注意力機制的短文本分類方法

2022-03-22 03:34:26陳立潮陸望東潘理虎
計算機工程與設計 2022年3期
關鍵詞:語義分類機制

陳立潮,秦 杰,陸望東,潘理虎,張 睿

(1.太原科技大學 計算機科學與技術學院,山西 太原 030024; 2.太原政通云科技有限公司,山西 太原 030000)

0 引 言

目前對文本分類研究的方向大致有兩個:一是對文本的句子特征和上下文語義信息進行擴展;二是對分類算法、分類模型的選擇和創新。對文本句子特征和上下文語義進行拓展可以增加短文本特征的信息量,但也因此會增加許多不屬于原有文本的語義信息,從而使最終文本分類的難度增加。而對分類算法和分類模型的創新則很好地避免了引入噪聲后帶來的對語義信息的干擾。長短時神經網絡(long short-term memory,LSTM)[1]是在循環神經網絡的基礎上改造和發展的一種神經網絡模型,可以解決傳統人工分類效果不佳的問題,同時解決長期的依賴問題。Lee J Y等[2]提出將RNN、CNN相結合的神經網絡分類模型,期望對文本語料分類結果不準確的問題提供新的解決思路和方法;龔千健[3]提出了在短文本分類問題上構建循環神經網絡,利用神經網絡模型以獲取上下文語義進而彌補統計學方法的缺點。關于短文本的分類結果在智能推薦、即時通訊、搜索問答等方面的應用也越來越廣闊,但因為上下文語義信息理解不充分,使分類效果不佳進而會導致用戶體驗變差。因此,研究一種可以充分獲取上下文語義,對解決長期依賴關系的短文本分類模型具有重要意義。

為此,提出一種融合對抗訓練自注意力多層雙向長短期記憶網絡模型對短文本進行分類識別,以期通過對抗訓練對文本信息進行參數多樣性的補充,提高模型的泛化能力并減少過擬合現象的發生,從而達到優化模型,提高分類性能的目的。

1 傳統的Bi-LSTM網絡

雙向長短期記憶神經網絡(bidirectional long and short term memory network,Bi-LSTM)的創新點在于彌補了LSTM無法準確解釋文本脈絡深層邏輯和深層上下文這一不足,運用雙向結構可以對文本進行正反兩次語義調整,并準確輸出信息,使得機器編譯訓練后的語義更接近語句上下文環境的真實語義。董彥如等[4]提出基于雙向長短期記憶網絡和標簽嵌入的文本分類模型,利用BERT模型提取句子特征,通過Bi-LSTM和注意力機制得到融合重要上、下文信息的文本表示,進行分類。張曉輝等[5]提出基于LSTM的表示學習-文本分類模型,首先對文本進行初始化文本表示,再對模型進行訓練提升,提高模型面對復雜樣本的準確分類能力,增強模型的泛化性能。陶永才等[6]利用平均池化方法以及最大池化的方法將文本特征做提取,加之注意力機制的不同權重配比,對中文新聞語料做分類。以上方法中,雖然都對單一的LSTM神經網絡做了相關改進,在限定領域的部分范圍內取得了一定的效果,但改進發展的相關模型都無法將文本信息中隱藏的部分關鍵聯系進行捕獲,對比較復雜的語義來說分類效果會有很大不確定性。

萬齊斌等[7]提出基于BiLSTM-Attention-CNN混合神經網絡的分類處理方法。在注意力機制層之后又進行卷積神經網絡的訓練,增強了模型特征的表達能力。李文慧等[8]提出Ad-Attention-BiLSTM模型,通過對嵌入層文本進行對抗訓練來增加文本的訓練過程中的參數更新,提高最終的文本分類準確率。姚苗等[9]提出Att-BiLSTMs模型,使用基于自注意力機制的堆疊雙向長短時記憶網絡模型。捕獲上下文隱藏依賴關系,優化短文本特征稀疏的問題。上述方法中Ad-Attention-BiLSTM模型存在著擾動參數單一化,固定化,無法準確把握噪聲大小的缺點;而Att-BiLSTMs模型則沒有考慮到文本的健壯性和更深層次參數的重要性。

Bi-LSTM的網絡結構如圖1所示。圖中h(t)代表前一層次的初始數值,w(t)代表詞向量。

圖1 Bi-LSTM網絡

2 改進的Con-Att-BiLSTMs模型

考慮到短文本的語義特征較少,同時文本是高維的。故為了實現文本分類的準確率,在傳統的Bi-LSTM網絡結構上進行改進,提出融合對抗訓練自注意力多層雙向長短期記憶網絡(Con-Att-BiLSTMs)模型,對文本信息進行充分挖掘,并運用了分類對抗訓練的方式對模型進行訓練。

2.1 文本分類整體架構

文本分類方法的整體架構如圖2所示。整體架構包括詞嵌入層、Bi-LSTM層、注意力機制層和softmax這4個過程,可分為文本依賴關系學習和局部關鍵信息學習兩個階段。首先,在文本的嵌入過程中使用對抗訓練加Dropout等多種正則化方式結合,并應用自注意力動態調配擾動參數,更合理控制噪聲大小,增強模型的健壯性和抗干擾能力;其次,使用雙層雙向長短期記憶網絡交叉獲取隱藏在文本深處的參數信息特征信息,挖掘文本中隱藏的深層次關鍵依賴關系特征,進而獲取更深層次的隱含依賴關系。最后,通過注意力機制對短文本中關鍵信息進行加權,對重要的內容分配更多注意力,再利用softmax分類器進行文本分類。總的來說,所提方法以多層Bi-LSTM網絡結構為核心,使用對抗訓練是對Bi-LSTM網絡健壯性和防止過擬合的保證,而注意力機制是對Bi-LSTM網絡捕獲信息的突出顯示。

圖2 Con-Att-BiLSTMs模型

2.2 噪聲注入及對抗訓練

深度學習模型在防止模型過擬合的處理以及準確對語義進行泛化方面通常有以下幾種解決方法:①使用參數范數懲罰對模型進行簡化,增強泛化能力,如L2正則化方法;②增加網絡層級,提高抗干擾能力,如使用Dropout;③增加必要的擾動,避免模型過擬合等,如引入對抗訓練。

參數范數懲罰、噪聲注入及對抗訓練都是深度學習的幾種正則化的方法之一。使用參數范數懲罰常用的是L2正則化方法,通常將其形容為“正則化逼近”,即通常只懲罰權重,不懲罰偏置。噪聲注入的正則化方式又包括:在輸入數據中注入噪聲(等價于權重的范數懲罰)、向隱藏單元添加噪聲(如Dropout)、將噪聲添加到權重。對抗訓練則是通過產生錯誤分類模型樣本并加入到訓練集中,進而對模型的分類準確度進行提升,使之擁有更好的泛化能力。

噪聲注入中向隱藏單元注入噪聲,如Dropout,原理是讓一些參數失效。在每一次的訓練中,隨機的選取一部分的點,將這些參數進行隱藏,值置為0。因為每一次訓練,都隱藏了不同的權值,相當于多次不同新網絡的復合疊加,得到各種情況的結果并復合輸出,使得獲取的信息特征更豐富。此時的網絡相比于最初的較復雜的網絡進行了簡化,從而可以減少過擬合的發生。一般來講,疊加而成的組合網絡要優于單一網絡,因為組合網絡能夠捕捉到更多的隨機因素。同樣的,采用了Dropout以后,網絡的性能一般也比沒有使用Dropout的網絡要好。

對抗訓練也是正則化方法之一。Miyato T等[10]在半監督狀態的文本訓練分類中加入了對抗訓練擾動,并引入虛擬訓練,有效避免了過擬合情況的發生。陳潤琳等[11]提出將注意力機制與對抗多任務學習相結合,在數據初始時即將注意力機制引入并分出一部分原始文本做對抗集,進行對抗訓練,得到多任務分類模型。為避免模型存在著擾動參數單一化、固定化、無法準確把握噪聲大小的缺點,故采用對抗訓練加Dropout正則化的方式,使用自注意力機制動態分配擾動參數進行輸入,通過計算得到不同程度的對抗樣本,從而提升模型的性能,防止過擬合。輸入層對抗訓練擾動模型結構如圖3所示。

圖3 輸入層對抗訓練擾動模型

2.3 多層Bi-LSTM網絡

在Bi-LSTM網絡中,不同層級的LSTM有不同的職責,每個LSTM又有輸出門、記憶單元、輸入門等對數據進行選擇性丟棄、更新、輸入。這3種機制的運算公式可簡單概括為以下公式,激活函數如式(1)所示

sigmoidft=δ(Wf·X+bf)

(1)

輸入門信息更新如式(2)所示

it=δ(Wi·X+bi)

(2)

輸出門信息更新如式(3)所示

ot=δ(Wo·X+bo)

(3)

單元狀態信息更新如式(4)所示

ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)

(4)

t時刻隱層狀態信息更新如式(5)所示

h(t)=ot⊙tanh(ct)

(5)

Bi-LSTM雙層網絡模型結構如圖4所示。多重輸入更新、多重丟棄、多重輸入,使得模型的穩定性和可解釋的上下文語義復雜性得到顯著提升,有利于對上下文語義依賴關系的深度挖掘。

圖4 雙層Bi-LSTM結構

該模型是充分利用噪聲集的優勢,在詞向量輸入多層級的Bi-LSTM結構時加入噪聲因素,改變一層不變的詞向量特征,深層學習不同特征缺失的情況下語義的不同結果體現。首先,選擇合適的數據集并劃分噪聲集、測試集及訓練集;其次,對數據集進行去停用詞等處理,加入噪聲進行擾動對抗訓練,利用多層級的Bi-LSTM結構做反復多輪的訓練學習,利用Dropout層隨機忽略部分特征的機制,深層學習上下文的語義信息,隨之利用嵌入層可以做長遠距離學習的特性,對不同時間序列中通過的文本做語義特征輸出,轉化為向量矩陣;最后利用注意力機制分配不同權重,增強關鍵詞的權重比例,弱化冗余特征的影響。經過多次實驗,因為兩層Bi-LSTM結構相較于一層和三層等結構有迭代耗時短、訓練耗時短、分類準確率較高的優點,且能更好挖掘潛在的上下文依賴關系,故采用兩層Bi-LSTM。具體公式如下

e(ωi)=Wwordvi

(6)

(7)

2.4 注意力機制

注意力機制(Attention)是為了反映不同的特征詞于整個文本所屬類別分類時所貢獻的程度而產生的。已在很多領域得到應用,如Kelvin Xu等[12]將注意力機制應用于圖像標注,增加了特征屬性。Zichao Yang等[13]在RNN中引入注意力機制來解決文本分類問題。自注意力機制(Self-attention)是注意力機制的一種,該機制只對同一層級的信息實現高效并行分析,不需要考慮下一層級的信息。注意力函數本質類似于非關系型數據庫,可以將其看作是多個查詢(Query)對多個鍵值對(key-value)的關系映射的集合,每一個鍵值對都是這個集合內的一個元素,存儲時也是按照鍵值對的形式存入對應元素地址,當進行查詢時,存儲器就通過映射輸出Value值,即Attention值。先使用相似性計算函數,如式(8)

(8)

再用softmax進行歸一化處理得到概率分布,如式(9)

(9)

最后根據權重系數對Value進行加權求和,如式(10)

(10)

注意力機制就是對重要的內容分配更多注意力,對其它不太重要的內容分配較少的注意力。相較于直接把輸出向量加權取平均,加入注意力機制的Bi-LSTM網絡結構,避免了保留原文本大量冗余和噪聲的結果再次通過取平均值被保留下來,導致分類精度不足。

3 實驗結果與分析

處理器為Inter(R) Core(TM) i5-9300H CPU @2.40 GHz,RAM 16 G。開發環境為python 3.5,使用tensorflow框架,開發工具為JetBrains PyCharm。為驗證提出方法的可行性設計了以下實驗。

3.1 實驗數據集

實驗語料來自維基百科的DBpedia分類數據集,該數據集有訓練集560 000條,測試集70 000條,總計類別14種。隨機選取總訓練集的7%(即39 200條)和8%(即44 800條)以及測試集的10%(即7000條)進行實驗驗證。文本內容由文本標題、文本內容、文本類別組成。

3.2 實驗設計

為保證結果的普遍性,采用隨機輸入的方式進行實驗驗證。評價指標采用微平均F1值和宏平均F1值。

(1)模型參數設置

詳細設置見表1。

表1 模型參數

max_document_length為最大文檔長度,hidden_size為雙層Bi-LSTM的隱藏層節點數,embedding_size為詞向量維度,batch_size為單次迭代訓練批處理樣本個數,max_label為最大標簽數量,epochs為模型訓練達最優的迭代次數,num_layers為Con-Att-BiLSTMs模型中Bi-LSTM的層數。

(2)embedding_size取值對實驗結果的影響

在DBpedia數據集中選取39 200條訓練集,7000條測試集,對詞向量的維度分別取值為64、128、256、512維實驗,結果見表2。

表2 embedding_size與模型性能的關系

從表2對比可以看出,模型的性能隨著嵌入維度的變化而變化,但嵌入的維度不能無限制的擴大,否則會導致迭代耗時嚴重的問題。在選取的4個維度中,當維度到達256時,模型的性能開始達到峰值,微平均和宏平均的F1值都最高,當維度為512時,優于時間開銷大大增加,且容易發生過擬合。

(3)num_layers取值對實驗結果的影響

Con-Att-BiLSTMs模型中,Bi-LSTM的層數與模型的復雜度和模型的分類性能息息相關。在DBpedia數據集中選取39 200訓練集,7000測試集,對num_layers分別取不同的值進行實驗,實驗結果見表3。

由表3中數據對比可知,Bi-LSTM取值的層數也會直接影響最終模型的性能。當num_layers取值為2時,模型

表3 num_layers與模型性能的關系

的微平均及宏平均都較取值為1和3時有不同程度的提高,這是因為層數少,模型無法深層挖掘潛在上下文關系,層數太多,容易出現過擬合且使得效率變慢。鑒于雙層的雙向長短期記憶神經網絡比之一、三層結構有更明顯的運行迭代用時少、效率高的優勢,且能充分挖掘深層次依賴關系,所以最終采用兩層Bi-LSTM。

3.3 模型對比實驗

在DBpedia數據集上,將提出的Con-Att-BiLSTMs方法與短文本分類模型Attention-LSTM、Attention-BiLSTM、Ad-Attention-BiLSTM、CNN-LSTM、Att-BiLSTMs作對比來驗證本文提出的方法優劣。結果見表4。

表4 Con-Att-BiLSTMs與其它模型對比

表4實驗中的數據集數量占比按總數據集的7%(即39 200條數據)和8%(即44 800條數據)取值。考慮到選取的訓練數據集單一時,可能會對模型的反映能力出現偏差,所以選擇兩組數據作對比參考。

當數據量為39 200條時,Attention-LSTM模型的準確率很低,對文本語義的理解偏差較大,微平均F1值相較于其它模型較低,僅為87.19%,宏平均F1值也較低,為86.75。這是因為Attention-LSTM模型中,單向的長短期記憶網絡做不到將語義前文對后文進行反向反饋捕獲,導致無法充分的挖掘上下文語義信息。當訓練數據量較少時,深度學習模型很難準確學習并找到文本信息準確的語義,但將單向LSTM網絡轉變為Bi-LSTM網絡時,模型對文本上下文信息的挖掘能力得到很大提高,故而Attention-BiLSTM模型的微平均F1和宏平均F1優于Attention-LSTM模型;而當數據集較少時,Attention-BiLSTM模型對文本的冗余特征和非冗余特征的容易發生誤判,故會使得分類結果錯誤的情況發生,當加入噪聲進行對抗練習后,模型的健壯性有了很大改觀,所以Ad-Attention-BiLSTM模型的微平均F1值和宏平均F1值都略優于Attention-BiLSTM模型。CNN-LSTM模型對CNN網絡做了改進并與LSTM進行了結合,但單向的LSTM缺乏對上下文語義信息深度挖掘能力,導致該模型性能較其它幾種模型的性能較差。Con-Att-BiLSTMs模型和Att-BiLSTMs模型都使用了雙層的Bi-LSTM網絡結構,但Con-Att-BiLSTMs模型在對抗訓練擾動結合Dropout的正則化方式對嵌入層數據進行增強的基礎上,引入自注意力機制加強文本關鍵信息特征權重并使用雙層Bi-LSTM網絡對輸入的信息進行提取,而且使得模型的微平均F1值和宏平均F1值皆高于其它5種模型,分別為95.80%、95.47%。當數據集為44 800條時,結論與數據量為39 200條時基本一致,因此Con-Att-BiLSTMs模型整體性能要優于其它5種模型。

4 結束語

在實驗中,將多種正則化的方式相結合不僅能使模型在做文本分類任務時得到更高的準確率,還提高了詞嵌入的質量和實驗模型的抗噪聲干擾能力,擁有更廣泛的代表性和防過擬合能力。當數據集的數量相對較少時,對文本分類也有很高的準確率,但是仍然有不足之處。在對文本中的每個詞進行遍歷時,迭代過程比較緩慢,準確率得到提高的同時,數據集訓練所需時間要略高于其它方法,后續研究考慮使用其它改進方法,縮短迭代的時間并在不同的數據集上進行驗證。

猜你喜歡
語義分類機制
分類算一算
語言與語義
分類討論求坐標
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
認知范疇模糊與語義模糊
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 伊人久久大香线蕉成人综合网| 久久久久人妻一区精品色奶水| 日本在线亚洲| 国产麻豆福利av在线播放| 91外围女在线观看| 亚洲无码91视频| 精品少妇人妻av无码久久| 亚洲人妖在线| 精品91视频| 国产一级α片| 久久亚洲黄色视频| 国产精品福利尤物youwu| 在线看片中文字幕| a级毛片网| 国产色婷婷| 欧美午夜在线播放| 国产日韩欧美黄色片免费观看| 91精品国产91久久久久久三级| 激情午夜婷婷| 四虎永久免费地址在线网站| 婷婷成人综合| 国产办公室秘书无码精品| 成年A级毛片| 国产成人凹凸视频在线| 熟女日韩精品2区| 麻豆国产精品视频| 久久综合色视频| 麻豆国产精品一二三在线观看| 欧美日韩专区| jizz在线免费播放| 呦女精品网站| 国产手机在线小视频免费观看| 美女亚洲一区| 久久6免费视频| 午夜视频日本| 中文字幕调教一区二区视频| 在线五月婷婷| 免费一级无码在线网站| 好紧好深好大乳无码中文字幕| 亚洲无线一二三四区男男| 91成人免费观看在线观看| 日韩视频福利| 第一页亚洲| 精品亚洲国产成人AV| 四虎精品黑人视频| 毛片视频网址| 精品久久久久无码| 国产精品无码影视久久久久久久| 欧美va亚洲va香蕉在线| 婷婷午夜天| 欧美精品H在线播放| 国内精品免费| 99精品高清在线播放| 国产99在线| 2022国产91精品久久久久久| 国产剧情国内精品原创| 日韩精品一区二区三区swag| 久久久国产精品无码专区| 久久精品无码国产一区二区三区 | 日韩大片免费观看视频播放| а∨天堂一区中文字幕| 欧美成人精品一区二区| 色男人的天堂久久综合| 国产三级成人| 在线观看av永久| 黄色网页在线观看| 国产免费黄| 久久99国产综合精品1| 啪啪永久免费av| 亚洲一区二区视频在线观看| 伦伦影院精品一区| 久久99久久无码毛片一区二区 | 黄色网站在线观看无码| 欧美午夜理伦三级在线观看| 精品视频一区二区观看| 无码视频国产精品一区二区| 亚洲浓毛av| 国产人人乐人人爱| 久久婷婷人人澡人人爱91| 免费在线国产一区二区三区精品| 久久www视频| 成人免费视频一区二区三区 |