999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于序列生成的多標簽文本分類算法研究

2023-01-11 15:24:46黃立星咸儆醒
現代計算機 2022年20期
關鍵詞:單詞文本信息

黃立星,咸儆醒

(南京恩瑞特實業有限公司,南京 210013)

0 引言

隨著序列生成模型在機器翻譯領域的深入應用,相關研究人員開始將序列生成模型應用于多標簽文本分類領域中[1],通過將文本數據作為輸入序列,文本所對應的標簽集作為輸出序列,從而轉化為Seq2Seq問題。盡管目前基于序列生成的多標簽文本分類取得了不錯的成績,但其運用到不同場景中仍存在一些不足。例如在序列生成過程中,為了避免編碼器層中的中間語義向量由于信息壓縮帶來的信息損失,常常采用詞粒度的注意力來緩解這一缺點[2];然而對于長序列數據,基于詞粒度的注意力未能很好地進行中間語義向量編碼。針對這些詞粒度的缺點,我們通過借鑒HAN層次化注意力機制的思想,將層次化注意力運用于編碼器層,進而得到句子粒度的隱藏層狀態信息,之后利用解碼器層基于句子粒度的隱藏層狀態信息進行注意力操作。針對序列生成過程中存在的重復標簽生成問題,本文采用引入輔助向量的方法,可有效避免重復標簽生成問題;最后基于開源RCV1-V2數據集對提出的改進算法進行了有效性的驗證。實驗結果表明,基于層次化注意力機制的改進算法以及輔助向量的改進算法進一步提高了分類結果的準確率以及召回率。

1 Seq2seq多標簽文本分類模型的設計與實現

Seq2Seq模型基于Encoder-Decoder框架,該模型由編碼器(Encoder)和解碼器(Decoder)所組成,其中Encoder、Decoder之間的連接由En?coder層產生的中間語義向量進行控制。Seq2Seq模型解決了傳統RNN模型處理序列問題過程中要求輸入、輸出序列長度為等長的問題。近年來,Seq2Seq模型被廣泛運用于機器翻譯、情感對話生成、文本自動摘要、圖片自動描述等領域。

基于Seq2Seq模型的多標簽文本分類網絡結構如圖1所示。

圖1 Seq2Seq序列生成多標簽文本分類模型示意圖

如圖1所示,該模型主要由編碼器、解碼器組成,其中SF表示softmax輸出層。為了避免編碼器層在處理長序列數據集中存在的信息壓縮問題,在解碼層進行解碼的過程中往往引入atten?tion機制。其中編碼器層、解碼器層的具體定義以及功能將在接下來的小節中進行詳細闡述。

1.1 編碼器層

首先定義(w1,w2,w3…wn)為文本的單詞序列表示,其中wi表示該文本第i個詞的one-hot編碼表示,通過嵌入層矩陣E∈Rk*v得到wi詞所對應的詞向量xi,其中嵌入矩陣中的k代表該詞的向量維度,v對應詞典表的總數。

得到詞向量序列后,將該序列作為編碼器層的輸入,通過編碼器層得到每個單詞對應的隱藏狀態信息。本文編碼器層采用Bi-LSTM網絡,Bi-LSTM通過前后兩個不同方向對詞向量序列進行處理,并計算出每個單詞對應的隱藏狀態信息,之后通過級聯前后方向上的隱藏狀態信息,從而得到第i個單詞的最終隱藏狀態信息。上述過程分別由公式(1)、(2)、(3)進行表示。

其中hi為單詞i的最終隱藏狀態信息。

1.2 注意力層

基于Seq2Seq模型輸出文本所對應的類別標簽時,由于組成文本序列的不同單詞對其輸出結果影響不同,因此通過注意力層可以關注文本序列中的不同單詞。文本序列經過編碼器層后,由解碼器層與編碼器層進行注意力操作從而產生上下文向量,將其作為下一時刻解碼器層的輸入參數,從而影響類別標簽的輸出。其計算過程可分別由公式(4)、(5)、(6)進行表示。

上述公式(4)中eti表示t時刻解碼器層的狀態信息與編碼器層第i時刻注意力值的計算,經過公式(5)之后進行歸一化操作,最后通過不同時刻對應的不同權重與編碼器不同時刻的隱藏層狀態信息進行乘積求和操作,從而得到當前時刻的上下文向量ct。

1.3 解碼器層

解碼器層得到當前t時刻所對應的隱藏層狀態信息st后,通過連接全連接層,同時采用softmax函數作為全連接層的輸出函數,之后根據不同的閾值來判斷該標簽是否屬于該文本。其中st可以由公式(7)表示,具體輸出過程可分別由公式(8)、(9)進行表示。

公式(7)中,st-1表示t- 1時刻編碼器層中隱藏層狀態信息,g(yt-1)表示t- 1時刻輸出的標簽類別,ct-1表示t- 1時刻產生的上下文向量;公式(8)表示全連接操作;公式(9)表示模型的輸出函數。

2 層次化注意力機制

基于RNN模型的序列生成過程中,常常通過引入注意力機制來改善由于文本序列長度的增加而造成編碼器層產生的中間語義向量存在信息丟失等問題。現有注意力值的計算主要基于文本序列的注意力分布,通過該分布從而得到文本序列信息的加權平均,將其作為解碼器層的輸入參數,進行標簽序列的生成工作。當前,文本處理領域的注意力值的計算主要基于詞粒度,然而現實文本數據中存在大量結構信息,需考慮文本結構信息如何更好地對中間語義向量進行表示。

HAN注意力模型是由Yang等[3]于2016年提出,作者通過考慮文本結構信息,提出一種具有層次化結構的注意力模型,從而更好地對文本語義信息進行表示。文本分類過程中,不同單詞和句子對文本信息的表示存在不同的影響,并且同一個單詞和句子在不同的語境中也有不同的重要性,因此作者在對單詞以及句子建模時分別引入了注意力機制,該模型基于不同句子和單詞給予不同的注意力權重,從而得到更好的文本表示。最后作者基于公開數據集對HAN模型的有效性進行了驗證,結果顯示其提出的模型相較以往的模型效果提升顯著。

本文對HAN注意力模型進行改進,通過將多標簽文本分類Seq2Seq架構中的編碼器層采用HAN模型來進行表示,從而考慮到文本結構化信息對中間語義向量產生的影響,最后由解碼器層的狀態信息與編碼器中以句子為維度的隱層狀態信息進行計算,從而獲得更好的中間語義信息表示。基于HAN模型的編碼器層網絡結構如圖2所示。

圖2 HAN編碼器層示意圖

如圖2所示,該模型結構主要由詞編碼器、單詞級別注意力機制,以及句子編碼器所組成,其功能以及過程下面將詳細闡述。

2.1 詞編碼器層

假設一篇文檔si由L個句子所組成,給定一個句子包含Ti個單詞,wit表示第i個句子中的第t個單詞,其中t∈[ 1,T],T表示詞典總數。由單詞序列組成的句子wit,t∈ [0,T],首先通過嵌入層矩陣we得到xit,xit表示單詞wit由one-hot編碼到詞向量的映射,完成句子中單詞對應詞向量的映射之后,作為編碼器層的輸入,為了避免傳統循環神經網絡處理序列過程中忽略未來上下文信息,本文采用雙向LSTM架構作為詞編碼層的網絡結構,通過訓練序列向前、向后兩個方向的循環神經網絡共同決定模型的輸出。其中前后兩個方向的計算過程由公式(10)、(11)表示。

通過將前后兩個方向得出的隱藏層狀態信息進行關聯,從而得到考慮上下文信息之后的隱藏層狀態。其過程由公式(12)表示。

2.2 詞注意力層

由于一個句子中的不同單詞含義并不相同,通過attention機制選擇出對句子的含義有重要影響的單詞,通過更多關注于這些單詞,從而得到句向量更好的表示。首先將句編碼器層中不同單詞對應不同時刻的隱藏層狀態信息hit輸入到單層感知機中,得到輸出結果uit作為hit的隱含表示。其過程由公式(13)表示。

為了衡量不同單詞對于句子含義的重要性,本文采用詞向量與隨機初始化向量uw之間的相似度來進行表示,之后通過對句子中每個單詞相似度進行softmax操作,得到歸一化向量權重ait,其中ait表示第i個句子中第t個單詞的重要程度。其過程可以由公式(14)表示。

其中ww,uw,b作為模型訓練參數,通過訓練過程中反向傳播算法得出。得到不同單詞對應的attenion權重后,可以將句子的向量表示由組成句子的單詞進行表示,對應其單詞不同時刻的隱藏狀態信息加權求和。其過程由公式(15)所示。

2.3 句子編碼器

得到句子向量si的表示之后,采用同樣類似的方式得到基于句子粒度的隱藏層狀態信息,其中不同句子在不同時刻下隱藏層的狀態信息可由公式(16)、(17)、(18)表示。

得到不同句子在其不同時刻的隱藏層狀態信息之后,解碼器在解碼過程中,通過解碼層中的隱藏層狀態信息與編碼器中以句子為粒度的不同時刻隱藏層狀態信息進行注意力機制的操作,從而從傳統關注于詞粒度的重要性轉化為基于句子粒度的重要性。

2.4 解碼限制

由于訓練數據的特點或模型參數訓練不充分的因素,基于Seq2Seq模型的序列生成過程中,其解碼過程會出現重復輸出某個字符等問題。機器翻譯過程中常常需要考慮到重復字符的出現問題;然而在處理多標簽文本分類場景下,通過將多標簽文本問題轉化為序列生成問題,如果序列生成重復標簽,意味著該標簽為無用標簽。為解決重復標簽生成問題,本文擬采用在解碼階段加入限制,來避免重復標簽的生成問題。

從公式(20)中可以得出序列生成輸出標簽的概率分布,通過引入輔助向量vt,其中在t時刻預測輸出標簽時,如果前面已經預測出了標簽li,將li標簽對應的vt向量中索引位置i值設置為負無窮大,其余位置為0,通過softmax函數對負無窮的計算結果為0,從而避免解碼過程中出現重復標簽的問題。

其中vt向量維度對應標簽集數量,i表示標簽索引。

3 實驗驗證

3.1 實驗數據采集

為了驗證本文所提改進算法的有效性,本文采用RCV1-V2數據集[4]。該數據集為開源的新聞故事手工分類而成,可供后續研究者研究之用。其中每個新聞故事可以分配多個主題,總共有103個主題。

3.2 實驗結果分析

3.2.1 層次化注意力的影響

為了驗證層次化注意力機制對多標簽文本分類效果的影響,在生成標簽序列過程中的編碼器層分別采用使用層次化注意力機制和未使用該機制來進行實驗的對比工作。其中基于層次化注意力的改進模型本文簡稱為HSGM、普通序列生成模型為SGM[5],同時以BR、CC、LP等常見多標簽文本分類算法作為參考基準模型。最后基于Hamming-Loss、F1等指標進行模型評估。

在模型訓練之前需對數據集進行數據預處理,其中詞表大小設置為5000,如果文檔中存在詞表范圍以外的單詞,則用“unk”字符進行表示,同時每篇文檔由20個句子、每個句子對應20個單詞進行文檔單詞截取或補全。HSGM模型訓練的相關參數設置如下:詞向量維度為256維,句子向量維度為400維,句子維度為512維,同時以句子為粒度的隱藏層中維度、解碼器層隱藏層信息維度分別為256維和512維。詞粒度、句子粒度、解碼器層均采用雙向LSTM網絡作為基礎模型,之后采用反向傳播算法以及隨機梯度下降算法對模型進行訓練,最終實驗結果如表1所示。

表1 層次化注意力實驗對比表

由表1可知,基于傳統的BR二分類算法在其精確率以及F1相關指標上表現不錯,對比當前常用多標簽文本分類算法以及本文提出的基于層次化注意力機制分別在RCV1-V2數據集中通過相關評估指標驗證改進算法的有效性,從表中可以得出Mirco-Precision提高了0.7%,Mirco-F1指標提升了1%。從表中可以看出基于層次化注意力機制可以進行更好的中間語義向量的生成,從而提高多標簽文本分類的精確率以及F1指標。

3.2.2 輔助向量的影響

為了驗證引入輔助向量算法的有效性,本文首先采用經過結構化注意力改進算法的Seq2Seq模型作為分類基礎模型。其次,在此基礎上通過對比引入輔助向量以及未引入輔助向量來驗證輔助向量算法對多標簽文本分類結果的影響,定義引入輔助向量的模型為VSGM,最終實驗結果如表2所示。

表2 輔助向量實驗對比表

通過表2可以看出,引入輔助向量后多標簽文本分類指標Hamming-loss降低了0.11%,Mirco-P提升了0.2%,同時Mirco-F1指標提升了0.2%。綜上所述,引入輔助向量的方法可以進一步提升分類模型的精確率以及召回率。

4 結語

本文通過借鑒HAN模型的思想將層次化注意力機制運用于編碼器層中,將文本結構信息作用于構建隱藏層狀態信息的過程中。針對標簽序列生成過程中出現重復標簽問題,通過引入輔助向量,在解碼過程中加入解碼限制,有效地避免了重復標簽問題。最后基于開源RCV1-V2數據集,通過對比當前常用多標簽文本分類算法以及本文所提改進算法的評分指標,驗證了本文所提改進算法的有效性。

猜你喜歡
單詞文本信息
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 中美日韩在线网免费毛片视频| 国产女人在线| 一级一级一片免费| 国内毛片视频| 国产一区二区三区日韩精品| 国产精品熟女亚洲AV麻豆| 国产视频自拍一区| a级高清毛片| 亚洲视频色图| 国产白浆一区二区三区视频在线| 欧美一级在线看| 亚洲精品波多野结衣| 18禁高潮出水呻吟娇喘蜜芽| 最新日韩AV网址在线观看| 中国丰满人妻无码束缚啪啪| 国产精品视频猛进猛出| 伊人色综合久久天天| 尤物视频一区| 亚洲精品无码AV电影在线播放| 久久国产精品77777| 亚洲精品动漫| 精品伊人久久久大香线蕉欧美| 国产乱人视频免费观看| 国产精品毛片一区| 91在线中文| 特黄日韩免费一区二区三区| 亚洲无码视频图片| 免费国产不卡午夜福在线观看| 香蕉综合在线视频91| 午夜福利视频一区| 久久91精品牛牛| 亚洲高清在线天堂精品| 欧美在线观看不卡| a级毛片网| 999国内精品久久免费视频| 毛片免费视频| 波多野结衣无码AV在线| 精品国产自| 一级毛片基地| 激情乱人伦| 日韩成人在线网站| 成人一级免费视频| 国产一线在线| 天天躁日日躁狠狠躁中文字幕| 制服丝袜国产精品| 日本国产精品一区久久久| 亚洲丝袜中文字幕| 欧洲一区二区三区无码| 国产毛片片精品天天看视频| 91香蕉视频下载网站| 中文字幕欧美日韩高清| 精品丝袜美腿国产一区| 久久综合九九亚洲一区| 无遮挡一级毛片呦女视频| 国产乱码精品一区二区三区中文 | 亚洲欧洲一区二区三区| 亚洲第一页在线观看| 天天干天天色综合网| 精品偷拍一区二区| 美女毛片在线| 国产在线视频二区| 日本精品αv中文字幕| 亚洲狼网站狼狼鲁亚洲下载| 国产麻豆精品久久一二三| 中国毛片网| 久草热视频在线| 久操中文在线| 二级毛片免费观看全程| 午夜福利在线观看成人| 亚洲男人的天堂在线观看| 久久影院一区二区h| 91www在线观看| 久久国产毛片| 国产日韩丝袜一二三区| 全免费a级毛片免费看不卡| 为你提供最新久久精品久久综合| 亚洲成人精品| 高清不卡毛片| 国产精品部在线观看| 国产超薄肉色丝袜网站| 国产一级在线观看www色| 在线亚洲精品福利网址导航|