999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層級注意力模型的無監督文檔表示學習①

2018-09-17 08:48:46歐陽文俊徐林莉
計算機系統應用 2018年9期
關鍵詞:單詞重要性機制

歐陽文俊,徐林莉

(中國科學技術大學 計算機科學與技術學院,合肥 230027)

大數據時代,隨著文本數據的大量增長,如何通過計算機的存儲和表示這些文本成為一個重要的問題.許多文本任務的首要步驟就是文本表示(Text Representation),它在自然語言處理(Natural Language Processing,NLP)中一直是一個熱門的話題也具有非常廣泛的應用[1,2],早期的文本表示模型統計單詞中文本中的詞頻或者通過少量的文特征詞來表現整個句子的特征.Harris 在 1954 年提出了詞袋(Bag-of-Words,BoW)和Bag-of-n-gram模型.BoW將一段文本表示成一個與詞匯表等長的向量,但是這種方法失去單詞在文本中出現的次序信息,不同句子可能有相同的向量表示.Bag-of-n-gram雖然加入了單詞的次序信息,但同時向量的維度也大大提高了.詞頻-逆文檔頻率(TFIDF)用統計特征提取的方法表示文本.這些方法都屬于文本的高維集中式表示,通常向量的維度很大而且很稀疏,丟失了文本的語義信息,計算復雜度非常高.

Bengio 2003年提出基于神經網絡模型的單詞分布式表示(Distributed Representations)算法[3],它是一種將文本表示成低維實數向量的方法.此后分布式表示學習的研究發展迅速,其中包括單詞表示和文檔表示,也可以稱為詞嵌入(Word Embeddings)和文檔嵌入(Document Embeddings),將詞或者文檔嵌入到一個連續的空間,得到詞和文檔的分布式表示[4–7].標記數據在大數據時代是非常昂貴的,文本的分布式表示作為一種無監督學習(Unsupervised Learning),能夠直接從大量未標記文本中學習特征,這是分布式表示的一大優勢.此外,分布式表示的另一個優點是得到的向量具有良好的語義性質,例如詞向量的類比(analogy)性質:v(北京)-v(中國)=v(巴黎)-v(法國).分布式表示學習得到的向量作為其他機器學習模型的輸入,很大程度提升它們對文本的理解能力,所以分布式表示在自然語言應用中起到非常重要的作用.

現有的無監督文檔表示方法沒有考慮單詞在句子中的重要性,也沒有考慮句子在文檔中的重要性,等價的看待所有的單詞和句子,這與人類在理解文本的時候是不相符的.為了解決這種文本中單詞不同重要性的問題,注意力機制開始引入到文本任務中[8–10].注意力機制考慮的是在文本序列中每個單詞對目標任務起到的作用不是等價的,而是著重關注在句子中關鍵的一些詞.現有大部分具有注意力機制的NLP工作都是監督學習(Supervised Learning)模型,它們為單個任務提出相適應的注意力機制.注意力機制在一系列監督的自然語言處理任務中體現了它的作用和價值,但在無監督的任務中還沒有過多的研究,如何將注意力機制引入到無監督的文本表示學習上成文本文研究的重點.對于文檔來說,它的層級結構也使得本文的注意力機制與眾不同,文檔中的重要成分是句子,句子的重要成分才是詞,所以本文研究了一個層級的注意力機制.

最終,文本將無監督的文本表示應用在文檔表示中,同時考慮文檔的層級結構,加入注意力機制,構建一個基于層級注意力機制的無監督文檔表示模型(Hierarchical Attention Document Representation,HADR).本文提出的文檔表示方法更加具有語義性,得到文檔表示的同時得到了每個詞的重要性和每個句子的重要性.下面總結本文的主要貢獻:

1)提出一種無監督的注意力機制應用在文檔的分布式表示中;

2)在得到文檔表示時,考慮了文檔的層級結構;

3)HADR模型得到的文檔表示在情感分類實驗上取得了更好的表現.

1 相關工作

1.1 詞嵌入與文檔表示

單詞分布式表示高效的從大量未標記文本中學習單詞向量,也稱作詞嵌入.該方法將詞嵌入到一個低維空間,得到每個詞的稠密向量表示,向量的每個維度都具有一定的語義信息.相似含義的詞匯具有相似的表示,也就是它們的余弦相似度比較大.相反的可以通過兩個詞語向量的余弦相似度來判斷它們在語義空間是否相似.這樣,詞的語義相關性很好的通過向量計算量化.

最早的單詞分布式表示模型是Bengio 2003年提出的神經網絡語言模型(Neural Network Language Model,NNLM)[3],它是一個 4 層的神經網絡模型,通過上文的詞來預測下文的詞,輸入層的參數即詞向量表示矩陣可以自動學習.由于NNLM隱藏層數目過多導致計算復雜度過高,因此詞嵌入技術受到限制,無法應用于海量文本的訓練,詞嵌入技術也因此在很長一段時間內停滯不前.Mikolov 2013 年改進了 NNLM,提出了現在經典的Word2Vec[4,5],該模型去掉一個非線性隱層,是一個只有輸入層、隱藏層和輸出層的3層神經網絡.作者還分別提出兩種不同的訓練方式CBOW和Skip-Gram,都是通過目標單詞和上下文之間的關系建模.與NNLM模型相比,Word2Vec大大的提升了詞向量訓練效率.除了神經網絡模型學習詞向量以外,還有基于共現矩陣分解的方法[11,12],并且Omer Levy證明了對PMI矩陣分解的方法與Skip-Gram模型是等價的[12].

單詞的分布式表示技術在NLP應用中取得了不錯的效果,一些研究開始將分布式表示學習利用到文檔上,希望得到一篇文檔的表示向量[7,13–15].Le 等人2014年擴展CBOW和Skip-Gram分別提出了文檔的分布式表示學習模型PV-DM和PV-DBOW[7],它們的神經網絡的結構與Word2Vec模型相比沒有變化,只不過在輸入層添加了文檔向量的學習.如果兩篇文檔具有較多相似的詞語,那它們的文檔向量也是比較接近的.實驗驗證了文檔表示在分類任務上有不錯的效果.現有的文檔表示模型沒有考慮文檔中詞語的重要性,即使兩篇文章有較多相似的但不重要單詞,也不能認為兩篇文檔相似,所以在學習文檔表示時,考慮單詞重要性尤為關鍵.因此本文在表示文檔的時候著重考慮了各部分的重要性.

1.2 注意力機制

注意力機制首先應用在圖像問題中[8,16],該研究動機來源于人類的注意力機制,在圖像和自然語言處理問題中,可以看成圖像或者文本中不同部分的重要性體現.

Bahdanau第一次在機器翻譯模型中引入了注意力機制[9],之后注意力機制在自然語言處理中得到廣泛應用.Wang嘗試把注意力機制引入到無監督句子表示學習上,擴展 PV-DM 方法,提出了 aCSE 模型[14],Wang認為窗口中的所有單詞重要性是不一樣的,上下文的每個單詞應該賦予一個權值,這個權值依賴距離目標詞的位置,并且在訓練的時候得到.這種注意力的構造是一種局部的注意力,體現的是局部重要性,仍然無法看出一個詞對于理解整個句子或文檔的全局重要性.

Yang為了解決文檔分類問題,提出了一個層級注意力模型(Hierachical Attention Network,HAN)[10].該文考慮一篇文檔具有的層級結構,即文檔由句子構成,句子由詞構成,在構建文檔的表示之前先構建句子表示,然后通過句子表示得到文檔的最終表示,單詞和句子的重要性在不同的文檔中都可能不同.Yang構建的層級注意力模型是一個監督的學習模型,并且僅限于應用在單個自然語言處理任務上.

在基于無監督學習的文檔表示模型中,現有的模型沒有考慮文檔的層級關系,aCSE[14]只考慮單詞的局部重要性,而且這種基于位置的注意力不合理,沒有考慮單詞與單詞的關系,它適用于較短的文本.另一方面,在基于監督學習的文檔表示模型中,HAN雖然考慮了文檔的層級關系和使用了層級注意力機制,但由于監督學習局限性,無法處理大量的未標記的文本,學習的特征受到局限.

結合上述的模型,本文把大量的未標記文本數據利用起來,同時考慮到文檔的層級結構和文本的注意力機制,通過無監督的學習方式得到文檔的表示,稱為基于層級注意力機制的無監督文檔表示學習方法.該模型可以高效的學習海量數據特征,通過淺層模型得到文本的語義表示.

2 HADR 模型

2.1 CBOW模型和Skip-Gram模型

詞嵌入模型一般通過大量的無監督文本訓練詞向量.在詞嵌入模型中,假設詞匯表是 V,一般的,中文文本需要將句子進行分詞操作才能統計詞匯表,每個詞將表示成一個長度為d的向量,所有的詞向量可以組成一個詞矩陣 W ∈Rd×|V|,詞wi,{i=1,2,···,|V|}的向量表示可以寫成v(wi).給定一篇文檔可以表示成S={w1,w2,···,wl},l是文檔的長度.大部分詞嵌入模型都需要構建句子中的滑動窗口,假設wt為目標單詞,wt的上下文由相鄰的一些單詞構成,表示為ct={wt?k,···,wt+k},不包括wt,ct可以看成一個隨著變化而移動的滑動窗口,2k是窗口的大小.Word2Vec的兩個模型可以寫成極大化如下目標函數的形式:

其中,ct是wt的上下文,概率函數可以表示成一個softmax函數:

在CBOW模型中,ywt表示成隱藏變量和向量的內積,在 S k i p-G r a m模型中,.CBOW中的隱藏變量可以用上下文的窗口向量表示,一般是窗口內所有單詞向量的均值或者相連,而Skip-Gram中的隱藏變量就是wt上下文中的一個單詞向量.如果是利用均值表示,隱藏變量寫成如下形式:

訓練過程需要大量的文本語料庫,將語料庫構造一系列的滑動窗口,利用隨機梯度下降和反向傳播算法優化,不斷的對參數更新,同時對詞向量進行更新,得到最終的語言模型.CBOW和Skip-Gram的優勢在于用一個比較簡單的神經網絡模型就可以構造出語言模型,同時得到了具有語義相關性的單詞分布式表示.而且論文利用負采樣(Negative Sampling),子采樣(Subsampling)和層級softmax等技術進一步提升了模型的效率[3,4].

2.2 PV-DM和PV-DBOW

PV-DM和PV-DBOW類比Word2Vec的方式學習文檔的特征表示,分別在CBOW和Skip-Gram模型中添加一個段ID(Paragraph ID),這個段ID就是指句子或者文檔的表示向量,維度與詞向量相同,記為v(S).基于CBOW的句子表示模型稱為PV-DM,它在構造隱藏變量時聯合窗口內的詞向量和文檔向量v(S),隱藏向量可以寫成如下形式:

PV-DBOW是直接通過當前的段ID來預測文檔中所有的目標單詞.隱藏向量就是文檔向量h(wt)=v(S).相比Word2Vec模型,PV-DM和PV-DBOW的優化方式相似,每篇文檔多出一個文檔向量的更新,它們的結構如圖1所示.

圖1 PV-DM 和 PV-DBOW 模型

2.3 HADR模型

HADR模型是本文提出的一個基于注意力機制文檔表示模型,該模型研究了文檔的層級結構,提出一種基于層級的注意力機制利用在文檔的表示學習中.相比于PV-DM和aCSE來說考慮更加詞與詞之間的相關性[7,14].

假設文檔具有層級關系,文檔由句子構成,句子由單詞構成.D= {S1,S2,···,SN},N表示文檔包含的句子的個數,同樣的,第n個句子可以表示成是第n個句子的長度.與Word2Vec結構類似,假設目標單詞是wn,t,上下文可以表示成.為了同時得到句子向量和文檔向量,層級結構語言模型通過句子,文檔和窗口單詞來預測目標單詞,HADR模型的目標函數如下:

通過窗口向量v(cn,t),句子向量v(Sn),文檔向量v(D)三個向量構造當前窗口的隱藏變量,然后通過隱藏變量和單詞向量構造的softmax函數實現目標單詞wn,t的預測.最關鍵的問題就是如何構建這個隱藏向量才能體現文檔中的重要組成部分.下面介紹通過層級的方式來構造層級的隱藏變量,構造一種層級的注意力機制.

相比于CBOW模型,為了體現窗口中單詞對窗口向量的貢獻不一樣,在將所有詞向量相加的時候,給每個詞向量賦予一個權值.表示成如下形式,a0代表0級注意力機制,窗口向量也可以看成0級隱藏變量:

在上下文中,窗口內的詞與目標詞語義越相近,它對窗口的貢獻越大,賦予更大的權值.例如窗口單詞是“the cat is”,目標單詞是“playing”,“cat”與“playing”相關,權值越大,“the”、“is”與“playing”不相關,權值小.由于詞向量的語義相關性,可以通過向量的內積來表示單詞之間的相關性.0級注意力可以通過歸一化的向量內積表示:

0級注意力機制的設計是針對一個單詞的局部注意力.另外一方面,本文希望能得到一個句子或者一篇文檔的全局注意力,也就是針對句子或者文檔中的每個單詞的重要性.當詞向量和句子向量比較接近時,模型給句子賦予更大的權值,這樣1級注意力就可以用加入sigmoid函數的詞向量和句向量內積表示,如下:

Sigmoid函數作為神經網絡的激活函數,形式如下sigmoid(x)=1/(1+exp(?x)).與 PV-DM 模型類似,1 級隱藏變量就可以表示成上一級隱藏向量和句子向量的加權求和:

至此,最終的隱藏向量構造出來了,a2n表示句子Sn在文檔D中的重要性.接下來的步驟與PV-DM相同了,通過最終隱藏向量去預測目標詞wn,t.HADR模型在更新文檔向量、句子向量和詞向量的同時更新各級的注意力值,并且所有的變量直到得到最優的模型更新停止,最終得到具有更強語義的句子表示和文檔表示,并且量化了詞在句子中的重要性(注意力)和句子在文檔中的重要性.HADR結構如圖2所示.

圖2 層級注意力結構的文檔表示模型

3 實驗與結果分析

為了研究層級注意力機制在文檔表示中的作用,本文從情感分析實驗與現有的未加入注意力機制的PV-DM和Word2Vec模型進行對比.在這個章節中,本文開始介紹模型使用的數據集,然后介紹實驗代碼的實現以及參數的設置,最后介紹基于文檔表示的情感分析,并且與現有一些模型對比.

3.1 IMDB數據集和預處理

IMDB(Internet Movie Data Base)是英文的電影評分數據集,每條評論包括一條文本,可能是一個句子(sentence),也可能是由多個句子組成的文檔(document).在所有IMDB數據中,一部分評論已經打分為1-10,更高的評分表示用戶更加喜歡該電影,對應的評論也具有更積極地評價.更多的,把打分劃分為消極的(1,2,3,4 分)、積極的(7,8,9,10 分),將中性打分(5,6分)的評論數據刪除.IMDB情感分類的任務就是給定一條評論文本,預測它的情感是積極的還是消極的.除了已打分的評論,還有一部分評論沒有任何打分,本文的模型通過無監督學習方式把這些未標記評論也加入到單詞向量的學習中來.圖3中展示了100 000條積極、消極和未標記評論數據的分布.

圖3 IMDB積極、消極和未標記數據大小

在實驗中,本文對評論數據進行了預處理操作,刪除停用詞(stop words),例如在英文中的停用詞有:the,a,of等.在情感分析中,停用詞的作用非常小,幾乎不影響整個句子的含義.同時將所有的字符都轉化成小寫字符,刪除語料庫中頻率低于5個的單詞,最終得到的詞匯表大小為64 720.通過這樣一系列的預處理操作降低了計算復雜度.

3.2 實現與參數設置

本文擴展Python庫gensim中Doc2Vec腳本,實現了文本提出的HADR模型.為了讓HADR模型和現有的模型具有可比性,文本使用了相似的參數設置:初始的學習率alpha設置為0.05,滑動窗口大小為5(目標單詞左右各5個單詞),負采樣大小為25個單詞,子采樣取值為 10e–3.訓練的時候采用了分層 softmax,刪除了詞頻小于5的單詞.為了使得單詞向量和句子向量充分的學習,HADR算法和對比算法都迭代20次.在對比模型的時候使用相同的向量維度進行對比.

3.3 情感分析實驗

通過模型得到文檔的特征表示之后,本文使用IMDB數據情感分析來評價文本表示學習的性能.電影評論信息能表示一個電影的評價,它代表了一個電影的商業價值,對電影評論進行情感分析具有重大的意義.實驗通過給定的訓練集來預測測試集合中評論的情感分類,分類器使用了來自scikit-learn庫的邏輯回歸代碼,邏輯回歸是一個成熟的特征分類模型,在很多分類問題上取得不錯的效果.本文使用50 000個已標記的數據進行情感分類實驗,利用5折交叉驗證進行實驗,也就是將數據分成5份,其中4份作為訓練數據,剩下的一份作為測試數據,最終取5次實驗的均值值作為指標.

本文對比了一些文本表示模型,其中包括:

(1)Word2Vec[4,5]:Word2Vec 模型得到詞向量,參數設置和本文模型相似,文檔表示向量通過所有的詞向量相加得到(Google的C代碼);

(2)Doc2Vec[7]:通過 gensim 中的 Doc2Vec 腳本得到的文檔表示,參數設置與本文的模型相似(gensim實現);

(3)TF-IDF:通過 TF-IDF 算法統計文本的詞頻-逆文檔頻率作為的文本特征(scikit-learn實現).

本文使用相同參數的邏輯回歸分類器對不同模型得到的文檔表示進行分類實驗,實驗通過正確率(Accuracy)來評價,正確率越高表明模型的效果越好.文本對比了在不同維度下,不同模型的情感分類效果,如圖4所示.我們可以看出隨著維度的增長,不同模型都呈現的性能都有提升的趨勢,HADR模型在考慮了文檔中單詞和句子的重要性之后取得了最好的效果,并且在dim=200的時候效果基本接近最佳,之后增大文本表示維度對情感分類的效果影響不大.

同時實驗對比了Doc2Vec和HADR模型在不同迭代步數的分類正確率,兩個模型使用相同的向量維度dim=200,而且運行到20最大的迭代步數,其他參數與3.2章節相同.Doc2Vec和HADR模型實驗對比結果如圖5所示.同樣的每次分類使用5折交叉驗證取5次實驗的平均值.從圖中可以看出,兩個模型在隨著迭代步數增長,性能都有所提升,而且迭代步數達到一定步數,性能提升比較小.

圖4 HADR算法與對比算法的分類正確率對比

圖5 HADR 算法與 Doc2Vec 不同迭代次數的性能

4 結論與展望

基于Le等人提出的PV-DM算法[7],本文在考慮了句子中不同單詞具有不同重要性以及文檔中句子也具有不同重要因素,提出一種具有層級結構的注意力模型來學習文本表示.改進的算法不僅得到了文檔更好的表示,也得到文檔的多級表示,同時通過這樣無監督的注意力模型得到句子中每個單詞重要性以及文檔中每個句子的重要性,這樣將文本中每個部分的注意力值量化出來.下一步工作將繼續考慮文本的其他因素學習文本表示,模擬人類遺忘機制,人類在閱讀一段文本的時候不僅會將注意力轉移到幾個關鍵的單詞上或者句子上還會部分遺忘之前看的內容.之后的工作希望能構建一個具有遺忘機制的文本表示模型.

猜你喜歡
單詞重要性機制
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
單詞連一連
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
看圖填單詞
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 久久a毛片| 欧美精品影院| 国产精品漂亮美女在线观看| 一区二区三区毛片无码| a毛片在线播放| 这里只有精品在线| 国产精品极品美女自在线| 欧美日韩理论| 亚洲婷婷在线视频| 国产欧美视频在线观看| 免费jjzz在在线播放国产| 国产欧美视频在线| 国产精品视频观看裸模| 日韩午夜福利在线观看| 日本道综合一本久久久88| 亚洲综合亚洲国产尤物| 免费三A级毛片视频| 最新亚洲av女人的天堂| 亚洲无码一区在线观看| 色欲综合久久中文字幕网| 少妇精品在线| 国产地址二永久伊甸园| 亚洲三级成人| 美女国内精品自产拍在线播放| 日本精品一在线观看视频| 日韩精品无码一级毛片免费| 99视频精品在线观看| 国产在线一区视频| 99视频精品在线观看| 国产丰满大乳无码免费播放| 亚洲欧美国产五月天综合| 亚洲天堂网站在线| 无码人中文字幕| 制服丝袜国产精品| 一级片免费网站| 国产黄视频网站| a毛片基地免费大全| 亚洲女人在线| 99九九成人免费视频精品| 亚洲第一香蕉视频| 国产精彩视频在线观看| 国产精品视频观看裸模| 国产一区三区二区中文在线| 亚洲天堂精品视频| 日韩国产综合精选| 国产成人啪视频一区二区三区| 亚洲综合二区| 国产成人亚洲无吗淙合青草| 国产精品xxx| 二级特黄绝大片免费视频大片| 中文字幕资源站| 日韩不卡高清视频| 婷婷六月天激情| 91视频区| 中文字幕在线日本| 亚洲精品自拍区在线观看| AV网站中文| 欧美、日韩、国产综合一区| 国产手机在线ΑⅤ片无码观看| 亚洲人成网站观看在线观看| 日本手机在线视频| 亚洲精品第1页| 久久亚洲高清国产| 亚洲无码高清一区二区| 亚洲中文字幕在线观看| 一级片一区| 国产成人av一区二区三区| 中文字幕 日韩 欧美| 亚洲国产精品一区二区高清无码久久| 亚洲国产一成久久精品国产成人综合| 国产精品永久不卡免费视频| 国产精品成人久久| 成年女人18毛片毛片免费| 国产白丝av| 亚洲精品欧美重口| 五月婷婷激情四射| 亚洲人成电影在线播放| 日韩不卡免费视频| 呦系列视频一区二区三区| 亚洲av综合网| 欧美亚洲一区二区三区导航| 久久一本精品久久久ー99|