主題聯合詞向量模型

2018-03-02 09:22:58吳旭康楊旭光陳園園王營冠張閱川

計算機工程 2018年2期

吳旭康,楊旭光,陳園園,王營冠,張閱川

(1.中國科學院上海微系統與信息技術研究所,上海 200050;2.上?？萍即髮W 信息科學與技術學院,上海 201210; 3.上海物聯網有限公司,上海 200018)

0 概述

詞向量[1-2]是用數學形式的向量來表達單詞,可用于自然語言處理任務中的很多方面,比如命名實體識別、句子成分分析[3]、單詞相似度計算等。因此,詞向量的研究得到了越來越多的關注。

當前,大部分的詞向量模型通常使用一個向量來表示一個單詞,忽視了單詞的多義性,從而削弱了詞向量對單詞語義表達的唯一性。為了解決這樣的問題,多向量模型被提出[4-5],該模型通過對同一個單詞的不同上下文語境(context)進行聚類,針對每一個類簇生成一個詞向量,然而,由于該方法過于笨拙和繁瑣,于是,另一些基于神經語言模型[6-8]的詞向量模型被提出,這類模型通過構造不同的神經網絡,使用隨機梯度下降(Stochastic Gradient Descent,SGD)或者EM(Expectation Maximum)算法得到最終的模型參數,進而得到詞向量。

然而,即使采用多向量模型,在生成多個詞向量的過程中也存在一個較大缺陷——這些多向量模型認為同一個單詞的不同上下文語境是獨立的,不具有相關性。事實上,即使是不同的上下文語境,仍然可以有語義(Semantic)上的相似或者重疊。例如,在英語中,單詞“like”在句子“I like that girl”和句子“She is my like”中,兩者表達了幾乎一致的信息,卻完全是2種上下文語境。因此,把不同的語境完全的隔離開并不是完美可行的方案。于是,TWE模型被提出,結合單詞的主題信息,得到更具表達性的詞向量[9],但該模型簡單地將單詞和主題向量連接作為最終的詞向量,在向量表達性上不夠突出。緊接著,基于主題單詞嵌入(Topical Word Embedding,TWE)模型改進的單詞主題混合(Word-Topic Mixture,WTM)模型[10]利用潛特征狄利克雷特分布(Latent-Feature Latent Dirichlet Allocation,LFLDA)方法,計算出TWE生成的單詞-主題向量的概率分布,并通過假設該概率分布與狄利克雷特分布(Latent Dirichlet Allocation,LDA)得到的單詞-主題概率分布一致,從而得到性能更好的詞向量。然而,WTM模型需要最小化上述2個概率分布的KL散度,計算較為繁瑣。

本文提出一種更加有效和靈活的多向量模型——主體聯合詞向量模型(Topic Combined Word Vector Model,TCV Model)。該模型的主要思想與WTM模型類似,利用單詞所屬的主題信息來表達單詞的上下文語境。不同于WTM模型,該模型利用哈夫曼編碼為每一個單詞構建一個初始向量作為神經網絡的輸入,神經網絡訓練后得到每一個單詞及其主題對應的向量。TCV模型對生成的單詞向量和主題向量進行歸一化和線性組合,將其作為該主題下單詞的詞向量,并考慮將具有最大概率的一個或2個主題作為該單詞的有效上下文,避免WTM模型中最小化KL散度的復雜計算。

1 模型描述

1.1 LDA 模型

作為非監督型主題模型,LDA模型可以從一系列文檔中,找到指定數目的主題[11]。該模型是一個詞袋子(Bag of Word,BOW)模型[12-13],文本中每個詞的出現都是獨立的,不依賴于其他詞是否出現。在LDA模型中,假設:1)文檔蘊含多個主題,主題數量適當;2)這是一個有生成過程的概率模型,并假設每一個文檔都是被生成的。

文檔的生成過程為:1)隨機選擇一個主題分布;2)對文檔里的每一個單詞,首先隨機從主題分布中選擇一個主題,然后從相應的主題中隨機選擇一個單詞;3)一個主題是在一個固定詞庫上的分布,并且,所有的主題被假定為先于文檔生成。4)搜尋的主題個數需要預先指定LDA模型的框圖如圖1所示,假設語料庫中有M個文檔和K個主題。其中,α和β是Dirichlet分布的超參數,zm,n是文檔m中的第n個單詞的主題,wm,n是第m個文檔中第n個單詞,M是文檔的總數目,Nm是第m個文檔中單詞總數目,θm和Φk均為向量,θm表示第m個文檔中主題z的概率分布Pr(z|m),向量的每一列表示每個主題在文檔中出現的概率,Φk表示在主題k下單詞的概率分布Pr(w|zk),向量的每一列表示在主題zk下生成每個單詞的概率。

圖1 LDA模型框圖

參數為α的Dirichlet分布如下:

(1)

(2)

其中,Γ()是Gamma分布,xi表示詞庫中被觀察到的單詞i的概率。Dirichlet分布是多項分布的共軛先驗分布。

LDA模型的具體實施過程如下:通過對參數為α的Dirichlet分布取樣生成文檔m的主題分布θm,接著從主題的多項分布θm取樣生成文檔m的第n個單詞的主題zm,n,并從參數為β的Dirichlet分布取樣生成主題zm,n的單詞分布Φzm,n,最后從單詞的多項分布Φzm,n中取樣最終生成的單詞wm,n。如此循環直到所有的文檔都被生成。

通過LDA模型計算,每一個單詞將會被賦予具有一定概率的主題標簽,同時每一個主題都能通過概率排序找到最接近該主題含義的單詞。如表1所示,在4個主題下各自最接近的5個單詞(主題的名字是在觀測完對應的單詞分布后人為添加的)。

表1 LDA模型不同主題下的單詞

1.2 Skip-Gram模型

在谷歌正式推出詞向量工具Word2Vec之后,Skip-Gram模型成為一個用于生成詞向量的熱門簡化版神經語言模型[11]。Skip-Gram模型的目標在于預測給定單詞的上下文單詞。其神經網絡結構如圖2所示。

圖2 Skip-Gram模型

神經網絡的輸入是一個通過哈夫曼樹構造的初始詞向量。哈夫曼樹的節點權值由詞頻(Word frequency)決定。給定一個單詞序列W={w1,w2,…,wN},該模型的目標函數是最大化平均對數概率,如下:

(3)

其中,c表示范圍為k的單詞的上下文,N表示訓練單詞的個數。為了計算Pr(wi+c|wi),引入了Softmax函數:

(4)

層次Softmax模型主要的優勢在于將計算的節點數從原來的W個下降至lbW個。該模型使用二叉樹的方式呈現輸出層,即將W個單詞作為W顆樹的葉子節點,每棵樹的任一節點的分支代表一次二分類過程。這個處理過程,實際上是通過隨機行走的方式為每一個單詞賦予一個概率。

詳細來說,每一個單詞wd都可以找到一條從根節點出發的路徑。令nd(wd,j)表示從根節點到單詞wd的路徑上的第j個節點,令L(wd)代表該路徑的長度,即nd(wd,L(wd))=wd。更進一步,令child(nd)代表節點nd的任一固定子節點,運算符[]的含義是,如果x為真,那么[x]為1,x為否,則[x]為-1。那么,層次Softmax函數可以表達為:

(5)

chk(wd,j)=[nd(wd,j+1)=child(nd(wd,j))]

(6)

1.3 主題聯合詞向量模型

主題聯合詞向量模型依賴于每個單詞的主題信息。因此,首先通過LDA模型獲取主題并對單詞wi標記一定數量的主題zi∈Ts。在主題標記完成后,每個單詞將會有2個id,分別是單詞id和主題id。接著,對語料庫中的每一個單詞構建哈夫曼樹,并進行編碼,作為Skip-Gram模型的初始單詞輸入,同時,為其對應的主題id隨機生成主題編碼,作為Skip-Gram模型的初始主題輸入。主題聯合詞向量模型如圖3所示。對一個單詞wi及其對應的主題z={z1,z2,…,zj,…,zN},該模型的目標函數是最大化平均對數概率:

(7)

圖3 TCV模型

當該模型訓練完成后就得到單詞向量wi和主題向量zi。為計算的簡便,本模型要求單詞向量和主題向量擁有同樣的維度,比如,wi=W1×200,zi=Z1×200。

為了將主題信息應用于單詞,從而構建更具表達性的詞向量,該模型首先對主題向量進行歸一化:

(8)

然后,對兩者施加一個線性變換,得到最后的詞向量Wz:

Wz=Norm(zi)(Normal(wi)⊕Normal(zi))

(9)

其中,Norm(zi)是主題向量zi的二范數,⊕表示將2個長度分別為x,y的向量合并成長度為x+y的向量。這里對主題向量進行歸一化的原因是相比于單詞向量,主題向量各個元素的值過小(主題向量在0.01～0.2的范圍,單詞向量在0.1～0.9的范圍)。同時,對詞向量做歸一化,并將兩者連接成一個向量,然后用各個元素乘以主題向量的模,這個操作可以在一定程度上讓主題向量和單詞向量趨向統一,更好地結合兩者的信息。

根據最終得到的詞向量Wz,主題聯合詞向量模型即可用于單詞相似度測試,不同于傳統的單詞相似度檢測,該測試需要基于單詞上下文。給定一個單詞wi及其上下文ci,LDA模型可以根據[8,14]進行主題概率分布的推斷,即Pr(z|wi,ci)=Pr(z|ci)Pr(wi|z)。因此,每一個單詞將會被標記多個主題。一個很直接的上下文詞向量如下:

(10)

其含義是在模型得到的所有可能的主題中,將每個主題的概率作為權重,進行加權求和,得到最終的上下文詞向量。然而,對于一個給定上下文語境的單詞,其語義信息大致是明確的,不會包含太多主題。因此,主題聯合詞向量模型接受t個具有最大概率的主題作為單詞的主題候選,其余主題作為噪聲處理。那么,新的上下文詞向量表達為:

(11)

其中,σWz被定義為噪聲項,σ為噪聲系數,為了計算的簡便,噪聲系數在這里被設定為0?？紤]一個具有10個主題的單詞,它唯一可能出現的場景就是字典。在一個現實的語境中,人們總會將該單詞限定在某幾種語義之下。10種主題的情況是不可能出現的。因此,本文設定t的最大值為2。

那么,給定一對單詞及其對應的上下文(wi,ci)、(wj,cj),本模型采用余弦相似度[15]計算其詞向量相似度,如下:

(12)

結合式(11)和式(12),根據AVGSimC公式[4]計算上下文詞向量的相似度S,如下:

(13)

2 實驗結果

在本節中,分別從上下文單詞相似度、文本分類2個自然語言處理任務進行實驗,對比評估多種相關模型的性能。

2.1 數據集

2.1.1 單詞相似度實驗

傳統的單詞相似度實驗,通常選用WordSim353、MC、RG等數據集作為實驗對象,但是,這些數據集都忽略了單詞的上下文,不適合本文的單詞相似度實驗。因此,在本文中采用上下文單詞相似度檢測數據集SCWS,該數據集中包含2003對單詞,每一對單詞都有各自的上下文,同時,每一對單詞都有10個人為標記的對兩個單詞相似度的打分,打分原則是依靠人對每一個單詞在該上下文下的語義的理解打出一個0～10之間的分數。本文對這10個打分取截尾平均數作為最終的參考打分。由于余弦相似度可以為負值,這與人為的打分(均為正值)不一致,因此本文將使用以下公式,將模型得到的打分結果xi轉化為正值。

(14)

其中,min和max是模型輸出的所有相似度結果的最大值和最小值。并且,考慮到模型計算得到的相似度數值與人為打分數值差異較大,本文采用斯皮爾曼相關系數作為最終模型打分與人為打分的接近程度。

本文使用維基百科在2010年4月的數據作為訓練庫。由于訓練庫數據巨大(訓練數據有465萬個文檔),需要進行一些必要的預處理過程,例如格式化,停用詞(stop word),詞干提取(stemming)。該實驗中將LDA模型的主題數目設置為200,迭代次數設置為100。當開始訓練主題聯合詞向量模型時,默認窗口大小設置為5,單詞向量與主題向量維度均設置為200。整個實驗過程在一臺Inteli7處理器、64 GB內存的工作站上進行,操作系統為Ubuntu 14.04,訓練時間為15 d。

本文將TCV模型與C&W模型、TFIDF/Pruned TFIDF(S/M)模型[4]、經典多向量模型(例如Huang模型等)[6,8]、LDA模型、Skip-Gram模型進行比較。其中,C&W模型和詞頻逆文檔頻(Term Frequency Inverse Document Frequency,TFIDF)模型都是單向量模型,前者不考慮任何的上下文信息,后者將單詞前后的10個單詞作為上下文并以TFIDF作為權重因子。Pruned TFIDF模型也是一個單向量模型,它通過精簡TFIDF的單詞數量,將上下文中具有較低TDIDF值的單詞去除從而提高了性能。經典多向量模型通過對不同上下文的聚類或者結合一個神經語言模型來得到最終的向量。

2.1.2 文本分類實驗

本文進行文本分類實驗采用的數據集是20NewsGroups。該數據集中有數千個標記了主題的文檔。本文使用其中60%的數據作為訓練集,剩余數據作為測試集。為了能夠提取文檔的特征,本文引入文檔向量:

(15)

其中,d是一個擁有一定數量主題的文檔,w是文檔中的單詞。為簡化單詞w出現在文檔d中的概率Pr(w|d),使用簡單高效的單詞的TFIDF權重作為Pr(w|d)。文檔特征即為所有詞向量的加權求和。當文檔特征提取之后,使用線性支持向量分類器(Support Vector Classifier,SVC)得到最終的分類結果。在這個實驗中,將TCV模型與BOW模型、LDA模型、Skip-Gram模型和WTM模型進行比較。在BOW模型中,依然使用TFIDF作為權重。LDA模型則使用推斷的主題分布來表示文檔。在Skip-Gram模型中,為每個單詞生成向量之后,將所有的單詞向量按元素求平均,以此作為該文檔的文檔向量。WTM模型的所有參數參照文獻[10]說明進行設置。

2.2 結果分析

單詞相似度實驗結果如表2、表3所示,其中,斯皮爾曼相關系數ρ越大,代表模型對相似度計算的結果越好。相似度比較結果被分成了2組——單向量組和多向量組。從實驗結果中可以看到,在相似度檢測實驗中,主題聯合的詞向量模型的結果優于所有的單向量模型和多向量模型,特別是當t=1的時候,達到了66.9%。

表2SCWS數據集上單模型向量斯皮爾曼相關系數%

表3SCWS數據集上多模型向量斯皮爾曼相關系數%

文本分類實驗結果如表4所示,結果顯示TCV模型在精度、召回率、F1綜合指標中都優越于傳統模型和WTM模型。

表4 文本分類實驗結果 %

本文所提出的主題聯合詞向量模型,在單詞向量的基礎上融入具有最大概率的主題信息,可以更好地表達單詞。相比于其他模型,本文模型有3個顯著的優點:1)傳統的多向量模型,對一個單詞,只能生成有限數量的詞向量,然而本模型卻可以提取數百個主題,針對不同的主題,生成數百個詞向量,在單詞的呈現上更加靈活。2)傳統的多向量模型通過對上下文聚類來生成不同的向量,卻忽視不同上下文之間的語義交疊,而本文所提出的模型,通過依賴主題信息來生成向量,各個主題信息之間,本身就有一定程度的語義交疊,因此,本模型可以彌補將不同的上下文完全隔離的缺陷。3)WTM模型需要最小化KL散度,計算較為繁瑣,而本模型通過選取概率最大的一個或2個主題作為單詞的主題,簡化了計算。

3 結束語

本文提出一種新的詞向量生成模型——主題聯合詞向量模型,能夠為特定上下文語境下的單詞表達以主題為特征的語義。相比傳統的對單詞上下文進行聚類的多向量模型,主題聯合詞向量模型可以結合大量的主題信息來構建基于上下文的詞向量,使得生成的詞向量蘊含特定主題。實驗結果表明,該模型在多語境場景中具有較好的魯棒性。由于綜合了多個其他模型,后期需要對該模型進行精簡,以提升整體運行速度。

[1] TURIAN J,RATINOV L,BENGIO Y.Word Representa-tions:A Simple and General Method for Semi-supervised Learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden:[s.n.],2010:384-394.

[2] 馮沖,石戈,郭宇航,等.基于詞向量語義分類的微博實體鏈接方法[J].自動化學報,2016,42(6):915-922.

[3] WANG Yiou,JUN’ICHI K Y T,TSURUOKA Y,et al.Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-analyzed Data[C]//Proceedings of IJCNLP’11.New York,USA:[s.n.],2011:309-317.

[4] 李華,屈丹,張文林,等.結合全局詞向量特征的循環神經網絡語言模型[J].信號處理,2016,32(6):715-723.

[5] REISINGER J,MOONEY R J.Multi-prototype Vector-space Models of Word Meaning[C]//Proceedings of Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.New York,USA:ACM Press,2010:109-117.

[6] HUANG E H,SOCHER R,MANNING C D,et al.Improving Word Representations via Global Context and Multiple Word Prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1.New York,USA:ACM Press,2012:873-882.

[7] BENGIO Y,DUCHARME R,VINCENT P,et al.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3:1137-1155.

[8] TIAN Fei,DAI Hanjun,BIAN Jiang,et al.A Probabilistic Model for Learning Multi-prototype Word Embeddings[C]//Proceedings of COLING’14.New York,USA:[s.n.],2014:151-160.

[9] LIU Yang,LIU Zhiyuan,CHUA T S,et al.Topical Word Embeddings[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.Austin,USA:[s.n.],2015:2418-2424.

[10] FU Xianghua,WANG Ting,LI Jing,et al.Improving Distributed Word Representation and Topic Model by Word-topic Mixture Model[C]//Proceedings of the 8th Asian Conference on Machine Learning.Hamilton,New Zealand:[s.n.],2016:190-205.

[11] MIKOLOV T,SUTSKEVER I,CHEN Kai,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Proceedings of Advances in Neural Information Processing Systems.New York,USA:[s.n.],2013:3111-3119.

[12] GUTHRIE D,ALLISON B,LIU Wei,et al.A Closer Look at Skip-Gram Modelling[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation.Genoa,Italy:[s.n.],2006:1222-1225.

[13] WALLACH H M.Topic Modeling:Beyond Bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning,New York,USA:ACM Press,2006:977-984.

[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[15] TATA S,PATEL J M.Estimating the Selectivity of TF-IDF Based Cosine Similarity Predicates[J].ACM Sigmod Record,2007,36(2):7-12.