Skip-Gram結構和詞嵌入特性的文本主題建模

2020-07-13 06:16:26夏家莉曹中華彭文忠張守勝

小型微型計算機系統 2020年7期

夏家莉，曹中華,2，彭文忠，張守勝

1(江西財經大學信息管理學院、財政大數據中心,南昌 330032) 2(江西師范大學軟件學院,南昌 330022)

1 引言

從大量文本中獲取主題，一直是文本挖掘領域的研究熱點.主題挖掘相關模型常采用無監督的學習方式，可以從文本語料挖掘具有不同語義的主題，并將文本表示為不同主題的混合分布，從而幫助人們理解大量文本所描述的主要內容.

隨著神經網絡和詞嵌入方法在許多NLP任務中取得成功，近年來，出現了許多應用詞嵌入向量和神經網絡結構的文本主題模型研究，這些研究結果顯示，使用詞嵌入的主題模型能夠極大地提高文本主題的挖掘效果.早期的主題效果評價多采用困惑度的方法，然而后續的一些研究也表明，困惑度的評價和人們對主題詞的理解結果并不一致，由此研究者提出了主題一致性的評價標準，主題代表詞的一致性可以更好的評價主題模型的效果.

常見的詞嵌入向量獲取模型[1,2]和主題一致性評價[3,4]方法都使用了詞的點互信息(point-wise mutual information,pmi)，二者存在緊密的聯系，但是現今還較少見到，在深入分析二者間的聯系后，將詞向量自身所具有的主題特點應用于主題模型的研究.本文主要貢獻有：1)分析了主題一致性和詞嵌入向量間的聯系，引入Softmax函數生成主題-詞項分布，從而關聯主題嵌入和詞嵌入，以能夠使用詞嵌入的主題特性；2)提出主題分布式假設：具有相似鄰居的詞具有相似的主題分布值，并設計了一種主題和詞間Skip-Gram神經網絡結構的主題模型(Skip-Gram structure Topic Model,SG-TM)，SG-TM模型能充分使用詞向量的相似性和關聯性信息，得到主題一致性更好的主題.

2 相關研究工作

主題模型研究早期常采用統計的方式，模型評價采用困惑度的方法，隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)概率主題模型是該方面的代表[5].由于模型假設文本內每個詞的生成相互獨立，這樣會丟失詞間的序列信息，因此有研究通過修改模型的先驗信息，或給模型加入后驗約束信息來增強詞之間的關聯.例如：詞的熵加權[6]、稀疏約束[7]、概念關系[8]、點互信息關系矩陣約束[9]、玻利亞甕模型增強詞和文本的主題頻數等[10,11].但是前期約束內容處理結果會直接影響到模型的效果；且隨著語料的不同，一些詞之間的關系或具有多樣性，需要重新調整約束集內容.

近年來出現了一些神經網絡相關結構的主題模型研究，它們考慮到詞的嵌入式表示含有豐富的詞語義信息，所以期望通過神經網絡直接利用詞嵌入結果，描述文檔的生成，獲得主題-詞和文檔-主題分布，提高主題挖掘效果.例如：可以使用神經變分編碼方法[12]；將每個主題建模為詞向量上的高斯分布[13]；文本表示為詞向量的序列，從而用卷積神經網絡獲得文本主題[14]；把文檔-主題和主題-詞項參數分別用兩個前饋神經網絡描述，然后結合兩個神經網絡生成文本內的目標詞[15]；還有用詞嵌入實現具有自適應消息傳遞功能的監督主題模型[16].但是這些主題模型多使用困惑度作為評價標準，基于困惑度的主題評測方法，未解決人們對主題詞所表達語義的理解困難問題.

Ding和Krasnashchok考慮到詞嵌入的獲取方式和常見主題一致性的評價方法存在聯系[17,18]，所以分別在Miao和Jey提出的神經主題模型基礎上[12,14]，使用詞嵌入構造了類似點互信息的約束項，用于提高模型的主題一致性.但是他們都未區分詞的輸入、輸出嵌入向量和主題一致性的聯系；也未分析主題嵌入和主題詞嵌入間的聯系，并以此構造主題模型.

本文主題挖掘也采用神經網絡結構的詞向量建模方法，模型和標準LDA模型類似，結構較簡單，但是能夠有效使用詞嵌入向量的相似性、關聯性，文本內詞間序列信息，從而有效提高主題模型的一致性值，挖掘出更好地文本主題結果.

3 主題一致性與詞嵌入向量間關系

設主題模型的詞典集合是W，主題數為T，Topic_Wordst?W表示第t個主題的代表詞集合，1≤t≤T，通常取每個主題的概率值最大的前10個詞.主題一致性是現今常見的主題效果評價標準[3,4,9]，詞的點互信息常被用于度量主題的一致性，它通過計算主題代表詞在語料內固定窗口大小的共現關系評價主題模型.主題一致性定義為:

其中，p(wi,wo)表示詞對(wi,wo)的共現概率，p(wi),p(wo)表示詞wi,wo出現概率，是較小的常數.

詞嵌入向量學習模型多數基于分布式假設：具有相似鄰居的詞具有相似語義的分布式表示.設中心詞為wi，上下文窗口大小為c，詞wi當前上下文窗口內的近鄰詞集表示為context(wi).Mikolov等基于中心詞和上下文窗口內詞間關系，構建了兩種詞嵌入學習模型:Skip-Gram、CBOW[2]，還使用層狀Softmax或負采樣方法解決詞典集合W過大所造成的模型訓練困難問題.為獲得更好的詞嵌入表示向量，許多學者對詞嵌入向量表示進行了更深入的研究.Pennington等提出了GloVe模型[1]，該模型利用語料內詞間全局共現信息訓練詞嵌入向量，并在許多評測中取得了比Skip-Gram等模型更好的實驗結果.由GloVe模型所采用的詞向量獲取方法能容易得出詞嵌入和主題一致性評價所存在的緊密聯系.

(1)

(2)

≈pmi(wi,wo)-pmi(wj,wo)

(3)

詞wi,wo的嵌入向量點積約等于它們間點互信息,所以:

(4)

pmi(wi,wo)=lnp(wi,wo)-lnp(wi)-lnp(wo)

(5)

令bi=-lnp(wi),bo=-lnp(wo),則由式(4),式(5)可得到:

(6)

式(6)如果將bi,bo作為殘差參數變量，則上述公式學習的目標和GloVe模型類似，而Shi的實驗表明[19]，GloVe模型的殘差參數變量bi,bo和lnp(wi),lnp(wo)具有很強的相關性；如果將bi,bo作為常數變量，等于lnp(wi),lnp(wo)，則公式學習目標和李等[20]、Levy等[21]提出的基于pmi值的詞向量學習模型類似.此外，Levy等的分析表明，Mikolov提出的Skip-Gram負采樣模型(Skip-Gram with Negative Sampling,SGNS)結果類似于隱式分解移位的詞間pmi矩陣.

4 本文模型

4.1 Softmax函數的主題-詞項分布特性

定義 2.設第t個主題βt的主題嵌入向量為vβt∈Rk，詞wi在主題βt的概率p(wi|βt)采用Softmax函數描述為:

(7)

性質 1.采用Softmax函數描述主題詞項參數后，相似詞wi,wj在主題內，具有相似的主題概率值.

由性質1可知，當主題訓練語料內某個詞wi成為主題代表詞，則和其詞向量高度相似的其它詞wj在該主題的概率值也較大，使其也能成為主題代表詞.所以在主題模型訓練后，語料中相似詞wi,wj雖具有不同的詞頻，但詞向量的相似性將減弱詞的主題語義受詞頻率不同的影響.

當詞wi∈Topic_Wordst，且p(wi|βt)≥p(wl|βt),?wl∈W,l≠i，稱詞wi為第t個主題的主題最高代表詞，由于設定預訓練詞向量固定不變，采用Softmax函數描述主題-詞項分布參數后，該分布參數只是需要優化所有的主題嵌入向量.

4.2 主題分布式假設

由性質2，使用Softmax函數表示主題詞項分布，會使主題向量在訓練后與主題最高代表詞wi的嵌入向量相似性較大，而詞之間的相鄰序列關系可以促進該結果形成.本文提出主題分布式假設：具有相似鄰居的詞具有相似的主題分布值.例如：不同形態的詞，相同概念、語義下的詞等.依據本文假設，使用中心詞的主題和上下文詞間的Skip-Gram結構，相似詞將獲得相似的主題嵌入向量，也可促進中心詞的主題向量和中心詞的詞向量相似.設中心詞wi的當前主題編號表示為Topic(wi)(1≤Topic(wi)≤T).規定如果存在Topic(wi)=t，則：?wo∈context(wi)→Topic(wo)=t即模型將中心詞的主題值用于預測自己和它上下文內詞的生成，因此在主題向量訓練時，需要添加一些和中心詞相關的上下文內詞作為主題的生成目標，該主題值和詞間的Skip-Gram結構表示如圖1所示.

圖1 c=2時,主題和詞的Skip-Gram結構

由上述性質可以看出，采用Softmax函數描述主題-詞項分布和使用Skip-Gram主題詞結構，能夠充分利用詞的相似性和相鄰詞之間的高關聯性，在模型訓練中使相似詞和具有高關聯的詞成為主題代表詞，將會提高主題模型的主題一致性值.

4.3 文本生成與似然函數

通過上述分析，本文設計了如下神經網絡結構的SG-TM主題模型，模型先導入預訓練的詞向量，用Softmax函數生成主題-詞向量分布參數，通過類似LDA模型過程生成目標文本，在獲得每個詞的主題值后，將通過輸入中心詞的主題值，輸出中心詞和它的上下文內詞，更新主題向量，從而實現充分利用詞的相似向量和主題值與詞之間的相鄰關系.模型的文本生成過程描述如下：假設有M個文檔{d1,…,dM}，文本狄利克雷先驗分布為α，參數Θ∈RT×k表示T個主題的分布式向量，則文本dj的生成過程可以描述為:

1)采樣文本dj的主題分布θj～Dir(α)；

2)取出文本中詞wi,context(wi)；

3)采樣詞wi的主題分布tji～Mult(θj)，wi添加為該主題的生成目標.并將符合Skip-Gram關系條件的context(wi)和tji添加作為附加的主題向量優化目標；

4)從Softmax函數p(wi|βtji)生成目標詞wi.

上述文本生成過程，一個文本的生成概率為:

(8)

通過最大化文本生成概率，可以求解到文本的主題分布、詞的主題值和主題的分布式表示.

4.4 模型優化策略

模型參數優化采用變分EM算法，使用多項式分布qφji(tji)和狄利克雷分布qγj(θj)分別作為隱含變量tji和θj的變分分布，算法先固定每個主題的嵌入向量，優化文本的變分參數φji和γj.由于模型添加了主題嵌入向量，改進了主題詞項分布的描述方式，可以對原始LDA模型的β參數用式(7)替換，求解φji參數，γj參數更新和原式基本一樣.由文本生成概率公式，其變分下界可以寫為:

logp(dj|α,Θ)≥Eq[logp(θj)]-Eq[logq(θj)]+

Eq[logq(tji|φji)]

(9)

文本dj求解目標變分參數φji和γj為:

(10)

γj=αj+∑i∈{1,…,N}φji

(11)

而后將文本內每個詞wi的Topic(wi)作為輸入，wi∪context(wi)作為輸出，更新主題向量.由于將每個詞的上下文內容，也添加為當前主題輸出目標，主題向量需要優化的目標函數則表示為:

L=∑dj∈M∑wi∈djφji(logp(wi|βtji)+

∑wo∈Context(wi)logp(wo|βtji))

(12)

上述目標函數需要計算詞集W內所有詞的概率值，當詞集很大時，會造成計算量非常大，本文采用Sampled Softmax算法[22]求解，則目標詞wi在候選數據集合Ci=Si∪{wi}的對數似然函數為:

logp(wi|βtji,Ci)=logp(wi|βtji)-logQ(wi|βtji)-

log∑yi∈Ci[logp(yi|βtji)-logQ(yi|βtji)]

(13)

式(13)Si表示采樣數據集合，由當前選擇的采樣函數而生成，其類似于標準SGNS模型方法，Q(wi|βtji)表示采樣函數生成wi的概率，算法優化采用Adadelta方法.

5 實驗與分析

5.1 實驗設置

本文實驗主要包括主題一致性和主題詞的專有性(exclusivity,excl)[18]，主題嵌入與代表詞嵌入關系兩部分內容.基準模型使用主題驅動神經語言模型(Topically Driven Neural Language Model,TDLM)[14]和其改進的主題一致性約束模型(Coherence Regularization TDLM,CRTDLM)[18]，它們都使用現今流行的神經網絡結構和詞向量方法建模.Ding[17]的研究沒有提供相同數據集結果，所以未列入比較.

實驗的預訓練詞向量來自于三種不同模型，分別是SGNS，GloVe和移位的正點互信息(Shifted Positive Pointwise Mutual Information，SPPMI)矩陣分解模型[21]，用于檢測不同模型的詞向量對主題結果的影響.Li的方法使用詞間pmi值作為學習目標和SPPMI類似，所以未將其用于模型比較.主題模型訓練前，會先用相關工具從訓練文本獲得詞嵌入向量，SGNS模型詞向量使用Gensim工具訓練得到，GloVe程序是從作者網上下載得到，SPPMI模型詞向量通過直接分解訓練數據的SPPMI矩陣而得到，它的負例值設為1.所有模型的詞向量維度k=300，其它詞向量模型參數都使用默認值.本文模型主題向量維度和詞向量維度大小一樣，窗口c=5,文本狄利克雷先驗分布α=0.1.

5.2 主題一致性與主題詞專有性

主題一致性評測數據集選用TDLM模型提供的數據集，主要包括有三個類別的數據：美聯社新聞(Associated Press News,APNews),英國國家語料庫(British National Corpus,BNC)和互聯網電影資料庫(Internet Movie Database,IMDB).模型訓練前去除了停用詞、數字、特殊符號和少量高頻詞等，經過預處理后，每類數據含有2萬個左右單詞.

表1 主題一致性和專有性值

Table 1 Topic coherence and exclusivity score

TopicnumbermodelNPMI/exclAPNewsBNCIMDB50TDLM.150/.868.145/.885.026/.634CRTDLM.151/.869.143/.905.035/.620SG-TM(SGNS).136/.744.127/.740.088/.710SG-TM(Glove).176/.666.130/.650.088/.626SG-TM(SPPMI).201/.832.200/.820.166/.700100TDLM.162/.659.140/.656.044/.422CRTDLM.155/.674.142/.620.045/.409SG-TM(SGNS).148/.699.140/.701.092/.555SG-TM(Glove).177/.602.142/.609.097/.529SG-TM(SPPMI).200/.743.205/.718.159/.633150TDLM.160/.531.137/.510.043/.366CRTDLM.163/.504.137/.504.041/.361SG-TM(SGNS).165/.704.137/.646.093/.516SG-TM(Glove).181/.562.144/.539.100/.509SG-TM(SPPMI).213/.666.192/.656.155/.528

從實驗結果表1可以看出，本文SG-TM模型結果多數優于TDLM等模型，在APNews、BNC和IMDB數據集上，主題一致性值能提高將近6%；主題詞的專有性多數都有所提高，最優值部分能提高2%.而主題詞的專有性隨主題值的增加，多會下降，表明主題結果的冗余度逐漸提高.僅從NPMI值結果可以得出，APNews、BNC數據集的最優主題值大于100，IMDB數據集的最優主題值小于100.這三種數據集中，IMDB數據集的結果要低于APNews和BNC數據集結果.實驗分析發現：IMDB數據集用詞比較簡單，經過預處理后，它的文本篇幅都較小.此外，在相同數據集和超參數條件下，當模型使用不同的預訓練詞向量，所得到的主題一致性結果差別也很大.雖然SGNS、GloVe和SPPMI模型的詞向量都含有詞語義信息，但是SGNS模型是通過訓練詞間相鄰信息獲得詞嵌入向量；GloVe模型詞向量直接含有詞之間共現值，結果還會受到殘差值影響；SPPMI模型詞向量直接來自于語料的全局詞間pmi值，其更能夠體現詞間的點互信息大小，從而直接幫助提高主題的一致性值.

5.3 主題嵌入與主題詞嵌入關系

實驗打印出了APNews數據集在T=100時，使用SPPMI模型詞向量的8個主題代表詞，結果如表2所示.由主題代表詞可以理解該主題所表示的語義信息，例如：Topic1表示航空飛行、Topic2表示藝術展覽、Topic3表示總統選舉等.這些主題的主題向量和主題代表詞的輸入向量和輸出向量之間的余弦值如圖2、圖3所示.由結果可見：每個主題向量和該主題的最高代表詞的輸入向量余弦值在0.7左右，它們間的相似性較高；且主題向量和詞的輸入向量余弦值普遍大于主題向量和詞的輸出向量余弦值，這體現了主題分布假設，主題向量類似于中心詞的輸入向量；主題嵌入向量與后面主題代表詞向量的余弦值則基本上呈下降趨勢，說明它們的向量相似性減弱.

表2 T=100,APNews部分主題詞

Table 2 T=100,some topic words of APNews

TopicsidTopicwordsTopic1planeenginepilotlandingjetpilotscockpitcrashedflightaviationTopic2museumexhibitpaintingsexhibitionartgallerydisplaycuratorartifactsexhibitsTopic3romneypresidentialmittgingrichtrumpsantorumnewtpalinbachmanncaucusesTopic4spacenasashuttleastronautsspacecraftatlantisorbitastronautendeavourmissionTopic5gulfspillbpoilgallonsrigdeepwaterlitersclean-upcoastTopic6medicalpatientpatientshospitalhospitalsdoctorsdoctornurseclinicphysiciansTopic7campusuniversityfacultyundergraduatecollegeu-niversitiesgraduatefraternitystudentcollegesTopic8shipcruisevesselshipsboatcarnivalvesselsvoy-agesankconcordia

圖2 主題向量和代表詞輸入向量余弦值

圖3 主題向量和代表詞輸出向量余弦值

圖4、圖5描述了主題嵌入和主題詞嵌入的向量點積值，最高主題詞和其它主題詞的向量點積.由圖4可見主題和詞的相關性成下降趨勢，而圖5最高主題代表詞和其它詞之間相關性有些波動，但總體也成下降趨勢.表3列出了與每個主題最高代表詞點積最大的前10個詞，從相關詞結果可見，表2和表3詞之間的重合度較高，也存在一些詞不重合，體現了圖5 的小幅波動性特點.上述實驗結果體現了性質2、性質3所分析的結論，當主題向量和主題最高代表詞向量相似時，主題向量和詞向量間的點積選擇出的主題詞，可近似表示為主題最高代表詞和其它主題詞之間的相關性.這也說明向量的相似性雖然在減小，但是主題最高代表詞與部分主題代表詞間的pmi值還是較大.

圖4 主題向量和代表詞向量點積值

圖5 最高主題詞向量和其它代表詞向量點積值

綜上結果分析，模型訓練將使主題向量和最高代表詞的輸入向量相似較高，且這些與主題最高代表詞相似性高或點互信值高的詞，被選擇成為主題代表詞的可能性也很高，當這些詞作為主題詞時，可以推測，這些詞之間也具有較高的詞間相關性值，能夠使模型獲得較高的主題一致性.

表3 主題最高代表詞相關的前10個詞

Table 3 Top 10 words related to the first topic word

ThefirsttopicwordTop10relatedwordsplaneflightpilotlandingjetaviationpilotsaircraftair-portairplaneenginemuseumexhibitartifactsexhibitioncuratordisplayexhibitsgallerypaintingsmuseumsartromneypresidentialmittgingrichnewtsantorumbach-manncaucusesnomineepalinpollsspacenasashuttleastronautsorbitspacecraftatlantisas-tronautendeavourmissionlaunchgulfbpspilloildeepwaterrighorizonliterscoastplcgallonsmedicalpatientpatientsdoctorsdoctordrhospitalphysi-ciansclinicphysicianhospitalscampusfacultyuniversitycollegeundergraduatefraternitycampusesuniversitieschancellorstudentsemestershipcruiseshipsvesselussvoyagesanknavaldockconcordiavessels

6 結束語

本文分析了詞嵌入和主題一致性之間的聯系，描述了一種使用預訓練詞嵌入向量，Softmax函數生成主題-詞項分布，采用主題分布式假設的文本主題模型.SG-TM模型使用主題和詞之間的Skip-Gram結構，中心詞的主題用于生成自己和增加的上下文內詞.實驗表明將詞嵌入向量信息應用于該主題模型，能顯著改善模型整體效果，學習到主題一致性更好的文本主題.