999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HDP的主題詞向量構造
——以柬語為例*

2020-06-22 12:29:54徐廣義莫源源
計算機工程與科學 2020年6期
關鍵詞:單詞文本實驗

李 超,嚴 馨,謝 俊,徐廣義,周 楓,莫源源

(1.昆明理工大學信息工程與自動化學院,云南 昆明 650504;2.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650504; 3.云南南天電子信息產業股份有限公司,云南 昆明 650400;4.云南民族大學東南亞南亞語言文化學院,云南 昆明 650500; 5.上海師范大學語言研究所,上海 200234)

1 引言

詞向量又稱為詞編碼,是一種使用自然語言處理方法從大量的文本中學習、提取詞特征信息的一種表示方法,它將文本中的多種上下文關系使用數學中的向量進行表示。自然語言處理中,詞是表義的基本單元,詞向量是非常基礎和重要的,廣泛地應用于命名實體識別、句法情感分析等方面。東南亞小語種之一的柬埔寨語,又稱高棉語,其發展過程中受到多種語言的影響,其構詞方式多樣,例如四音歌詞[1],特殊的構詞,結構緊密,語義有較強的概括性,1個詞具有多個義項,有的義項與該詞本身意義相差甚遠。由于自然語言處理研究大部分集中于英語,且不能有效地應用于柬語等小語種,在面對語料匱乏,人工標注花費巨大等問題時,我們希望資源較少的柬語也能學習出更高效的詞向量,作為柬語信息處理乃至柬漢雙語信息處理技術的基礎資源,為接下來的研究作鋪墊,所以我們以柬語為例提出基于層次狄利克雷過程HDP(Hierarchical Dirichlet Process)的主題詞向量構建方法。

目前構建的單一詞向量,無法更有效地解決一詞多義和一義多詞等問題。基于神經網絡的詞向量學習方法的最重要思想是通過給定的上下文對目標詞匯出現的概率進行預測。Mikolov等[2]通過一個循環神經網絡的模型來實現詞向量的訓練,其特點是簡化了原有模型中復雜參數的訓練過程,并且更為全面地利用到語料中的上下文信息。在文獻[2]的詞向量模型的基礎上改進而來的模型word2vec[3],是由Google公司提出的一個能夠將語料中的單詞轉化為詞向量的工具,該訓練模型中將原有神經網絡中最復雜的隱藏層刪除掉了,這樣能夠大大降低模型訓練時的計算復雜度。該模型主要是由根據上下文來預測目標詞的CBOW(Continuous Bag Of Words)模型和根據目標詞對上下文進行預測的Skip-Gram模型組成。上述訓練詞向量的模型訓練出的詞向量均是1個單詞對應著1個詞向量,無法合理地分辨多義詞,且無法很好地解決詞向量的歧義等問題。Liu等[4]提出了TWE(Topic Word Embeddings)模型,其基本思想是通過LDA(Latent Dirichlet Allocation)主題模型獲取單詞主題,形成單詞-主題對,然后將主題視為偽單詞,通過Skip-Gram模型分別學習主題向量和詞向量,最后進行級聯得到主題詞向量。該主題詞向量將詞的主題信息融入到詞向量信息中,解決了單一詞向量存在的一詞多義和一義多詞的問題,但是該模型中使用的LDA主題模型的主題數目需要人工設定。人工主題數目的設定與個人經驗息息相關,因而人工經驗對于主題模型的訓練結果影響較大。而后在此基礎上,吳旭康等[5]針對TWE模型中將單詞向量和主題向量進行簡單連接的方式會存在向量表達性上不夠突出的問題,提出了單詞主題混合WTM(Word-Topic Mixture)模型。李思宇[6]提出使用BTM(Biterm Topic Mode)主題模型來代替LDA主題模型的方法,解決了LDA主題模型在短文本的主題建模上效果不佳的問題。

上述前期調研表明,目前對詞向量構建的研究,已有一些可借鑒的成果。目前存在單一詞向量無法對多義詞有效分辨;一詞對應多個詞向量,過于繁復;LDA主題模型人工設定主題數對模型訓練結果影響較大等問題。為有效地進一步研究我們面對的柬語等小語種資料匱乏,不同語境下詞的歧義,一詞多義等特殊情況,本文提出了基于HDP主題模型的主題詞向量構造方法,能夠較好地解決上述存在的一詞多義和一義多詞等問題,且主題數目通過訓練的語料學習得到,領域適應性也有擴大。該方法在單一詞向量基礎上融入了主題信息,首先通過HDP主題模型得到單詞主題標簽;然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時訓練出主題向量和詞向量;最后將文本主題信息的主題向量與單詞訓練后得到的詞向量進行級聯,獲得文本中每個詞的主題詞向量。

2 HDP主題模型

2.1 HDP主題模型的原理

通常認為文檔中的單詞是由許多潛在的“主題”產生的,其中1個主題通常被建模為一些基本詞匯中單詞的多項式概率分布。我們希望擴展模型,在多個文檔中共享潛在的主題,Teh等[7]定義了層次狄利克雷過程HDP,HDP本身是一組隨機概率測度的分布。為了確保文檔之間可以共享主題,HDP文檔之間共享從連續基分布H得出的離散分布G0,G0是一個離散的隨機度量,是每個文檔主題分布的先驗。

HDP主題模型的基礎是狄利克雷過程,其原理如圖1所示,在該原理圖中,圓形代表分布,小矩形框代表參數,陰影部分代表觀測到的變量,大矩形框代表其中過程可重復,進行實驗的語料集是1個含有M篇文檔的文檔集,假定在其中的每篇文檔的主題信息是相互共享的,那么此時各個文檔的主題都是以基分布H為基礎的。更正式地說,HDP為每個文檔d定義了一組隨機概率度量Gj,以及一個全局隨機概率度量G0。G0是從基本分布H構造的狄利克雷過程中得出的。在這種結構中,全局度量G0從基本分布H中選擇所有可能的主題,然后每個Gj從G0得出文檔d所需的主題。因此,HDP主題模型的過程為:

(1)從H和聚集度參數γ構成的狄利克雷過程抽樣產生一個G0,即整個文檔集的基分布滿足狄利克雷過程,具體表示如式(1)所示:

G0~DP(γ,H)

(1)

(2)以G0作為基分布和聚集度參數α0對每一篇文檔構造狄利克雷過程,此時每篇文檔都滿足一個狄利克雷過程,具體表示如式(2)所示:

Gj|G0~DP(α0,G0)

(2)

(3)最后依據Gj這一層次狄利克雷過程作為先驗分布,構造狄利克雷過程混合模型,具體表示如式(3)和式(4)所示:

θji|Gj~Gj

(3)

xji|θji~F(θji)

(4)

其中,F(θji)表示在給定參數θji的前提下,觀測變量xji的分布,這里采取多項式分布,與基分布H構成共軛分布。參數θji條件獨立服從分布Gj,觀測的變量xji條件獨立服從分布Fji(θji)。

此模型本質上是實現了LDA的非參數版本,該LDA在語料庫的所有文檔中共享無限數量的主題。

Figure 1 Schematic diagram of HDP model圖1 HDP主題模型的原理圖

2.2 HDP主題模型的構造過程

θji|θj1,θj2,…,θj,i-1,α0,

(5)

Ψjt|Ψ11,Ψ12,…,Ψ21,…,Ψj,t-1,γ,

(6)

從上述構造過程可以看出,CRF的過程就是按照一定的概率規則為顧客分配菜和餐桌,首先為每個顧客分配餐桌,已有餐桌被選中的概率與其就座的顧客數成正比,而新餐桌也允許以一定的概率被選中,在完成餐桌指派后,為每張餐桌分配菜肴,已有菜肴被選中的概率與其供應的餐桌數成正比,而新菜肴也允許以一定的概率被選中。對應到文檔的聚類問題上,即為文檔中單詞對應主題的過程,一旦完成CRF構造,即可采用模型參數后驗分布推斷方法求解HDP主題模型,進而獲取整個文檔集的主題分布。

Figure 2 CRF construction process圖2 CRF構造過程

2.3 基于吉布斯采樣的參數估計

CRF的構造分為3個步驟,首先將每個文檔中的單詞劃分到每一張餐桌,然后為每張餐桌劃分配菜(也就是主題),最后從此種層次化的劃分中為單詞分配潛在主題。通過上述基于CRF構造的Gibbs采樣算法迭代地為每個單詞分配潛在的主題標簽,我們將對文檔j中每個單詞標記的tji進行采樣,然后對文檔j中每個kjt進行采樣。

(1)對t進行采樣。

首先根據式(6)可得xjt的條件概率為:

p(xji|t-ji,tji=tnew,k)=

(7)

則可得到tji的條件概率為:

(8)

如果采樣的tji是tnew,此時通過式(8)可以得到kjtnew的采樣概率:

(9)

(2)對k進行采樣。

在完成所有的餐桌分配之后,便可以對餐桌進行菜品的分配。kjt采樣類似于tji,因此kjt的后驗概率正比于選擇菜品k的桌子數目與xjt的條件概率之積:

(10)

其中,k表示已有顧客點的菜。

3 主題詞向量模型

3.1 Skip-Gram模型

基于層次Softmax的Skip-Gram模型根據輸入的單詞對上下文進行預測,每個單詞對應唯一1個向量,輸入單詞詞向量用作預測上下文的特征。該模型的最終優化目標是:

(11)

(12)

(13)

如引言部分所述,本文希望結合詞向量模型Skip-Gram和主題模型HDP增強向量的表示能力。

3.2 改進主題詞向量模型

在Skip-Gram的詞向量模型中,每個詞都是用唯一的向量進行表示。為了能夠將文本中不同語境下擁有不同含義的單詞在進行向量表達時區分開來,并且克服LDA主題模型需要人工設定主題的缺點,本文采用了HDP主題模型來對向量的語義信息進行補充,也就是說通過結合主題模型HDP和詞向量模型Skip-Gram來增強向量的表示能力,于是本文提出了基于HDP主題模型和Skip-Gram模型的改進主題詞向量模型。

主題詞向量的構造依賴于每個單詞的主題信息。首先通過HDP模型獲取單詞主題并將其視為偽單詞;然后分別將單詞和主題作為Skip-Gram模型的初始輸入分別學習詞嵌入與主題嵌入;最后將訓練得到的單詞的詞向量和主題向量進行級聯,得到單詞的主題詞向量,并通過詞相似度任務和文本分類任務對得到的主題詞向量進行實驗,以評估得到的主題詞向量性能的好壞。主題詞向量模型如圖3所示,該主題詞向量模型的目標函數是最大化式(14)所示的對數函數:

logP(wi+j|zi)

(14)

其中,wi表示目標單詞,zi表示目標單詞的主題(被視為偽單詞),為每一個詞分配一個潛在主題zi∈TS。因為我們使用的是基于層次Softmax的Skip-Gram模型,通過隨機行走的方式為每一個單詞賦予一個概率。使用隨機梯度算法時,通過歸一化向量以保證最終目標函數能夠較快收斂。

Figure 3 Improved topic word embeddings model圖3 改進的主題詞向量模型

從圖3可知,本文中的主題詞向量模型與Skip-Gram模型相類似,包含有3層結構,訓練完成后輸出w和z,分別是單詞所對應的詞向量和主題向量。輸出層則可根據級聯之后的主題詞向量對其目標單詞上下文進行預測。

改進的主題詞向量模型的基本思想是將HDP主題模型訓練出來的每個主題看做是一個偽單詞,出現在分配給該主題的單詞的所有位置,那么訓練出來的主題向量便代表了該主題下所有單詞的集合語義。

在該主題詞向量模型中,通過級聯w和z(即wz=w⊕z)來獲得詞的主題詞向量。其中,⊕是級聯操作符號,為了簡化整個模型的計算過程,在本文中設置的主題向量的維度和詞向量的維度相同。因此,級聯之后的主題詞向量wz的向量維度是w或者z的2倍。

但是,由于訓練得到的主題向量和詞向量數值相差較大,其中主題向量較大,詞向量較小,因而需要對主題向量和詞向量分別進行歸一化,如式(15)和式(16)所示。

(15)

(16)

其中,A∈Rm×n和B∈Rm×n為主題向量和詞向量矩陣(為了簡便計算,模型要求單詞向量和主題向量擁有相同的維度),其中m是詞表中單詞個數,n是詞向量維數;i=1,2,3,…,m;j=1,2,3,…,n;A′∈Rm×n和B′∈Rm×n為歸一化后的主題向量和詞向量矩陣。然后將歸一化后的單詞詞向量和主題向量進行級聯獲得主題詞向量。

上述獲得的主題詞向量可以應用于上下文單詞相似度的計算。這里的相似度計算并不是直接對得到的主題詞向量進行相似度計算,而是需要基于單詞的上下文,即通過當前單詞的主題詞向量來獲得其上下文單詞的主題詞向量。具體來說,對于文本中的每個單詞w和其上下文c,首先根據HDP主題模型可以推斷出若將上下文c看成1個文檔,則可以得到P(z|w,c),即此時P(z|w,c)∝P(w|z)P(z|c)。在此之后便可以進一步得到詞w的上下文詞c向量,即:

wc=∑z∈TSP(z|w,c)oz

(17)

其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權重,進行加權求和,得到最終的上下文詞向量。

Figure 4 Reptile crawling Khmer corpus圖4 爬取的柬埔寨語料

由式(17)得到上下文詞向量的目的是用于衡量兩個詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計算采用AVGSimC公式,如式(18)所示:

∑z∈TS∑z′∈TS′P(z|wi,ci)P(z′|wj,cj)S(oz,oz′)

(18)

(19)

4 實驗結果與分析

本節將主題詞向量分別從上下文單詞相似度、文本分類2個任務進行實驗,對比評估多種相關模型的性能。

4.1 數據集

本文實驗所需要的語料包括2類:第1類是能夠提供訓練主題詞向量的訓練語料;第2類是為檢測文中改進的主題詞向量模型的性能而進行相關測試的測試語料。本文中的實驗訓練數據全部來自于柬埔寨語的各大官方網站[9],如圖4所示,首先將爬取的柬埔寨篇章語料通過預處理切分為小文檔;然后對柬埔寨語進行分詞,采用實驗室已搭建好的分詞工具得到的語料規模為5 000篇文檔,1 108 423個單詞。針對2種不同的實驗任務采用了不同的測試集。

4.2 實驗設置

在本文提出的主題詞向量模型中,由于使用的是自適應主題數目的HDP主題模型,所以該模型中需要設定的參數只有主題向量和詞向量的維度,為了簡化計算,本文中設置主題向量和詞向量的維度均為100。本文使用Skip-Gram模型,并將模型窗口的大小設置為5。使用HDP主題模型訓練詞的主題標簽時需要設置該模型的超參數α,γ,以及迭代次數,本文中這些參數分別設置為α=1,γ=0.1,迭代次數為100。整個實驗環境為Intel i7的處理器,64 GB內存。

4.3 單詞相似度和文本分類實驗

(1)單詞相似度實驗。

這里的單詞相似度需要考慮單詞的上下文,但是傳統的諸如WordSim353等的測試集是孤立的單個單詞,并不適于本文實驗,于是,本文采用的是具有上下文的單詞數據集SCWS(具體語料如圖5所示),此數據集包括2 003對單詞和包含這些單詞的句子,應用于本文的柬埔寨語時需要將其翻譯為柬埔寨語。然后再由10個柬埔寨語學習者對測試集中每2個單詞的相似度進行打分,打分的原則是個人根據理解給每一對單詞打出1個0~10的分數。本文取10個打分值的平均數作為參考分數值。而且考慮到模型計算得到的相似度與人為打分值差異較大,本文采用斯皮爾曼相關系數評價最終模型打分與人為打分的接近程度。具體的計算公式如式(20)所示:

(20)

其中,r表示等級個數,即測試集中包含的詞語對的數量;g表示2組單詞之間的等級差數;gi表示第i組單詞的等級差。

Figure 5 SCWS data set圖5 數據集SCWS

在該實驗任務中進行的對比實驗是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務上進行結果對比。

(2)文本分類實驗。

文本分類實驗采用的數據集是基于柬埔寨語官方網站爬取的,其中80%的語料作為實驗訓練集,20%的語料用于實驗測試集。然后對這些語料進行整理并進行預處理。文本的預處理是對原始語料進行分詞和去停用詞,使用的分詞工具是Khmer Unicode Line Breake。為了能夠提取文檔的特征,本文引入文檔向量:

(21)

在該實驗任務中,將本文得到的主題詞向量模型和LDA主題模型、Skip-Gram模型、HDP主題模型以及LDA-Skip-Gram主題詞向量模型進行對比。其中,LDA主題模型和HDP主題模型均是使用其模型中的主題分布來代表文檔;Skip-Gram模型則是將文本中所有單詞的詞向量按數目求平均來代表文檔的向量;LDA-Skip-Gram主題詞向量模型則是使用類似于本文提出的主題詞向量模型中的方法進行文本分類。

為了能夠直接評價各種模型針對文本分類任務的效果,文本使用精確度P、召回率R和F值評價方法對文本分類實驗結果進行估計。

(22)

(23)

(24)

4.4 實驗結果及分析

本文的單詞相似度實驗是在柬埔寨語版本下的單詞具有上下文關系的SCWS測試集上進行的。

實驗結果如表1所示,最終通過斯皮爾曼相關系數來對模型的相關性能進行判定,即在本文實驗中斯皮爾曼相關系數ρ越大,代表該模型對單詞相似度計算的結果越好。

在本文實驗中,將本文提出的基于HDP主題模型和Skip-Gram詞向量模型構成的主題詞向量模型分別與其它主題模型和詞向量模型在單詞相似度上進行對比,從實驗結果可以看出,在相似度檢測實驗中,主題詞向量模型的結果優于其他模型的。

Table 1 Spielman coefficient of word similarity on SCWS data set表1 SCWS數據集上單詞相似度斯皮爾曼相關系數

將本文提出的主題詞向量模型分別與LDA主題模型、HDP主題模型、Skip-Gram詞向量模型以及基于LDA主題模型和Skip-Gram詞向量模型的主題詞向量模型從精確度P、召回率R、F值指標方面進行了對比。結果如表2所示。

Table 2 Experimental results of text classification表2 文本分類實驗結果

通過上述實驗結果可知,在柬埔寨語測試語料的環境下,本文所提出的基于HDP主題模型和Skip-Gram詞向量模型在本文分類任務中精確度達到了74.5%,相較于傳統的單一詞向量模型Skip-Gram模型在分類精確度上有了一定的提高,同時相較于同類型的基于LDA主題模型和Skip-Gram詞向量模型的主題詞向量模型也有了一定的提高。由此可以說明,本文所提出的主題詞向量模型在針對柬埔寨語的文本分類任務中有著十分重要的作用。相比傳統模型和其他模型,本文模型的優勢在于,HDP主題詞向量方法相對簡潔,且對不同上下文語境語義相似情況也有所優化;對于LDA-Skip-Gram模型,本文模型可以避免LDA主題數目需要人工設定的問題,能夠得到基于上下文的詞向量,生成的詞向量具有特定的主題,簡化了計算,提升了整體的運行速度。

5 結束語

本文提出一種基于HDP的柬語主題詞向量構造方法,在單一詞向量基礎上融入了主題信息,首先通過HDP模型得到單詞主題標簽;然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時訓練出主題向量和詞向量;最后將文本主題信息的主題向量與單詞訓練后得到的詞向量進行級聯,獲得文本中每個詞的主題詞向量。實驗結果表明,本文提出的主題詞向量模型在單詞相似度以及文本分類方面都有明顯的優勢。將主題整合到了基本的詞向量表示中,并允許得到的主題詞向量能夠在不同的語境下對單詞的不同含義進行建模。與單一的詞向量模型相比,這種方法不僅學習到了文本層面中單詞的主題信息,而且學習到了詞層面的信息;能夠較好地解決單一詞向量存在的一詞多義和一義多詞等問題,且主題數目不需要手工設定。下一步我們將改進級聯方法,獲得更為完善的主題詞向量模型的構建方法。

猜你喜歡
單詞文本實驗
記一次有趣的實驗
單詞連一連
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 成人va亚洲va欧美天堂| 久久人人妻人人爽人人卡片av| AV天堂资源福利在线观看| 久久久精品国产SM调教网站| 天天综合网色| 欧美一区中文字幕| 久草视频中文| 亚洲黄色网站视频| 国产九九精品视频| 三级国产在线观看| 99久久精品国产精品亚洲| 国产黄色片在线看| 久热精品免费| 免费无码又爽又黄又刺激网站| 日本精品中文字幕在线不卡| 国产色网站| 九色视频最新网址 | 91亚洲免费| 欧美亚洲欧美区| 思思热在线视频精品| 国产情精品嫩草影院88av| 亚洲小视频网站| 国产成人综合久久精品下载| 日韩色图区| 国产成人啪视频一区二区三区| 性欧美在线| 热伊人99re久久精品最新地| 亚洲香蕉伊综合在人在线| 久久这里只有精品23| 成年免费在线观看| 日本不卡视频在线| 国产无码精品在线播放 | 国产99免费视频| 欧美午夜久久| 亚洲免费毛片| 视频国产精品丝袜第一页| 97久久超碰极品视觉盛宴| 免费无码又爽又刺激高| 亚洲国产系列| 欧美一级夜夜爽www| 久久77777| 99这里只有精品在线| 国产浮力第一页永久地址| 国产传媒一区二区三区四区五区| 四虎成人免费毛片| 欧美专区日韩专区| 97色伦色在线综合视频| 久久伊人久久亚洲综合| 免费人成网站在线观看欧美| 国产一级视频久久| 亚洲欧美不卡| 亚洲天堂日本| 国产丰满成熟女性性满足视频| 久久久黄色片| 中文字幕佐山爱一区二区免费| 国产亚洲欧美日本一二三本道| 97视频精品全国在线观看| 欧美成人精品高清在线下载| 国产亚洲精品yxsp| 茄子视频毛片免费观看| 亚洲精品麻豆| 青青草原国产一区二区| 久久久精品国产亚洲AV日韩| 中文字幕亚洲综久久2021| 天天激情综合| 久久精品国产亚洲麻豆| 免费无遮挡AV| 日本国产精品| 无码一区二区波多野结衣播放搜索| 香蕉国产精品视频| 国产成人久视频免费| 99久久精品免费看国产电影| 免费在线a视频| 蜜芽国产尤物av尤物在线看| 欧美日韩另类在线| 国产网站免费观看| 国产精品人莉莉成在线播放| 国产精品久久久久久久久久98| 精品国产亚洲人成在线| 韩日无码在线不卡| 老司机精品一区在线视频| 欧美日韩国产成人在线观看|