999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合主題模型及雙語詞向量的漢緬雙語可比文檔獲取方法

2021-03-18 02:53:12李訓宇毛存禮余正濤高盛祥王振晗張亞飛
中文信息學報 2021年1期
關鍵詞:文本方法模型

李訓宇, 毛存禮, 余正濤, 高盛祥, 王振晗, 張亞飛

(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)

0 引言

緬甸語屬于資源稀缺型語言,故漢緬平行語料比較少。但互聯網上存在一些主題相關,內容相似的漢緬雙語可比新聞文檔,這些雙語新聞是抽取雙語平行詞匯、雙語平行句對的重要數據資源。

獲取雙語可比文檔的核心思想是計算雙語文檔的相似度,目前針對雙語文檔相似度的計算問題,主要有以下四類方法: ①基于詞典匹配的方法,這類方法的思想是利用詞典把跨語言文本轉換為中間層語言計算文檔相似度,例如,Steinberger等人[1]提出一種中間層語言思想,使用多語言詞典EUROVOC計算英文和西班牙文的文本相似度;石杰等人[2]利用語義詞典WordNet將中文和泰文文本轉換為中間層語言,計算中泰文本相似度,從而得到中泰可比語料。②基于機器翻譯模型方法,這類方法的思想是將源語言翻譯成目標語言,計算跨語言文檔的相似度,如王洪俊等人[3]提出基于統計翻譯模型,計算文檔互譯詞對數,改進Dice相似度計算方法進行雙語文檔相似度計算;Barrón-Cedeo等人[4]基于統計翻譯模型提出CLiPA(cross-lingual plagiarism analysis)方法,根據貝葉斯原理估算兩種語言文檔互譯的概率; Maike等人[5]將源語言文本翻譯成目標語言文本,然后在目標語言空間中計算相似度,從而獲取可比文檔,Otero等人[6]通過維基百科中跨語言鏈接獲得翻譯等價對,從而獲取雙語可比文檔。③基于跨語言主題的方法,跨語言主題模型的優勢是可以從語義上進行匹配,計算相似度,從而獲取雙語可比文檔,如Yuan等人[7]從維基百科上抽取漢藏實體擴展漢藏詞典,利用LDA將文本映射到主題的特征空間上,然后根據新聞文本的特點計算跨語言文本相似性;Ni等人[8]提出ML-LDA (multilingual topic—latent dirichlet allocation)模型從維基百科平行語料中提取主題,每個主題可以由多種語言表示,使得多語言文檔可以用統一的主題表示; Zhu等人[9]使用中文和英文兩種語言的話題模型預測文檔的話題結構,基于文檔的語義信息對相似文檔進行匹配。④基于雙語詞向量的方法,這類方法的思想是將雙語文檔各自訓練單語詞向量,然后共享到語義空間得到雙語文檔向量來計算跨語言文檔的相似度,如Che等人[10]提出了一種基于雙語詞嵌入的雙語文檔相似度計算方法,訓練雙語文檔向量,通過計算文檔之間的距離來得到文檔中的相似度。上述計算跨語言文檔相似度的方法都取得了很好的效果,然而基于詞典匹配的方法不能解決未登錄詞問題;機器翻譯模型的方法需要建立大規模對齊語料庫,并且過度依賴翻譯效果;使用跨語言主題的方法需要構建雙語主題模型,而構建雙語主題模型需要大量的標記的雙語平行語料。緬甸語屬于資源稀缺型語言,漢—緬平行語料較少,漢—緬的翻譯效果也不理想,因此上述方法并不適用于緬甸語這種低資源語言。針對單語主題模型和雙語詞向量的特點,本文提出基于主題模型及雙語詞向量模型,將主題模型抽取到的漢、緬主題進行表征,映射到同一語義空間,得到主題詞向量,在該向量空間內使用余弦相似度方法計算漢緬主題相似度。

1 融合主題模型及雙語詞向量的漢緬文檔相似度計算模型

1.1 融合主題模型和雙語詞向量的漢緬雙語可比文檔獲取模型

LDA[11]是一種描述文檔之間全局關系的方法,基于預訓練BERT模型[12]是一種考慮詞語位置關系以及上下文語義的模型,能夠有效解決一詞多義的問題。因此,本文結合這兩種技術,使用更全面的向量來表示主題和文檔。如圖1所示,首先利用單語LDA模型抽取漢語、緬甸語文章的主題,再將抽取到的主題詞進行表征,得到漢、緬單語主題詞向量,利用漢緬詞典將漢、緬單語主題詞向量映射到共享的語義空間,得到漢緬雙語主題詞向量,最后計算漢緬主題的相似度。

圖1 融合LDA和雙語詞向量的漢緬雙語文檔相似度計算模型

1.2 基于LDA主題模型的文檔主題表示

LDA模型是一種離散集合的數據聚類,能夠有效地對文本中隱含的主題信息進行抽取,且有著極高的執行效率,其模型如圖2所示。其中,α、β表示超參數,w表示文檔中的詞語,z表示文檔的某個主題,N表示詞語的個數,M表示文檔的個數以及θ表示一篇文檔中的主題分布。

圖2 LDA概率模型圖

如圖所示,給出漢緬新聞文章集合D漢={d1,d2,…,dn}和D緬={d1,d2,…,dn},從文本—主題分布中學習參數θ=Dir(α);然后抽取一個主題zji~Multinomidal(θ);接著從條件概率分布p(wji|zji,φ)中抽取一個詞wji,p為在主題zji下的一個多項式概率分布。

在上述的一次抽取迭代中,Dir(α)表示參數為α的狄利克雷分布,其概率密度函數如式(1)所示。

其中,θ=(θ1,…,θk),α=(α1,…,αk),Γ(·)為Gamma函數,multinomial(θ)表示一個參數為θ的多項分布,其概率密度函數如式(2)所示。

其中,θ=(θ1,…,θk)。

采用Gibbs采樣方法[13]來估計文本的zji的后驗分布,從而得到模型參數θ。

通過上述過程最終得到漢、緬新聞文檔的各自潛在的主題ti和每個主題中的單詞概率,例如,

t漢1{嬰兒0.25,發現0.25,警方0.022 727},

因為每個主題都會包含很多個單詞,所以為了更好地生成主題向量,我們取出概率最高的m個單詞進行歸一化處理,重新計算每個詞的權重,如式(3)所示。

其中,θi是主題模型抽取出每個主題下每個單詞的概率,ωi是歸一化后每個單詞的權重。

在得到漢、緬主題及主題詞分布后,將漢、緬主題詞進行表征并映射到共享的語義空間中,得到漢緬雙語主題詞向量。

1.3 漢緬主題詞向量共享語義空間映射

在得到主題及主題詞分布后,對漢、緬主題詞進行詞向量訓練,獲得漢、緬單語詞向量。由于詞語的語義跟具體的上下文有密切的關系,而靜態詞向量生成方式,如Word2Vec[14-15],得到的詞向量沒有考慮詞語在句子中上下文的信息,每個詞語在任何場景中使用的詞向量都是固定不變的值,顯然無法解決一詞多義的問題。而基于BERT預訓練模型生成的詞向量是一種動態的形式,也就是能夠根據詞語所在上下文的語義特征得到對應的詞向量。因為BERT的設計基于Transformer[16]網絡結構,能夠根據當前的文本輸入,分別計算Key、Query、Value向量,并基于上述向量對每個輸入使用注意力機制,以獲得當前輸入與上下文語義的關系和自身所包含的信息,并通過多層累加和多頭注意力機制,不斷獲取當前輸入更為合適的向量表示。為此,本文采用Google開源的BERT模型來訓練詞向量以便能更有效地表征詞語在文本中的語義特征。通過上述過程,最終得到漢語的主題詞向量vt漢以及緬甸語主題詞向量vt緬。

通過BERT模型訓練方法得到漢語詞嵌入矩陣S和緬語詞嵌入矩陣T后,利用種子詞典M,借鑒Artetxe等人[17]的方法,通過SVD學習線性轉換矩陣W,找到最佳映射矩陣W*后,使用W矩陣對漢語詞嵌入矩陣S進行線性變換,得到S′=SW,使漢語詞向量跟緬甸語詞向量分布在同一個向量空間,使得SiW與目標詞嵌入Tj相近,如式(4)所示。

其中,Mij=1時代表緬語中的第j個單詞是漢語中第i個單詞的翻譯。Si代表第i個源語言的詞嵌入,Tj代表第j個目標語言的詞嵌入。在得到最佳映射矩陣W*后,就可以將漢、緬單語詞向量映射到同一語義空間中,從而獲取漢緬雙語主題詞向量。得到漢緬雙語主題詞向量后,利用余弦相似度方法計算漢、緬主題詞向量的相似度。

漢緬雙語詞向量學習過程如圖3所示。

圖3 漢緬雙語詞向量學習過程

1.4 融合主題模型和雙語詞向量的漢緬雙語文檔相似度計算

常見的相似度計算有余弦相似度、Dice系數、Jaccard系數等,考慮到余弦相似度方法在兩個向量相差較大時效果要優于Dice方法,而Jaccard和Dice算法性質比較接近。故只選取余弦相似度作為本文的相似度計算方法。

通過圖3的學習過程得到漢緬雙語主題詞向量后,我們對每個主題下取出的前m個高概率的詞重新進行歸一化處理,再對歸一化后每個詞的權重與得到的漢緬主題詞向量相乘求和來計算主題向量v′j(ti),如式(5)所示。

其中,ωin表示第i個單詞歸一化之后的權重,v(win) 是第i個單詞的詞向量。

最后利用余弦相似度計算方法計算漢語主題向量和緬甸語主題向量的相似度來得到漢緬兩篇文章的相似度,如式(6)所示。

其中,v′t漢表示加權后的漢語主題詞向量,v′t緬表示加權后的緬甸語主題詞向量。

因為本文是將漢緬文本相似度計算轉化為計算漢緬每篇文章的主題相似度,相較于直接計算兩篇文章的相似度計算量更小,此外計算主題相似度避免了計算一些無意義單詞的相似度,可得到更好的相似度結果。

2 漢緬雙語可比候選文檔獲取

由于目前沒有公開的數據集,為了構建實驗數據,我們首先從新華社中文版新聞平臺(1)http://www.xinhuanet.com/爬取了中文新聞文檔,并從每篇中文新聞文檔的標題中提取關鍵字翻譯為緬甸語作為查詢詞,再利用雙語詞典在新華社緬文版新聞平臺(2)http://xinhuamyanmar.com/爬取緬甸語文檔中包含查詢詞的緬甸語新聞文檔集;然后,根據新聞文檔里面出現的主要圖片跟文本主題內容具有很大的相關性這一現象,通過人工方式選擇漢緬雙語文檔中出現圖片內容相似性高的漢緬雙語文檔作為候選可比文檔。如圖4所示,漢緬雙語文檔中圖片內容具有很大相似性,圖中一一對應的序號表達的是雙語文本對齊片段,但整個新聞文本內容不完全互譯。進而對候選的漢緬雙語文檔進行分詞、去停用詞等預處理,其中,漢語文檔分詞使用jieba分詞工具(3)https://github.com/fxsjy/jieba,緬甸語分詞使用昆明理工大學研發的緬甸語分詞工具(4)http://222.197.219.24:8099,緬甸語停用詞表如表1所示。最后, 利用漢緬雙語詞典統計漢緬雙語候選文檔標題中出現的雙語互譯詞匯的長度比作為雙語文檔標題的相似性,綜合考慮雙語文檔標題及內容的相似性作為選取漢緬雙語可比文檔的標準。通過以上方式最終獲取了涉及科技、政治和體育相關領域的漢緬雙語可比文檔597對作為實驗語料,具體規模如表2所示。

表1 緬甸語停用詞

圖4 漢緬可比雙語文檔實例

表2 數據規模

3 實驗

3.1 實驗數據及參數設置

本文從新華社緬文版新聞平臺以及對應的中文版新聞平臺共抽取涉及政治、體育和科技相關領域的漢緬雙語可比候選文檔597對作為實驗語料。取出其中的400篇文檔作為訓練集,進行主題的抽取及漢緬雙語主題詞向量的訓練,其中在訓練雙語詞向量中,字典的大小為43 786個詞,使用余下的197篇文檔作為測試集,測試在抽取主題的時候不同主題數量和不同迭代次數對抽取主題效果的影響。

模型中設置LDA訓練的超參數α=0.1,β=0.1,迭代次數為100,每篇文章的主題數為5;詞向量維度為768。

3.2 評價指標

對于LDA的評價標準,我們使用Perplexity(困惑度)作為評價標準。困惑度的值越小,模型的表現越佳,相應的主題預測能力和新文本的預測能力就越強,困惑度的計算如式(7)所示。

其中,p(w)是指測試集中的每一個詞出現的概率,計算公式如式(8)所示。

其中,p(z|d)表示的是一個文檔中每個主題出現的概率,p(w|z)表示詞典中的每個單詞在某個主題下出現的概率。

本文采用召回率R、精確率P、F1值評估各種相似度算法的效果。F1值越大,相似度計算結果越準確;F1值越小,相似度計算結果的準確性越低,如式(9)所示。

其中,C表示相似度超過閥值且與源語言相似的文檔集合,N表示所有相似度超過閥值的文檔的集合,M表示所有與源語言文檔相似的文檔集合。

3.3 實驗及結果分析

為驗證本文方法的有效性,本文分析抽取不同主題數目對主題效果的影響、不同迭代次數對主題效果的影響,還通過對傳統雙語LDA計算文檔相似度方法、使用雙語詞向量計算文檔相似度方法、翻譯模型計算文檔相似度方法以及本文的方法進行對比實驗,另外,我們還對不同方法在各階段所用的時間消耗進行對比,以及不同訓練詞向量方式對實驗結果的影響進行對比,實驗設計如下。

實驗一 不同主題數目下以及不同迭代次數的困惑度對比

從圖5中可以看出,當主題數目為5時困惑度趨于平穩,所以迭代次數的實驗主題數目設置為5;如圖6所示,當迭代次數在60到100之間時,困惑度下降較快,迭代次數達到100次后模型逐漸收斂,此時抽取的主題效果最好。本文在抽取主題時,將主題數設置為5,迭代次數為100。

圖5 不同主題數目下的困惑度

圖6 不同迭代次數的困惑度

實驗二 不同方法計算文本相似度的結果比較

從表3可以看出,通過雙語LDA抽取主題計算文本相似度得到的F1值最低,使用雙語詞向量方法計算文本相似度要比使用雙語LDA計算雙語文本相似度的效果好,而本文方法在召回率、準確率和F1值上都取得了最好的效果。其中本文的方法獲得的F1值為74.0%,比使用雙語詞向量計算文本相似度的方法提高了5.6%,比使用翻譯模型計算文本相似度的方法提高了10.4%,比使用雙語LDA計算文本相似度的方法提高了12.3%。

表3 不同方法計算文本相似度(%)

實驗三 不同方法計算文檔相似度消耗的時間

從表4可以看出,使用翻譯模型方法計算文檔相似度消耗的時間最少,本文方法總耗時4.33h,比使用雙語詞向量方法計算文檔相似度的時間長,這是因為本文方法需要分別對漢語、緬甸語文檔抽取主題,這就消耗了大量的時間。但是本文的方法在詞向量訓練和相似度計算部分使用的時間較少,這是因為我們只對抽取的主題進行詞向量訓練,然后對主題計算相似度,減小了計算量。

表4 不同方法計算文檔相似度所消耗的時間(h)

實驗四 不同詞向量對實驗結果的影響

為了驗證不同詞向量對實驗結果的影響,本文對比了基于Word2Vec[14-15]、GloVe[18]、BERT[12]三種詞向量生成方式下的實驗,對比結果如表5所示。

表5 不同詞向量方式對實驗結果的影響(%)

從表5可以看出,基于預訓練BERT模型生成的動態詞向量產生的分類效果明顯高于另外兩種靜態詞向量。由此可見,本文提出的基于預訓練的方式生成的詞向量更能準確地表征上下文環境中詞匯的語義特征,有助于雙語可比文檔的獲取。

4 總結與展望

本文提出一種融合主題模型及雙語詞向量的漢緬雙語可比文檔獲取方法。將漢緬文檔相似度計算轉換為漢緬主題相似度計算問題。實驗結果表明,本文提出的方法在準確率、召回率和F1值上均取得最好的效果,其中與使用雙語LDA的方法度相比,本文方法效果提升較高,F1值提升了12.3%。下一步工作將考慮把主題詞的同義詞特征融合到主題模型中以提升主題的抽取效果。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美成人第一页| 国产真实乱子伦视频播放| 欧美a在线看| 亚洲欧美不卡| 无码高潮喷水专区久久| 国产精品毛片一区| 国产综合色在线视频播放线视 | 中字无码av在线电影| 2021亚洲精品不卡a| 日韩国产综合精选| 日本久久网站| 欧美成人在线免费| 夜夜操狠狠操| 国产成人一区免费观看| 国产真实乱人视频| 欧美日本二区| 中文字幕人成人乱码亚洲电影| 国产一区二区色淫影院| 欧美激情视频二区三区| 五月综合色婷婷| 久久青青草原亚洲av无码| 九九免费观看全部免费视频| 国产成人狂喷潮在线观看2345| 亚洲AV无码不卡无码| 中国国产高清免费AV片| 亚洲精品va| 一边摸一边做爽的视频17国产| 国产成人91精品免费网址在线| 免费女人18毛片a级毛片视频| 在线观看av永久| 日本亚洲成高清一区二区三区| 久久精品女人天堂aaa| 91无码网站| 欧美激情第一区| 亚洲成人网在线观看| 114级毛片免费观看| 欧美在线国产| 综合成人国产| 91欧美在线| 日韩欧美中文字幕在线精品| www.狠狠| 四虎国产在线观看| 日韩国产黄色网站| 亚洲精品第一页不卡| 五月婷婷丁香综合| 无码日韩精品91超碰| 色悠久久久| 天天综合色网| 亚洲欧美在线看片AI| 九九热视频精品在线| 亚洲欧美日韩另类在线一| 国产一区二区三区夜色| 99热这里只有免费国产精品| 乱人伦视频中文字幕在线| 666精品国产精品亚洲| 波多野吉衣一区二区三区av| 国产精品13页| 欧美日本视频在线观看| 色婷婷丁香| 国产一区二区三区在线观看免费| 亚洲国模精品一区| 国产精品va免费视频| 9啪在线视频| 日本一区二区三区精品视频| 亚洲无线观看| 欧美成人A视频| 久久久久亚洲Av片无码观看| 好久久免费视频高清| 日本AⅤ精品一区二区三区日| 69视频国产| 在线国产91| 三级欧美在线| 久久国产免费观看| 精品国产黑色丝袜高跟鞋| 国产精品私拍在线爆乳| 亚洲精品国产日韩无码AV永久免费网 | 国产经典三级在线| 欧美精品亚洲二区| 亚洲精品在线91| 亚洲国产成人自拍| 亚洲色图在线观看| 国产午夜人做人免费视频中文|