999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于單詞分類的歸一化神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究

2017-01-11 10:40:44陳鉻亮徐佳

陳鉻亮, 徐佳

(1.清華大學(xué) 交叉信息研究院,北京 100084; 2.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190)

?

基于單詞分類的歸一化神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究

陳鉻亮1, 徐佳2

(1.清華大學(xué) 交叉信息研究院,北京 100084; 2.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190)

摘要:提出了一種基于單詞分類的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,以解決歸一化問題。實(shí)驗(yàn)方法為,在基礎(chǔ)翻譯系統(tǒng)中加入模型參數(shù),然后利用開發(fā)集調(diào)整參數(shù),再對(duì)測(cè)試集進(jìn)行翻譯,對(duì)比加入模型參數(shù)前后的翻譯質(zhì)量以及訓(xùn)練模型和翻譯過程所需時(shí)間。實(shí)驗(yàn)結(jié)果表明,在保證歸一化的前提下,該模型的性能優(yōu)于Vaswani等人的模型,且翻譯質(zhì)量與Vaswani等人的模型相當(dāng)。

關(guān)鍵詞:機(jī)器翻譯; 語(yǔ)言模型; 單詞分類

自然語(yǔ)言處理是人工智能研究的一個(gè)重要領(lǐng)域,該領(lǐng)域的研究目的是讓計(jì)算機(jī)能夠理解并自動(dòng)處理人類的自然語(yǔ)言。語(yǔ)言模型是自然語(yǔ)言處理研究中的一個(gè)重要模型,它的作用是衡量一段語(yǔ)料的通順程度。當(dāng)前,語(yǔ)言模型被廣泛運(yùn)用于自然語(yǔ)言處理的各個(gè)方面,如語(yǔ)音識(shí)別,機(jī)器翻譯,輸入法和自動(dòng)拼寫糾錯(cuò)。

上世紀(jì)50年代,Shannon提出了n元文法模型[1]。該模型用一段詞語(yǔ)序列出現(xiàn)的概率來(lái)衡量這段文字的通順程度。進(jìn)一步,該模型假定詞語(yǔ)序列是一個(gè)時(shí)齊馬氏鏈,出于實(shí)際應(yīng)用的需要,假定每一個(gè)詞在給定它之前至多n-1個(gè)詞(稱為該詞的歷史)的前提下與其他詞無(wú)關(guān)。雖然距今已經(jīng)六十多年,但n元文法模型依舊是最經(jīng)典的語(yǔ)言模型。

傳統(tǒng)的n元文法模型利用n元組的相對(duì)頻率來(lái)估計(jì)每個(gè)詞給定其歷史的條件概率。隨著計(jì)算機(jī)性能的提升,神經(jīng)網(wǎng)絡(luò)方法開始廣泛運(yùn)用于人工智能的各個(gè)領(lǐng)域,包括自然語(yǔ)言處理。2013年,Vaswani等人提出了一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型[2]。與傳統(tǒng)的n元文法模型不同,Vaswani等人從語(yǔ)料中提取出n元組,然后以每個(gè)n元組的前n-1個(gè)詞為輸入,第n個(gè)詞為輸出來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。該網(wǎng)絡(luò)的輸入層為n-1個(gè)詞,輸出層的結(jié)點(diǎn)個(gè)數(shù)等于字典大小,其輸出正比于以這n-1個(gè)詞為歷史的單詞條件概率分布。

一個(gè)概率模型,從理論上來(lái)說(shuō)是需要?dú)w一化的。然而,一旦字典變大,將網(wǎng)絡(luò)輸出歸一化就十分費(fèi)時(shí),這是實(shí)際應(yīng)用所不允許的。Vaswani等人引用了Min和Teh在研究中發(fā)現(xiàn)的一種高效的獲得近似歸一化結(jié)果的方法[2-3],巧妙地回避了這個(gè)問題。然而,這并不代表歸一化問題不存在。

另一方面,Kneser和Ney在進(jìn)行語(yǔ)音識(shí)別的研究時(shí),提出了利用單詞分類來(lái)提高效率的方法[4]。這啟發(fā)我們從另一個(gè)角度考慮歸一化問題的解決方法:產(chǎn)生歸一化問題的根本原因是字典太大,如果字典不大,那么歸一化就不需要太多時(shí)間,也就不存在效率問題了。于是,不考慮每個(gè)詞給定前n-1個(gè)詞的條件概率,而是先將單詞分類,然后考慮每個(gè)詞的類別給定前n-1個(gè)詞的類別的條件概率。這樣,輸出層的結(jié)點(diǎn)數(shù)就從字典大小降低為類別個(gè)數(shù),可以在實(shí)際應(yīng)用允許的條件下進(jìn)行歸一化。而且,采用單詞分類方法也可以減少語(yǔ)料的稀疏性對(duì)模型帶來(lái)的影響[4]。本文提出了一種基于單詞分類的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,以解決歸一化問題。

1 模型描述

Kneser和Ney提出了基于單詞分類的n元文法模型[4]:

其中,Chi為hi所屬類的序列。又假定在給定單詞w的所屬類Cw的情況下w與Ch獨(dú)立,即

P(w|Cw,Ch)=P(w|Cw)

假如只知道一個(gè)詞的所屬類和該類的單詞個(gè)數(shù),而對(duì)其他信息一無(wú)所知的話,沒有理由去假定這個(gè)詞在該類中比其他詞更頻繁或更不頻繁出現(xiàn)。所以,在上述模型的基礎(chǔ)上進(jìn)一步假定,每一類中的單詞給定其所屬類的條件概率相等,即

于是有

單一的單詞分類方法不能保證取得良好的翻譯質(zhì)量。為此,可采用多種單詞分類方法,對(duì)每種方法得到一個(gè)語(yǔ)言模型,最后將這些模型合并,得到最終的語(yǔ)言模型:

其中,λm是權(quán)重系數(shù),可利用開發(fā)集來(lái)調(diào)整。

2 模型的實(shí)現(xiàn)

2.1單詞分類

采用Kneser和Ney提出的統(tǒng)計(jì)學(xué)習(xí)方法[4],利用Och和Ney發(fā)布的工具GIZA++中的mkcls組件[5]將訓(xùn)練集的單詞分為100、200、300和400類。

2.2訓(xùn)練語(yǔ)言模型

得到單詞分類表后,先選擇每類中詞頻最高的單詞作為該類的代表,然后將訓(xùn)練集和開發(fā)集當(dāng)中的所有單詞都替換為該單詞所在類的代表,最后采用Vaswani等人的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,參數(shù)與Vaswani等人文章中的參數(shù)基本一致。最后共得到4個(gè)神經(jīng)網(wǎng)絡(luò)模型LM1-4。

2.3測(cè)試集概率的計(jì)算

2.4權(quán)重系數(shù)λm的確定

權(quán)重系數(shù)根據(jù)模型在開發(fā)集上的翻譯質(zhì)量來(lái)調(diào)整。

3 實(shí)驗(yàn)及結(jié)果

用機(jī)器翻譯實(shí)驗(yàn)檢驗(yàn)?zāi)P停瑢?shí)驗(yàn)內(nèi)容是漢語(yǔ)到英語(yǔ)的翻譯任務(wù)。

訓(xùn)練集、開發(fā)集和測(cè)試集均取自IWSLT2014[6]的漢語(yǔ)-英語(yǔ)語(yǔ)料,使用雙語(yǔ)訓(xùn)練集的英語(yǔ)部分作為語(yǔ)言模型訓(xùn)練語(yǔ)料。語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù)見表1,為方便僅列英文部分的統(tǒng)計(jì)數(shù)據(jù)。翻譯工具使用Moses[7],為Moses的默認(rèn)設(shè)置,采用短語(yǔ)翻譯模型[8],對(duì)齊工具用GIZA++[5],使用MERT[9]方法調(diào)整各模型的權(quán)重系數(shù)。

首先以n元文法模型為語(yǔ)言模型進(jìn)行翻譯,以此為基準(zhǔn),對(duì)每個(gè)漢語(yǔ)句子輸出其最好的100個(gè)候選翻譯,作為基準(zhǔn)候選翻譯表,并取最好的翻譯候選作為基準(zhǔn)翻譯結(jié)果。隨后,對(duì)每個(gè)候選翻譯分別使用LM1-4求出對(duì)數(shù)概率,以此為特征加入基準(zhǔn)候選翻譯表,再根據(jù)開發(fā)集調(diào)整各模型的權(quán)重系數(shù),得到翻譯結(jié)果。為了與經(jīng)典的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型比較,按照文獻(xiàn)[2]中的參數(shù),訓(xùn)練了一個(gè)歸一化的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型LM0,并分別將其給出的對(duì)數(shù)概率加入基準(zhǔn)候選翻譯表,同樣調(diào)整權(quán)重系數(shù),得到翻譯結(jié)果。用BLEU[10]分?jǐn)?shù)來(lái)評(píng)價(jià)翻譯結(jié)果的好壞,分?jǐn)?shù)越高結(jié)果越好。

表1 實(shí)驗(yàn)所用語(yǔ)料的統(tǒng)計(jì)數(shù)據(jù)Tab.1 Statistics of experimental corpus

實(shí)驗(yàn)結(jié)果見表2。雖然LM1-4只考慮了分類信息而沒有考慮具體的單詞信息,但加入LM1-4的翻譯結(jié)果不遜于加入LM0的結(jié)果。也就是說(shuō),LM1-4在滿足歸一化要求的同時(shí)不會(huì)降低翻譯質(zhì)量。這個(gè)結(jié)果與Kneser和Ney的研究結(jié)果[4]一致。LM1-4翻譯結(jié)果良好的原因是,基于單詞分類的模型比基于具體單詞的模型更加穩(wěn)健,一定程度上解決了訓(xùn)練樣本稀疏性的問題。

表2 翻譯實(shí)驗(yàn)結(jié)果Tab.2 Result of translation in BLEU score %

測(cè)試了訓(xùn)練LM0和LM1-4以及運(yùn)用它們求測(cè)試集概率的耗時(shí)。測(cè)試所用計(jì)算機(jī)的CPU為Intel(R) Core(TM) i7-4700HQ雙核2.4GHz,內(nèi)存為4GB,均以8線程運(yùn)行。

測(cè)試結(jié)果見表3。可以看出,LM1-4在求測(cè)試集概率時(shí)的耗時(shí)要遠(yuǎn)短于LM0,這是符合預(yù)期的,因?yàn)闅w一化所需時(shí)間與字典大小成正比,LM1-4的字典大小要遠(yuǎn)小于LM0,花在歸一化上的時(shí)間自然就更短。但在訓(xùn)練時(shí)間方面LM1-4要長(zhǎng)于LM0,主要是因?yàn)閱卧~分類需要消耗大量時(shí)間,類別越多,分類所需時(shí)間就越長(zhǎng),LM4的單詞分類時(shí)間甚至超過了神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。不過,考慮到在翻譯實(shí)務(wù)中需要面對(duì)遠(yuǎn)多于測(cè)試集的數(shù)據(jù),在翻譯速度上占優(yōu)的LM1-4顯然好于LM0。

表3各模型訓(xùn)練和解碼耗時(shí)

Tab.3Time taken for the training and decoding of models

模型LM0LM1LM2LM3LM4訓(xùn)練時(shí)間/min828199134155解碼時(shí)間/s156045495552

4 結(jié)語(yǔ)

實(shí)驗(yàn)證實(shí)了將單詞分類的方法運(yùn)用到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中以解決歸一化問題的可行性。在翻譯實(shí)踐中,歸一化模型是否優(yōu)于非歸一化模型,還需進(jìn)一步的研究;但在理論上,歸一化模型的數(shù)學(xué)基礎(chǔ)遠(yuǎn)比非歸一化的模型來(lái)得扎實(shí)可靠。

參考文獻(xiàn):

[1] Shannon C E.Prediction and entropy of printed English[J].Bell System Technical Journal, 1951, 30(1):50-64.

[2] Vaswani A, Zhao Y, Fossum V, et al.Decoding with large-scale neural language models improves translation[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle, America: Association for Computational Linguistics,2013:1387-1392.

[3] Mnih A, Teh Y W.A fast and simple algorithm for training neural probabilistic language models[C]//Proceedings of the 29th International Conference on Machine Learning.Edinburgh: International Machine Learning Society,2012:1751-1758.

[4] Kneser R, Ney H.Improved clustering techniques for class-based statistical language modelling[C]//Eurospeech'93.Berlin, Germany: International Speech Communication Association,1993:973-976.

[5] Och F J, Ney H.A systematic comparison of various statistical alignment models//[J].Computational Linguistics, 2003, 29(1):19-51.

[6] Koehn P, Hoang H, Birch A, et al.Moses: Open source toolkit for statistical machine translation[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions.Prague, Czech: Association for Computational Linguistics, 2007.177-180.

[7] Koehn P, Och F J, Marcu D.Statistical phrase-based translation[C]// Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Edmonton, Canada: Association for Computational Linguistics, 2003.127-133.

[8] Och F J.Statistical machine translation : from single word models to alignment templates[J].Rwth Aachen, 2002, 10(2):65-70.

[9] Papineni K, Roukos S, Ward T, et al.BLEU: a method for automatic evaluation of machine translation[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Philadelphia, America: Association for Computational Linguistics, 2002.311-318.

(責(zé)任編輯: 陳雯)

Research on word classification-based normalized neural network language model

Chen Geliang1, Xu Jia2

(1.IIIS, Tsinghua University, Beijing 100084, China; 2.ICT, Chinese Academy of Sciences, Beijing 100190, China)

Abstract:A word classification-based neural network language model was proposed to resolve normalization problems.Model parameters were introduced to the basic translation system, which were adjusted by development sets.The test sets were translated.The translation quality and training model and the time taken by the translation were compared.The results indicate that the model is superior to that of Vasvani in performance with its translation quality being similar to that of Vasvani.

Key words:machine translation; language model; word classification

doi:10.3969/j.issn.1672-4348.2016.04.014

收稿日期:2016-07-22

基金項(xiàng)目:國(guó)家自然科學(xué)基金(61033001);國(guó)家自然科學(xué)基金(61361136003)

第一作者簡(jiǎn)介:陳鉻亮(1990-),男,福建福州人,碩士研究生,研究方向:機(jī)器翻譯,自然語(yǔ)言處理,人工智能。

中圖分類號(hào):TP391.2

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1672-4348(2016)04-0382-04

主站蜘蛛池模板: 免费国产黄线在线观看| 欧美在线精品怡红院| 区国产精品搜索视频| 无码中字出轨中文人妻中文中| 亚洲一区二区日韩欧美gif| 97视频精品全国在线观看| 久久无码高潮喷水| 无码电影在线观看| 午夜无码一区二区三区| 美女被操黄色视频网站| 国产欧美日韩综合在线第一| 欧美一级特黄aaaaaa在线看片| 亚洲大尺度在线| 伊人大杳蕉中文无码| 久久人人妻人人爽人人卡片av| 国产一区二区三区精品久久呦| 欧美第九页| 国产欧美专区在线观看| 免费在线成人网| 久久免费视频6| 国产成人8x视频一区二区| 在线观看欧美国产| 亚洲成人动漫在线观看| 国内毛片视频| 国产色伊人| 一级毛片高清| 国产丝袜丝视频在线观看| 亚洲国产日韩在线观看| 最近最新中文字幕免费的一页| 欧美精品在线看| 天堂av高清一区二区三区| 一本一道波多野结衣av黑人在线| 99久久精彩视频| 亚洲视频影院| 欧美激情一区二区三区成人| 99精品免费在线| 亚洲国产日韩在线成人蜜芽| 久久婷婷色综合老司机| 国产高清色视频免费看的网址| 亚洲国产中文在线二区三区免| 黄色国产在线| 精品国产自在在线在线观看| 日韩欧美网址| 欧美综合区自拍亚洲综合天堂| 久久香蕉国产线看观看亚洲片| 欧美激情二区三区| 九九视频免费在线观看| 欧美成人手机在线观看网址| 熟妇丰满人妻| 97久久精品人人做人人爽| 亚洲成aⅴ人在线观看| 激情成人综合网| 国产精品久久自在自线观看| 国产激情在线视频| 精品国产网站| 一本大道香蕉高清久久| 国产不卡国语在线| 成色7777精品在线| 思思99思思久久最新精品| 日韩资源站| 亚洲黄网视频| 久久中文字幕av不卡一区二区| 亚洲天堂视频网站| 成人精品视频一区二区在线 | 九九热免费在线视频| 精品無碼一區在線觀看 | 91视频国产高清| 97成人在线视频| 国产福利大秀91| 亚洲精品无码日韩国产不卡| 亚洲人成网站色7799在线播放| 日韩专区欧美| 欧美日韩中文国产va另类| 999国产精品永久免费视频精品久久| 国产精品亚洲综合久久小说| 国产精品99在线观看| 精品国产电影久久九九| 国产精品无码久久久久久| 美女免费精品高清毛片在线视| 91在线精品麻豆欧美在线| 97在线视频免费观看| AV在线麻免费观看网站|