999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

借助音頻數(shù)據(jù)的發(fā)音字典新詞學(xué)習(xí)方法

2016-12-23 02:03:26范正光屈丹閆紅剛張文林
關(guān)鍵詞:語言模型

范正光,屈丹,閆紅剛,張文林

(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450002,鄭州)

?

借助音頻數(shù)據(jù)的發(fā)音字典新詞學(xué)習(xí)方法

范正光,屈丹,閆紅剛,張文林

(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,450002,鄭州)

針對已有的發(fā)音字典擴(kuò)展方法只能從文本數(shù)據(jù)中學(xué)習(xí)新詞而無法學(xué)習(xí)到音頻數(shù)據(jù)中新詞的問題,提出了一種基于混合語音識別系統(tǒng)的發(fā)音字典新詞學(xué)習(xí)方法。該方法首先分別采用音節(jié)和字母音素對混合識別系統(tǒng)對音頻數(shù)據(jù)進(jìn)行集外詞識別,利用系統(tǒng)間的互補(bǔ)性得到盡可能多的新詞及其發(fā)音候選,然后借助感知器與最大熵模型對得到的新詞及發(fā)音進(jìn)行優(yōu)化,降低錯(cuò)誤率,最后實(shí)現(xiàn)發(fā)音字典的擴(kuò)展,并利用語法語義信息完成對語言模型參數(shù)更新。基于華爾街日報(bào)(WSJ)語料庫的連續(xù)語音識別實(shí)驗(yàn)表明:該方法可以有效學(xué)習(xí)到音頻數(shù)據(jù)中的未知新詞,采取的數(shù)據(jù)優(yōu)化策略極大地提高了所得新詞及發(fā)音的精度;在詞錯(cuò)誤率指標(biāo)下,字典擴(kuò)展后系統(tǒng)的識別性能相對基線系統(tǒng)提高約13.4%。

語音識別;發(fā)音字典;新詞學(xué)習(xí);集外詞

發(fā)音字典是搭建現(xiàn)代連續(xù)語音識別系統(tǒng)(continuous speech recognition, CSR)所必需的數(shù)據(jù)資源,但傳統(tǒng)的發(fā)音字典由語言學(xué)專家手動生成,需要花費(fèi)較高的成本。針對這一問題,當(dāng)前普遍采用發(fā)音字典自動學(xué)習(xí)來減小人工工作量。目前,常用的字典自動學(xué)習(xí)方法主要有2類:基于字母音素轉(zhuǎn)換(grapheme to phoneme conversion,G2P)的方法[1-3]和基于網(wǎng)絡(luò)爬取的方法[4]。基于G2P轉(zhuǎn)換的方法是指通過對文本語料(如爬取的網(wǎng)絡(luò)文本語料)進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)新詞,然后利用G2P轉(zhuǎn)換獲取這些新詞的發(fā)音。常用的G2P轉(zhuǎn)換方法有基于聯(lián)合序列模型的方法[2]、基于神經(jīng)網(wǎng)絡(luò)模型的方法[3]等。基于網(wǎng)絡(luò)爬取的方法可以認(rèn)為是第一類方法的特例,該方法通過爬取一些特殊的網(wǎng)頁(如維基字典等),直接獲取帶有發(fā)音的新詞,從而避免了G2P轉(zhuǎn)換帶來的錯(cuò)誤,保證了獲取新詞及發(fā)音的準(zhǔn)確性。借助文本語料的發(fā)音字典擴(kuò)展具有實(shí)現(xiàn)簡單的優(yōu)點(diǎn),但文本語料往往存在較多的錯(cuò)誤,如拼寫錯(cuò)誤等,這些錯(cuò)誤會增加發(fā)音字典的混淆度進(jìn)而影響識別性能[5]。此外,當(dāng)文本語料較少時(shí),該方法發(fā)現(xiàn)的新詞數(shù)量也有限。

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,音頻數(shù)據(jù)越來越成為一種較易獲取的數(shù)據(jù)資源。音頻數(shù)據(jù)中也會存在很多的新詞,并且這些新詞不在發(fā)音字典中,傳統(tǒng)的語音識別系統(tǒng)無法識別。這些新詞被稱為集外(out-of-vocabulary, OOV)詞、集內(nèi)(in-vocabulary, IV)詞。為了識別集外詞,文獻(xiàn)[6-9]采用不同的子詞單元構(gòu)建詞/子詞混合語音識別系統(tǒng)。該混合系統(tǒng)在解碼時(shí)將集外詞表示成一些被稱為子詞的語音單元序列,進(jìn)而利用這些子詞序列實(shí)現(xiàn)集外詞的識別。混合語音識別方法雖然可以識別集外詞,但在識別時(shí)同樣會將部分置信度較低的集內(nèi)詞識別成子詞形式,從而影響識別性能。此外該方法解碼復(fù)雜度較高,限制了其在實(shí)際中的應(yīng)用。

綜合上述方法,針對音頻數(shù)據(jù)中的新詞,本文提出一種新的基于混合語音識別系統(tǒng)的發(fā)音字典新詞學(xué)習(xí)方法。該方法利用混合語音識別系統(tǒng)的識別結(jié)果提取集外詞和發(fā)音,并借助感知器以及最大熵模型等對這些新詞及發(fā)音進(jìn)行優(yōu)化以降低錯(cuò)誤率;針對現(xiàn)有的混合語音識別系統(tǒng)集外詞召回率低,采用多個(gè)混合系統(tǒng)進(jìn)行融合以提高新詞發(fā)現(xiàn)率;最后提出了基于語法語義的語言模型參數(shù)估計(jì)方法。實(shí)驗(yàn)表明,新方法可以有效發(fā)現(xiàn)音頻數(shù)據(jù)中的新詞,采用擴(kuò)展后的字典,系統(tǒng)性能相對基線系統(tǒng)也有了較大提升。

1 詞/子詞混合語音識別系統(tǒng)

圖1給出了混合語音識別系統(tǒng)框圖。混合語音識別系統(tǒng)與傳統(tǒng)語音識別系統(tǒng)的主要區(qū)別在于可以對集外詞進(jìn)行識別。在識別時(shí),混合語音識別系統(tǒng)首先采用混合字典以及混合語言模型得到混合識別結(jié)果。在混合識別結(jié)果中,集內(nèi)詞識別成詞的形式,而集外詞則識別成如音素(phones)、字母音素對(graphones)以及詞素(morphemes)等子詞形式。通過對混合識別結(jié)果進(jìn)行處理,從而得到最終詞級識別結(jié)果。

圖1 混合語音識別系統(tǒng)框架

1.1 混合字典

混合字典包含詞和子詞2種不同類型的語音單元,子詞用于解碼時(shí)表示集外詞。本文討論音節(jié)和字母音素對2種類型的子詞。其中,音節(jié)是由一個(gè)或幾個(gè)音素按一定規(guī)律組合而成的語音單位;字母音素對是在訓(xùn)練聯(lián)合序列模型字母音素轉(zhuǎn)換器時(shí)得到的,為字母序列和發(fā)音序列間的映射。本文分別使用Festival詞典工具[10]以及Sequitur G2P工具[2]獲取這2種子詞。所有子詞均加入詞邊界標(biāo)記,結(jié)尾子詞標(biāo)記為“#”,非結(jié)尾子詞標(biāo)記為“+”。引入詞邊界標(biāo)記雖然增加了子詞單元數(shù)量,但使集外詞的恢復(fù)變得更加簡單。

1.2 混合語言模型

將語言模型訓(xùn)練語料中的集外詞表示成相應(yīng)的子詞序列得到混合語料。由混合語料訓(xùn)練得到混合語言模型。在混合語言模型中不僅包括詞的N-gram參數(shù),也包括詞與子詞以及子詞與子詞的N-gram參數(shù)。訓(xùn)練好的混合語言模型,通過設(shè)置集外詞插入懲罰因子POOV可以控制解碼時(shí)子詞單元出現(xiàn)的比例。如對于訓(xùn)練得到的語言模型參數(shù)ps(s1|w1w2),調(diào)整后的參數(shù)為pt(s1|w1w2)=pOOV·ps(s1|w1w2),其中s1為子詞,w1、w2為詞。采用該混合語言模型進(jìn)行解碼,即得到混合識別結(jié)果。

1.3 集外詞識別

集外詞識別模塊包括集外詞檢測和集外詞恢復(fù)2部分。集外詞檢測用于通過混合識別結(jié)果,確定集外詞的位置(在混合識別結(jié)果中,子詞序列出現(xiàn)的位置則表示集外詞位置),而集外詞恢復(fù)則是為了獲得集外詞的正確拼寫。

針對集外詞恢復(fù),不同的子詞有不同的恢復(fù)方法。字母音素對本身包含了單詞的拼寫形式可以直接用于集外詞的恢復(fù)。采用音節(jié)作為子詞單元時(shí),往往先根據(jù)音節(jié)序列獲取集外詞的音素序列,然后通過音素字母轉(zhuǎn)換(P2G)得到。圖2給出了一個(gè)集外詞識別示例,對混合解碼器得到的音節(jié)混合識別結(jié)果,首先通過音節(jié)序列確定集外詞位置,然后根據(jù)該序列以及詞邊界標(biāo)記確定集外詞的發(fā)音,最后經(jīng)過音素字母轉(zhuǎn)換獲得集外詞識別結(jié)果。

圖2 集外詞識別以及新詞學(xué)習(xí)示例

2 基于混合語音識別系統(tǒng)的發(fā)音字典新詞學(xué)習(xí)

混合語音識別系統(tǒng)具有可以識別集外詞的優(yōu)點(diǎn),其識別得到的集外詞即為新詞(如圖2所示)。由于在識別以及音素字母轉(zhuǎn)換中都可能存在一些錯(cuò)誤,直接恢復(fù)得到的集外詞及發(fā)音準(zhǔn)確率較低,為此本文對識別得到的集外詞及發(fā)音進(jìn)行優(yōu)化以降低錯(cuò)誤率。同時(shí),針對混合語音識別系統(tǒng)集外詞召回率低的缺點(diǎn),采用多個(gè)混合系統(tǒng)來提高新詞的發(fā)現(xiàn)率。整個(gè)字典學(xué)習(xí)流程如圖3所示,對于給定的音頻數(shù)據(jù),首先采用多種子詞單元混合系統(tǒng)(本文只討論音節(jié)混合系統(tǒng)和字母音素對混合系統(tǒng))進(jìn)行集外詞識別;然后對獲取的集外詞及發(fā)音進(jìn)行優(yōu)化,降低錯(cuò)誤率;最后將篩選結(jié)果加入發(fā)音字典中,并完成字典及語言模型參數(shù)更新。

圖3 基于混合語音識別系統(tǒng)的字典新詞學(xué)習(xí)流程

對于獲取的新詞(即集外詞)及發(fā)音,本文采取的優(yōu)化措施歸納如下:

(1)對得到的新詞,首先進(jìn)行過濾去除集內(nèi)詞,這主要考慮到采用混合系統(tǒng)解碼時(shí)引入的一些虛警錯(cuò)誤;

(2)2個(gè)不同混合系統(tǒng)得到的相同的新詞及發(fā)音,認(rèn)為可信度較大,從而直接判為正確新詞;

(3)根據(jù)不同混合系統(tǒng)獲得的新詞及發(fā)音,確定不同的代價(jià)函數(shù),并通過設(shè)定不同的門限進(jìn)行篩選,將篩選結(jié)果擴(kuò)充到發(fā)音字典中。

2.1 代價(jià)函數(shù)的確定

導(dǎo)致學(xué)習(xí)到的新詞及其發(fā)音錯(cuò)誤的原因主要有2個(gè),一是識別錯(cuò)誤,即混合識別結(jié)果中存在識別錯(cuò)誤的子詞序列,二是恢復(fù)錯(cuò)誤,主要是在進(jìn)行集外詞恢復(fù)時(shí)導(dǎo)致的錯(cuò)誤。因此,代價(jià)函數(shù)應(yīng)包含對這2種錯(cuò)誤的評估。根據(jù)在進(jìn)行集外詞恢復(fù)時(shí)是否需要進(jìn)行P2G轉(zhuǎn)換,本文確定了2種類型的代價(jià)函數(shù),一種是基于感知器模型的代價(jià)函數(shù),一種是基于最大熵模型的代價(jià)函數(shù)。

2.1.1 針對音節(jié)混合系統(tǒng)的代價(jià)函數(shù) 基于音節(jié)的混合系統(tǒng),在進(jìn)行集外詞恢復(fù)時(shí)需要進(jìn)行P2G轉(zhuǎn)換。對于獲取的新詞及發(fā)音,借助感知器模型[11]的思想構(gòu)造代價(jià)函數(shù)。首先計(jì)算多種特征值的線性加權(quán)和,即

g(s)=αf(s)=α0+α1f1(s)+α2f2(s)+α3f3(s)

(1)

式中:s為解碼得到的音節(jié)序列;α=[α0,α1,α2,α3]為特征權(quán)重;f1(s)為該音節(jié)序列的聲學(xué)模型得分(置信度得分),是解碼得到的音節(jié)序列中各音節(jié)聲學(xué)模型得分的乘積,定義為

(2)

其中sAM(i)為第i個(gè)音節(jié)的聲學(xué)模型得分;f2(s)為語言模型得分,通過將詞表中的單詞表示成音節(jié),從而訓(xùn)練得到音節(jié)語言模型并計(jì)算音節(jié)序列的得分;f3(s)為P2G轉(zhuǎn)換得分,由P2G轉(zhuǎn)換工具得到。由于g(s)是線性的,采用Sigmoid函數(shù)進(jìn)一步將實(shí)數(shù)域上的g(s)映射為0到1,得到最終代價(jià)函數(shù)

(3)

對于權(quán)重αi,采用感知器算法進(jìn)行學(xué)習(xí),首先,對φ(s)求導(dǎo)

φ′(s)|g(s)=φ(s)(1-φ(s))

(4)

其次,令d(s)代表訓(xùn)練樣本的正確分類,定義為

(5)

最后,根據(jù)訓(xùn)練樣本對權(quán)值進(jìn)行迭代訓(xùn)練,迭代公式如下

α=α+ηφ′(s)(d(s)-φ(s))f(s)

(6)

式中:η為訓(xùn)練步長,本文選取固定的η為1。

2.1.2 針對字母音素對混合系統(tǒng)的代價(jià)函數(shù) 基于字母音素對的混合系統(tǒng),進(jìn)行集外詞恢復(fù)時(shí)不需要進(jìn)行P2G轉(zhuǎn)換,對此本文采用最大熵模型(Maximum Entropy,ME)[12]確定代價(jià)函數(shù)

(7)

(8)

式中:y為分類標(biāo)簽,結(jié)果屬于集合{RIGHT,WRONG};s為獲取的字母音素對序列;f(s,y)為特征函數(shù),是一個(gè)二值函數(shù);k為特征函數(shù)的個(gè)數(shù);λi為權(quán)重;Z(s)為歸一化因子。

在最大熵模型中,關(guān)鍵是要選取合適的特征,對于得到的新詞及發(fā)音,判定其正確與否的因素有該詞包含的字母音素對個(gè)數(shù)、字母音素對序列的聲學(xué)模型以及語言模型得分等。根據(jù)這些因素,建立特征模板,并根據(jù)訓(xùn)練集數(shù)據(jù)定義每個(gè)模板取值范圍,如表1所示,模板1~5是決定新詞是否正確的特征模板,模板6為一個(gè)特殊模板,表示判定結(jié)果。在表1定義的特征模板中,模板2用于判斷字母音素對序列中是否含有字母音素對語言模型的二元和三元條目,目的在于確定該字母音素對序列是否符合單詞的構(gòu)成規(guī)則。模板4和5的定義與2.1.1節(jié)中的定義相似,在獲取聲學(xué)模型得分與語言模型得分后,計(jì)算所有得分的均值μ和方差σ,

并由此確定閾值

T=μ+σ。

當(dāng)模板函數(shù)取特定值時(shí),該模板被實(shí)例化,得到具體特征。取1~5號中任一模板,確定模板取值,并結(jié)合當(dāng)前判定結(jié)果的值(即DEFAULT的值),就可以產(chǎn)生一個(gè)特征。定義特征格式為A-B=C,其中A為特征模板為對新詞判定時(shí)需要考慮的因素;B為該特征模板的取值;C為模板DEFAULT的取值,表示判定結(jié)果。

例如由模板1可以確定一個(gè)特征ENDTAG-#=RIGHT,表示為二值特征函數(shù)

(9)

該特征函數(shù)表示如果新詞對應(yīng)的子詞單元序列中最后一個(gè)子詞單元的結(jié)尾標(biāo)記為“#”,并且該新詞正確,則函數(shù)值為1,否則為0。確定特征集合后,通過訓(xùn)練數(shù)據(jù)(Dev93開發(fā)集)進(jìn)行參數(shù)估計(jì)。

2.2 語言模型參數(shù)的估計(jì)

加入字典中的新詞及發(fā)音,只有在語言模型中包含其相關(guān)的參數(shù),才能被識別系統(tǒng)正確識別。針對該問題,可以采用較大的語言模型訓(xùn)練語料,對語言模型進(jìn)行重新訓(xùn)練,但在缺少訓(xùn)練所需的語料時(shí),這些參數(shù)便無法通過最大似然估計(jì)有效獲取。為此,本文利用語法以及語義信息來實(shí)現(xiàn)這些參數(shù)的估計(jì),該方法的主要步驟如下。

步驟1 估計(jì)新詞的unigram參數(shù)。采用Stanford MaxEnt POS[13]對包含新詞的識別結(jié)果進(jìn)行詞性標(biāo)注,獲取新詞及其上下文單詞的詞性信息。假設(shè)wi為加入到字典中的新詞,li為其標(biāo)注(即詞性),則該詞的unigram得分可以表示為

(10)

式中:p(li)是標(biāo)注li的先驗(yàn)概率;p(wi|li)為從標(biāo)注為li的所有單詞中觀測到新詞wi的概率,采用下式進(jìn)行估計(jì)

(11) 表1 特征模板及取值范圍

其中N為訓(xùn)練集中標(biāo)記為li的集內(nèi)詞的個(gè)數(shù)。

步驟2 估計(jì)新詞的bigram以及trigram參數(shù)。參照步驟1,對2種參數(shù)的計(jì)算分別如式(12)和式(13)所示

(12)

(13)

式中:li-1和li-2分別為第i-1和第i-2個(gè)位置的單詞的標(biāo)注。

步驟3 借助WordNet[14]獲取更多的語言模型參數(shù)。采用詞性信息獲取的新詞語言模型參數(shù)數(shù)量較少,在真實(shí)條件下得到的新詞可能出現(xiàn)在不同語境中。對于得到的新詞,首先利用WordNet獲取與該詞具有相似語義的集內(nèi)詞(即同義集內(nèi)詞);然后獲得這些集內(nèi)詞的bigram以及trigram語言模型參數(shù),并將這些參數(shù)中的集內(nèi)詞用相應(yīng)的新詞進(jìn)行替換,從而得到更多的語言模型參數(shù)。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

選用華爾街日報(bào)(Wall Street Journal,WSJ)語料庫作為實(shí)驗(yàn)語料庫,其中聲學(xué)模型訓(xùn)練集由WSJ0和WSJ1中的37 416句話構(gòu)成,包含284個(gè)說話人,共約80 h。選用WSJ Dev93開發(fā)集,用于新詞優(yōu)化中代價(jià)函數(shù)參數(shù)的訓(xùn)練。選用WSJ Eval93和WSJ Eval92測試集,分別用于優(yōu)化過程中門限值的確定以及最終測試集。語言模型訓(xùn)練數(shù)據(jù)采用WSJ 87-89文本數(shù)據(jù),大小約215 MB。對上述文本進(jìn)行統(tǒng)計(jì)得到出現(xiàn)頻率最高的2×104個(gè)單詞,并通過CMUdict[15]獲取發(fā)音,構(gòu)造發(fā)音字典。表2給出了采用該發(fā)音字典時(shí)不同數(shù)據(jù)集中集外詞數(shù)量以及所占比例。

表2 各數(shù)據(jù)集中集外詞所占比例

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)主要基于開源工具包Kaldi搭建。聲學(xué)特征采用13維的MFCC參數(shù)及其一階、二階差分,總特征維數(shù)為39維,幀長為25 ms,幀移為10 ms。聲學(xué)模型采用最大似然估計(jì)(MLE)方法得到,為包含3個(gè)發(fā)射狀態(tài)的、自左向右無跨越的3音子HMM模型。采用基于決策樹的三音子狀態(tài)聚類,得到3 285個(gè)不同的上下文相關(guān)狀態(tài),模型中總的高斯混元數(shù)為2×104。所有的語言模型為3-gram語言模型。集外詞插入懲罰因子POOV設(shè)置為0到5.5,步長0.5。

3.3 評測指標(biāo)

集外詞檢測中常用的衡量指標(biāo)為虛警概率Pfa和漏檢概率Pmiss,定義為

%

(14)

式中:Nfa為虛警數(shù),即檢測集外詞中包含的集內(nèi)詞個(gè)數(shù);NIV-ref為參考文本中給定的集內(nèi)詞數(shù)量;Nmiss為漏檢數(shù),即未檢測出的集外詞個(gè)數(shù);NOOV-ref為參考文本中給定的集外詞個(gè)數(shù)。在虛警率和漏檢率的基礎(chǔ)上,可以通過檢測錯(cuò)誤折衷(detection error trade-off,DET)作為系統(tǒng)性能評價(jià)指標(biāo),曲線越靠近坐標(biāo)原點(diǎn)則系統(tǒng)性能越好。

學(xué)習(xí)到的新詞通過準(zhǔn)確率Pac和召回率Pre衡量,定義為

%

(15)

式中:Nright表示篩選結(jié)果中發(fā)音正確的新詞個(gè)數(shù);Nfiltered為篩選后總的新詞個(gè)數(shù);Nref為音頻數(shù)據(jù)中總的新詞個(gè)數(shù)。此外,本文也采用綜合這兩者的F值來衡量新詞學(xué)習(xí)性能

(16)

3.4 實(shí)驗(yàn)結(jié)果

本文建立了3套語音識別系統(tǒng)分別用于新詞學(xué)習(xí)以及發(fā)音字典擴(kuò)展前后識別性能的比較:①Base_20k系統(tǒng)為詞表大小為2×104的傳統(tǒng)語音識別系統(tǒng);②Hybrid_syllbale系統(tǒng)為采用音節(jié)作為子詞單元的混合語音識別系統(tǒng);③Hybrid_graphone系統(tǒng)為采用字母音素對作為子詞單元的混合語音識別系統(tǒng)。

圖4 2種系統(tǒng)的集外詞檢測性能

3.4.1 基于混合系統(tǒng)的集外詞識別 進(jìn)行集外詞檢測時(shí),根據(jù)處理后的混合識別結(jié)果,子詞單元出現(xiàn)的區(qū)域可以認(rèn)為是集外詞區(qū)域。圖4是通過設(shè)置不同的集外詞插入懲罰因子POOV對Eval92測試集得到的不同系統(tǒng)的集外詞檢測DET性能曲線。從圖中可以看出,音節(jié)混合系統(tǒng)以及字母音素對混合系統(tǒng)在集外詞檢測方面具有相近的性能,但是由于不同子詞單元具有不同的特性,從而使得輸出結(jié)果存在一定的互補(bǔ)性。

表3為POOV=1的情況下,2個(gè)混合系統(tǒng)的集外詞檢測與恢復(fù)比率(即正確檢測集外詞個(gè)數(shù)與正確恢復(fù)集外詞個(gè)數(shù)占參考中總集外詞數(shù)量的比例)。可以看出,雖然2個(gè)混合系統(tǒng)有超過一半的集外詞被正確檢測出,但是最終正確恢復(fù)得到的集外詞僅有30%左右,這說明即便識別音頻中的新詞被檢測到,但由于識別得到的子詞以及在恢復(fù)過程中都可能存在錯(cuò)誤,從而導(dǎo)致學(xué)習(xí)到的新詞以及發(fā)音的錯(cuò)誤。這些錯(cuò)誤加入到發(fā)音字典中,會降低字典的質(zhì)量,從而對識別性能造成影響。將2個(gè)系統(tǒng)的識別結(jié)果進(jìn)行融合,可以發(fā)現(xiàn)集外詞檢測以及恢復(fù)比率都有提升,從而使得學(xué)習(xí)到新詞的概率大大增加。

表3 不同系統(tǒng)的集外詞檢測與恢復(fù)比率

3.4.2 新詞及發(fā)音優(yōu)化 音節(jié)混合系統(tǒng)以及字母音素對混合系統(tǒng)采用不同的代價(jià)函數(shù)進(jìn)行新詞優(yōu)化,需要確定合理的門限值,以獲取最優(yōu)的系統(tǒng)性能。圖5是Eval93測試集在不同門限值下采用不同混合系統(tǒng)經(jīng)過篩選后的新詞及其發(fā)音的F值。

(a)音節(jié)混合系統(tǒng) (b)字母音素對混合系統(tǒng)圖5 不同門限值對新詞優(yōu)化的影響

由圖5可以看出,2個(gè)系統(tǒng)只有在選擇合理門限的情況下,才能獲得更好的篩選結(jié)果。如果門限值過低,則篩選后的結(jié)果中會存在較多的錯(cuò)誤集外詞及發(fā)音。門限值過高時(shí),雖然可以保證較高的準(zhǔn)確度,但是同樣會使一些正確的集外詞被過濾。根據(jù)圖中結(jié)果,本文對于音節(jié)混合系統(tǒng)采用門限值為0.6,對字母音素對混合系統(tǒng)采用門限值為0.5。表4是在上述門限下,對Eval92測試集獲取的新詞及其發(fā)音篩選前后的準(zhǔn)確率和召回率,其中,graphones NWs表示字母音素對混合系統(tǒng)得到的新詞及發(fā)音,syllable NWs表示音節(jié)混合系統(tǒng)得到的新詞及發(fā)音,same NWs為2個(gè)混合系統(tǒng)中相同的新詞及發(fā)音,all為對上述得到的3類新詞進(jìn)行融合。可以看出優(yōu)化后,新詞的準(zhǔn)確率獲得了較大的提升,2個(gè)混合系統(tǒng)中相同的新詞具有最高的準(zhǔn)確率86.96%。但是,通過篩選也會使部分正確的新詞及其發(fā)音被過濾掉,導(dǎo)致召回率下降。將3種篩選方式得到的結(jié)果合并到一起,可以看出準(zhǔn)確率要略微下降。其原因在于,3種篩選方式中可能存在不同錯(cuò)誤的新詞。但是,通過合并利用了不同系統(tǒng)間的互補(bǔ)性,召回率明顯提高,此時(shí)的召回率已與優(yōu)化前各單系統(tǒng)的召回率相當(dāng),但準(zhǔn)確率明顯高于各單系統(tǒng)。此外,擴(kuò)展后的發(fā)音字典可以通過人工篩選來進(jìn)一步提高準(zhǔn)確率。

在運(yùn)算量方面,2種混合系統(tǒng)均受數(shù)據(jù)量以及數(shù)據(jù)集中集外詞比例的影響。相比于音節(jié)混合系統(tǒng),字母音素對混合系統(tǒng)采用的代價(jià)函數(shù)更為復(fù)雜,且提取的特征數(shù)量較多,但是不需要進(jìn)行P2G轉(zhuǎn)換,從實(shí)驗(yàn)過程中的時(shí)間消耗來看,2個(gè)系統(tǒng)具有相近的運(yùn)算效率。

表4 優(yōu)化前后新詞及發(fā)音準(zhǔn)確率和召回率對比

3.4.3 擴(kuò)展發(fā)音字典及語言模型在連續(xù)語音識別中的應(yīng)用 為了驗(yàn)證本文方法的有效性,在Base_20k系統(tǒng)的基礎(chǔ)上,將學(xué)習(xí)到的新詞加入2×104字典中,分別采用WSJ語言模型訓(xùn)練語料以及2.2節(jié)中所述的語言模型參數(shù)更新方法對語言模型參數(shù)進(jìn)行更新,并與Eval92測試集的識別性能進(jìn)行對比。

圖6給出了對表4中4種不同方式得到的新詞采用3種語言模型參數(shù)更新方法的識別性能對比。其中,WSJ-corpus LM為采用WSJ語言模型訓(xùn)練語料重新訓(xùn)練的語言模型,Syntactic LM為僅采用語法信息更新參數(shù)后的語言模型,Syntactic+Semantic LM為采用語法語義信息更新參數(shù)后的語言模型。可以看出,采用擴(kuò)展后的字典,各系統(tǒng)的識別錯(cuò)誤率相比基線系統(tǒng)(Base_20k)都有較為明顯的下降,其中采用2個(gè)系統(tǒng)融合得到的優(yōu)化新詞(All),語言模型采用Syntactic+Semantic LM時(shí)的詞錯(cuò)誤率最低(7.55%),相對基線系統(tǒng)的8.72%的詞錯(cuò)誤率,降低約13.4%。采用WordNet加入語義信息更新語言模型參數(shù)后,系統(tǒng)的識別性能并沒有比單采用語法信息提高太多,這是因?yàn)殡m然利用語義信息獲得了更多的新詞語言模型參數(shù),但這些加入的bigram以及trigram參數(shù),并沒有出現(xiàn)在測試集中,但當(dāng)面對新的識別任務(wù)時(shí),加入字典的新詞就可能出現(xiàn)一些新的上下文情況,單靠語法信息獲得的語言模型參數(shù),是無法預(yù)測這些情況的。從圖中還可以看出,采用WSJ語言模型訓(xùn)練語料重新訓(xùn)練的語言模型,與2.2節(jié)的語言模型參數(shù)更新方法獲得了相近的識別性能,這也驗(yàn)證了本文語言模型參數(shù)更新方法的有效性。但是,重新訓(xùn)練的語言模型可以更好地應(yīng)對一些未知情況,因此采用語法語義信息進(jìn)行語言模型參數(shù)的更新更多的只用在缺少語言模型訓(xùn)練語料時(shí)。

圖6 3種語言模型參數(shù)更新方法對系統(tǒng)性能的影響

4 結(jié) 論

本文提出了一種針對音頻數(shù)據(jù)的字典新詞學(xué)習(xí)方法,可以作為現(xiàn)有的利用文本數(shù)據(jù)進(jìn)行字典新詞學(xué)習(xí)的補(bǔ)充。該方法利用多套混合語音識別系統(tǒng)進(jìn)行新詞學(xué)習(xí),并通過一定的數(shù)據(jù)優(yōu)化策略來提高新詞的發(fā)現(xiàn)率以及準(zhǔn)確率。同時(shí),針對語言模型,采用語法語義信息完成對新詞語言模型參數(shù)的更新。相關(guān)實(shí)驗(yàn)結(jié)果表明,本文方法能有效發(fā)現(xiàn)音頻數(shù)據(jù)中的新詞,選取的數(shù)據(jù)優(yōu)化策略極大地提高了加入字典中的新詞及發(fā)音的精度。

[1] DAVEL M, MARTIROSIAN O. Pronunciation diction-nary development in resource-scarce environments [C]∥Proceedings of International Speech Communication Association. Grenoble, France: ISCA, 2009: 2851-2854.

[2] BISANI M, NEY H. Joint-sequence models for grapheme-to-phoneme conversion [J]. Speech Communication, 2008, 50(5): 434-451.

[3] RAO K, PENG F, SAK H, et al. Grapheme-to-phoneme conversion using long short-term memory recurrent neural networks [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2015: 4225-4229.

[4] TIM S, OCHS S, TANJA S. Web-based tools and methods for rapid pronunciation dictionary creation [J]. Speech Communication, 2014, 56(1): 101-118.

[5] BERT R, KRIS D, MARTENS J. An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition [J]. Computer Speech and Language, 2014, 28(1): 141-162.

[6] 鄭鐵然, 韓紀(jì)慶, 李海洋. 基于詞片的語言模型及在漢語語音檢索中的應(yīng)用 [J]. 通信學(xué)報(bào), 2009, 30(3): 84-88. ZHENG Tieran, HAN Jiqing, LI Haiyang. Study on performance optimization for Chinese speech retrieval [J]. Journal on Communications, 2009, 30(3): 84-88.

[7] HE Y Z, BRIAN H, PRTER B. Subword-based modeling for handling OOV words in keyword spotting [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2014: 7914-7918.

[8] QIN L, RUDNICKY A I. OOV word detection using hybrid models with mixed types of fragments [C]∥Proceedings of International Speech Communication Association. Grenoble, France: ISCA, 2012: 2450-2453.

[9] BASHA S, AMR M, HAHN S. Improved strategies for a zero OOV rate LVCSR system [C]∥Proceedings of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ, USA: IEEE, 2015: 5048-5052.

[10]BLACK A W, TAYLOR P, CALEY R. The festival speech synthesis system [EB/OL]. (2002-12-27)[2016-01-04]. http: ∥www.festvox.org/docs/manual-1.4.3/.

[11]韓冰, 劉一佳, 車萬翔. 基于感知器的中文分詞增量訓(xùn)練方法研究 [J]. 中文信息學(xué)報(bào), 2015, 29(5): 49-54. HAN Bing, LIU Yijia, CHE Wanxiang. An incremental learning scheme for perceptron based Chinese segmentation [J]. Journal of Chinese Information, 2015, 29(5): 49-54.

[12]李素建, 王厚峰, 俞士汶. 關(guān)鍵詞自動標(biāo)引的最大熵模型應(yīng)用研究 [J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(9): 1192-1197.

LI Sujian, WANG Houfeng, YU Shiwen. Research on maximum entropy model for keyword indexing [J]. Chinese Journal of Computers, 2004, 27(9): 1192-1197.

[13]KLEIN D, MANNING C. Feature-rich part-of-speech tagging with a cyclic dependency network [C]∥Proceedings of Human Language Technology and North American Chapter of the Association for Computational Linguistics. Cambridge, MA, USA: ACL, 2003: 252-259.

[14]MILLER G. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.

[15]Carnegie Mellon University. The CMU pronunciation dictionary [EB/OL]. (2007-03-19)[2016-01-04]. http: ∥www.speech.cs.cmu.edu/cgi-bin/cmudict.

(編輯 劉楊)

Learning New Words for Pronunciation Lexicon from Audio Data

FAN Zhengguang,QU Dan,YAN Honggang,ZHANG Wenlin

(Institute of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002, China)

A self-learning method of new pronunciation lexicons based on a hybrid speech recognition system is proposed to solve the problem that the existing self-expanding methods of pronunciation lexicons can only learn new words from text data but cannot learn from audio data. The method utilizes both the syllables and the graphones hybrid systems to recognize the out-of-vocabulary words in the audio data and then obtains as many new words with their pronunciations as possible by using the complementary information of the two systems. Then the new word and its pronunciation candidates are optimized using a perceptron model and a maximum entropy model to reduce the error rate. Finally, the lexicon is expanded and the language model parameters are updated by using syntactic and semantic information. Experimental results of continuous speech recognition on Wall Street Journal speech database show that the proposed method learns new words from audio data effectively, and the accuracy is greatly improved by using the data optimization strategies. The extended lexicon system yields a relative gain of 13.4% over the base line system in terms of word error rates.

speech recognition; pronunciation lexicon; new words learning; out-of-vocabulary words

2016-01-16。 作者簡介:范正光(1990—),男,碩士生;屈丹(通信作者),女,博士,副教授。 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61175017,61403415,61302107)。

時(shí)間:2016-04-03

10.7652/xjtuxb201606012

TN912.3

A

0253-987X(2016)06-0075-08

網(wǎng)絡(luò)出版地址:http:∥www.cnki.net/kcms/detail/61.1069.T.20160403.1846.010.html

猜你喜歡
語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補(bǔ)正之道
累積動態(tài)分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
我有我語言
主站蜘蛛池模板: 99久久精品免费看国产免费软件| 国产精品免费福利久久播放| 在线欧美a| 日韩视频免费| 国产精品亚洲欧美日韩久久| 91欧美亚洲国产五月天| 丁香亚洲综合五月天婷婷| 日韩色图区| 综合天天色| 国产SUV精品一区二区6| 国产一区二区精品福利| 激情视频综合网| 欧美人与牲动交a欧美精品 | 99视频国产精品| 国产婬乱a一级毛片多女| 国产成人精品无码一区二| 色综合天天综合| 亚洲美女操| 在线国产毛片| 国产在线观看人成激情视频| a毛片在线播放| 欧美日韩国产在线观看一区二区三区| 色噜噜综合网| 亚洲人成网7777777国产| 国产a v无码专区亚洲av| 精品丝袜美腿国产一区| 亚洲人成人无码www| 中文字幕在线视频免费| 日本人妻一区二区三区不卡影院| 欧美亚洲综合免费精品高清在线观看 | 亚洲av无码人妻| 欧美成人a∨视频免费观看| 日本在线亚洲| 99视频只有精品| 91精品免费久久久| 99re在线免费视频| 国产精品尹人在线观看| 又黄又湿又爽的视频| 久久这里只有精品66| 欧美一道本| 91小视频在线观看| 第九色区aⅴ天堂久久香| 色香蕉影院| 亚洲欧美综合精品久久成人网| 99精品福利视频| 五月丁香在线视频| 国产网友愉拍精品视频| 国产毛片不卡| 亚洲妓女综合网995久久| 亚洲午夜片| 播五月综合| 亚洲无线观看| 亚洲精品国产精品乱码不卞| 成人免费午间影院在线观看| 成人精品免费视频| 亚洲综合片| 婷婷99视频精品全部在线观看| 欧美黑人欧美精品刺激| 国产激情第一页| 91精品在线视频观看| 亚洲婷婷在线视频| 亚洲天堂区| 亚洲精品欧美重口| 久久综合九色综合97网| 一区二区三区四区精品视频 | 视频一区视频二区日韩专区 | 国模视频一区二区| 国产麻豆精品久久一二三| 91福利免费视频| 色妞www精品视频一级下载| 台湾AV国片精品女同性| 亚洲精品福利视频| 日本国产精品| 亚洲大尺码专区影院| 丝袜高跟美脚国产1区| 一级在线毛片| 亚洲一级毛片在线观播放| 青青青国产视频| 强奷白丝美女在线观看| 激情综合图区| 婷婷午夜影院| 2020国产精品视频|