999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

正則化分段區(qū)分性特征變換方法

2016-05-05 03:32:16張連海李弼程

陳 斌,張連海,屈 丹,李弼程

(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001)

?

正則化分段區(qū)分性特征變換方法

陳 斌,張連海,屈 丹,李弼程

(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001)

摘要:針對(duì)基于分幀特征變換穩(wěn)定性不夠的問題,提出了一種分段的區(qū)分性特征變換方法,并采用正則化方法確定出每一語音段的特征變換矩陣.該方法將特征變換視為數(shù)據(jù)受限條件下的參數(shù)選擇問題,在訓(xùn)練階段,采用狀態(tài)綁定的方式訓(xùn)練得到區(qū)域相關(guān)線性變換特征變換矩陣,將所有的變換矩陣構(gòu)成一個(gè)過完備字典;在測(cè)試階段,采用強(qiáng)制對(duì)齊的方式對(duì)語音進(jìn)行分段,在似然度目標(biāo)函數(shù)中加入正則項(xiàng),利用快速迭代收斂閾值算法進(jìn)行求解,在求解過程中從字典里確定出最佳的特征變換矩陣子集及其組合系數(shù).實(shí)驗(yàn)結(jié)果表明,結(jié)合L1和L2正則化,相比于狀態(tài)綁定的區(qū)域相關(guān)線性變換方法,當(dāng)聲學(xué)模型采用最大似然準(zhǔn)則訓(xùn)練時(shí),識(shí)別率可以提高1.30%;模型區(qū)分性訓(xùn)練后,識(shí)別性能提升了1.66%.

關(guān)鍵詞:特征變換;語音識(shí)別;域劃分;正則化;區(qū)分性訓(xùn)練

現(xiàn)有的識(shí)別系統(tǒng)中常對(duì)語音識(shí)別特征進(jìn)行特征變換[1],以得到具有魯棒性和區(qū)分性的特征.鑒于聲學(xué)模型區(qū)分性訓(xùn)練的優(yōu)越性能,學(xué)者將其應(yīng)用于特征變換空間中,并同樣取得了較好的性能.其中采用高斯混合模型(Gaussian Mixture Model,GMM)進(jìn)行聲學(xué)空間劃分的最小音素錯(cuò)誤率特征變換[2](feature Minimum Phone Error,f MPE)和區(qū)域相關(guān)線性變換(Region Dependent Linear Transform,RDLT)[3-4]是兩種應(yīng)用較為廣泛的方法.在此基礎(chǔ)上,又陸續(xù)提出了結(jié)合高斯混元參數(shù)信息的(Mean-Offset)m-f MPE[5]方法和考慮上下文相關(guān)性的(Context)RDLT[6]方法.深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)[7-8]較為明顯地提升了語音識(shí)別性能,不同于傳統(tǒng)的GMM-HMM識(shí)別系統(tǒng),其對(duì)獨(dú)立的狀態(tài)進(jìn)行訓(xùn)練.基于此,文獻(xiàn)[9]提出了狀態(tài)綁定的(Tied-State)RDLT方法.

上述現(xiàn)有的區(qū)分性特征變換方法,在訓(xùn)練階段,均是基于一段信號(hào)進(jìn)行統(tǒng)計(jì)量的計(jì)算和變換矩陣的求取.但在測(cè)試階段,僅利用一幀信號(hào),根據(jù)其后驗(yàn)概率進(jìn)行特征變換和補(bǔ)償,這會(huì)造成兩者出現(xiàn)一定程度的不匹配現(xiàn)象.另外,由于語音信號(hào)具有短時(shí)平穩(wěn)性,僅利用1幀信號(hào)較難得到穩(wěn)定的參數(shù)信息.為有效解決該不匹配問題,在測(cè)試階段,文中同樣基于一段信號(hào)進(jìn)行特征變換,即根據(jù)一段信號(hào)的統(tǒng)計(jì)量信息,在訓(xùn)練得到的變換矩陣集合中,自動(dòng)選擇特征變換矩陣.在這個(gè)過程中變換矩陣個(gè)數(shù)的選取是關(guān)鍵,當(dāng)選擇的變換矩陣較少時(shí),將不能得到精確的變換參數(shù);而當(dāng)選擇的變換矩陣過多時(shí),會(huì)造成過訓(xùn)練.由于一次求解過程所擁有的數(shù)據(jù)量較小,可視為一個(gè)數(shù)據(jù)受限條件下的參數(shù)選擇問題.

壓縮感知和稀疏信號(hào)重建技術(shù)為解決這類問題提供了理論支持,其中最小絕對(duì)收縮和選擇算子(Least Absolute Shrinkage and Selection Operator,LASSO)L1和L2等正則化方法,能夠較好地進(jìn)行參數(shù)的選擇[10].目前,正則化方法已被成功應(yīng)用于語音識(shí)別領(lǐng)域,如文獻(xiàn)[11]采用L1約束對(duì)帶噪語音進(jìn)行稀疏表示,通過在后端選取可靠分量進(jìn)行稀疏補(bǔ)償,提高了語音識(shí)別的性能.文獻(xiàn)[12]在區(qū)分性訓(xùn)練求解模型精度矩陣過程中,引入L1約束,較好地解決了當(dāng)訓(xùn)練數(shù)據(jù)不足而出現(xiàn)的過擬合問題.在子空間GMM[13]和基于深層神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模過程[14]中,通過引入L1和L2約束,減少了模型中非零參數(shù),顯著降低了模型復(fù)雜度.

筆者將正則化方法引入到區(qū)分性特征變換中,在對(duì)語音信號(hào)分段的基礎(chǔ)上,基于每一語音信號(hào)段求解其特征變換矩陣.該方法采用狀態(tài)綁定的方式訓(xùn)練得到變換矩陣,將訓(xùn)練得到的特征變換矩陣當(dāng)成字典項(xiàng),在特征域進(jìn)行特征變換相關(guān)參數(shù)的稀疏表示.由于目標(biāo)函數(shù)連續(xù)可微,利用快速迭代收斂閾值算法優(yōu)化目標(biāo)函數(shù),自動(dòng)確定最優(yōu)的特征變換矩陣及其系數(shù).文中給出了在區(qū)分性特征變換中加入正則項(xiàng)的一般框架,并分別討論了L1、L2及兩者相結(jié)合的正則化方法,最后,實(shí)驗(yàn)驗(yàn)證了文中方法的有效性.

1 基于語音分段的區(qū)分性特征變換

1.1 基于狀態(tài)綁定的RDLT特征變換矩陣

RDLT利用全局的GMM模型將聲學(xué)空間分成多個(gè)域,通過區(qū)分性訓(xùn)練得到一個(gè)變換矩陣集合,每個(gè)變換矩陣對(duì)應(yīng)特征空間中的一個(gè)域.用特征向量所屬域?qū)?yīng)的變換矩陣對(duì)其進(jìn)行變換,最終變換后的特征表示形式為

其中,o(t)為時(shí)刻t的輸入特征;Ai為第i個(gè)域?qū)?yīng)的變換矩陣;κ(i)t為o(t)屬于第i個(gè)域的概率,可用GMM混元后驗(yàn)概率表示.通常,RDLT方法中變換矩陣Ai基于詞圖信息,根據(jù)MPE準(zhǔn)則更新,聲學(xué)模型參數(shù)則通過最大似然準(zhǔn)則(Maximum Likelihood,ML)更新.這里采用狀態(tài)綁定的方式求解Ai.

1.2 基于語音分段區(qū)分性特征變換的一般形式

不同于傳統(tǒng)方法中先經(jīng)驗(yàn)地設(shè)定所需變換矩陣的個(gè)數(shù),再根據(jù)每一語音幀后驗(yàn)概率值的大小進(jìn)行選擇和加權(quán),這里對(duì)每一語音段根據(jù)其聲學(xué)統(tǒng)計(jì)量信息,利用最大似然準(zhǔn)則,采用一種可變變換矩陣個(gè)數(shù)的方式,得到區(qū)分性特征變換的一般表達(dá)式.

設(shè)經(jīng)過域劃分后總共有R個(gè)域,其每一個(gè)域?qū)?yīng)的變換矩陣為Ai,語音信號(hào)被分成S段,其中,第s個(gè)語音段的特征變換可描述為

其中,xsi為所選擇的特征變換矩陣Ai對(duì)應(yīng)的權(quán)重系數(shù),下文中,均在語音段s內(nèi)求解相關(guān)參數(shù),為敘述的方便,將上標(biāo)s略去.為提高特征變換后的識(shí)別性能,依據(jù)最大似然準(zhǔn)則,要使得變換后特征的似然度最大,其目標(biāo)函數(shù)為

其中,T表示語音段s中含有的總幀數(shù);聲學(xué)模型采用隱馬爾可夫模型,共含有M個(gè)高斯混元;μm和Σm分別為第m個(gè)混元的均值矢量及協(xié)方差矩陣;γm(t)表示第t幀特征屬于第m個(gè)高斯混元的后驗(yàn)概率.

由式(4)可知,基于分段的區(qū)分性特征變換是一個(gè)典型的二次優(yōu)化問題.其求解方法為:對(duì)式(4)關(guān)于x求導(dǎo),并令導(dǎo)數(shù)等于0,其中,C是與變量x無關(guān)的常數(shù)項(xiàng),可得基于語音分段區(qū)分性特征變換求解的一般表達(dá)式為

2 基于正則化的區(qū)分性特征變換目標(biāo)函數(shù)

在特征變換過程中,變換矩陣個(gè)數(shù)的選取是難點(diǎn),需根據(jù)數(shù)據(jù)量的多少進(jìn)行確定.當(dāng)數(shù)據(jù)量較小時(shí),應(yīng)選取較少的變換矩陣,以減少所需估計(jì)的參數(shù)量,防止過訓(xùn)練;而當(dāng)數(shù)據(jù)量較為充足時(shí),應(yīng)選取較多的變換矩陣,從而得到更為精確的變換矩陣.但在一次變換過程中,所擁有的數(shù)據(jù)量有限,得到的方程數(shù)常會(huì)小于自變量的個(gè)數(shù).文中特征變換是一個(gè)欠定問題.

近年來,壓縮感知技術(shù)已被廣泛應(yīng)用于信號(hào)處理和機(jī)器學(xué)習(xí)中,其中正則化方法可有效在大字典中選取少量的字典項(xiàng),再采用線性組合的方式稀疏恢復(fù)原始信號(hào).在文中特征變換過程中,所有特征變換矩陣組成了一個(gè)大的字典,可刻畫較多的特征變換形式.而針對(duì)每一段語音,只需要從這個(gè)大字典中選取較少的字典項(xiàng)進(jìn)行特征變換,可視為一個(gè)稀疏逼近的問題,因此,可采用正則化方法進(jìn)行變換矩陣的選取.與常采用逼近誤差目標(biāo)函數(shù)不同,這里采用似然度作為目標(biāo)函數(shù),似然度的變化率作為誤差項(xiàng).

根據(jù)上述分析,在式(4)的基礎(chǔ)上引入正則項(xiàng),求解時(shí)不考慮常數(shù)項(xiàng)C.此時(shí),目標(biāo)函數(shù)轉(zhuǎn)換為

同時(shí)引入L1和L2,也稱為彈性網(wǎng)正則化,此時(shí),有

3 正則化區(qū)分性特征變換的目標(biāo)函數(shù)求解

加入正則項(xiàng)后,可采用多種方法求解目標(biāo)函數(shù).由于目標(biāo)函數(shù)是二次型,滿足Lipschitz連續(xù)可微的條件,這里采用具有二次收斂速度的快速迭代收斂閾值算法(Fast Iterative Shrinkage Thresholding Algorithm,FISTA)[15]進(jìn)行目標(biāo)函數(shù)的求解.進(jìn)一步將目標(biāo)函數(shù)式(6)轉(zhuǎn)換為

根據(jù)快速迭代收斂閾值算法,可得到目標(biāo)函數(shù)的求解流程:

(1)設(shè)定初始值:y1=x0∈Rn,t1=1,k=1,η=10-5.

第(3)步判斷相鄰兩次迭代的似然度Q(x)相對(duì)變化量是否小于η,如果“是”,則停止迭代;否則,則繼續(xù)迭代.

4 測(cè)試評(píng)估

4.1 實(shí)驗(yàn)設(shè)置

將文中正則化區(qū)分性特征變換方法應(yīng)用到連續(xù)語音識(shí)別中.實(shí)驗(yàn)語料采用中文微軟語料庫Speech Corpora(Version 1.0),其全部語料在安靜辦公室環(huán)境下錄制,采樣率為16 000 Hz,16 bit量化.訓(xùn)練集共有19 688句,共454 315個(gè)音節(jié),測(cè)試集共500句.選擇聲韻母作為模型基元,零聲母(_a、_o、_e、_i、_u、_v),加上靜音(sil)以及常規(guī)的聲韻母,一共有69個(gè)模型基元,在此基礎(chǔ)上將模型基元擴(kuò)展為上下文相關(guān)的交叉詞三音子.基于HTK 3.4建立基線系統(tǒng),聲學(xué)模型采用三狀態(tài)的HMM模型,通過決策樹對(duì)三音子模型進(jìn)行狀態(tài)綁定,綁定后的模型有效狀態(tài)數(shù)為2 843個(gè).采用準(zhǔn)確率作為實(shí)驗(yàn)結(jié)果的評(píng)估標(biāo)準(zhǔn).

4.2 實(shí)驗(yàn)結(jié)果

這里采用13維的MFCC特征,聯(lián)合當(dāng)前幀及其前后各4幀共9幀,并采用MLLT+LDA作為初始的變換矩陣,進(jìn)行最大似然聲學(xué)模型的建立.特征變換中全局GMM模型是由聲學(xué)模型狀態(tài)中的高斯聚類得到,最終共有800個(gè)高斯.在此基礎(chǔ)上,分別得到了基于詞圖信息和基于狀態(tài)綁定的f MPE、m-f MPE、RDLT特征變換方法的識(shí)別性能,并進(jìn)一步討論了當(dāng)聲學(xué)模型分別采用最大似然和增進(jìn)的最大互信息(Boosted Maximum Mutual Information,BMMI)準(zhǔn)則區(qū)分性訓(xùn)練時(shí),各種特征變換方法的識(shí)別率,具體識(shí)別結(jié)果如表1所示.

表1 不同特征變換方法的識(shí)別性能

由表1的識(shí)別結(jié)果可知,區(qū)分性特征變換方法的識(shí)別性能均較為明顯地優(yōu)于線性判別分析方法.mf MPE和RDLT采用狀態(tài)綁定的方式得到的識(shí)別結(jié)果會(huì)優(yōu)于采用詞圖信息的方式,而f MPE方法采用這兩種方式識(shí)別的結(jié)果相當(dāng).為保證f MPE的性能,其所需的高斯混元數(shù)為12 000個(gè),這主要是因?yàn)槠涿恳粋€(gè)域中所含有的參數(shù)和信息量較小,需要增大域的個(gè)數(shù)以保證信息量.由于它利用前后相關(guān)的后驗(yàn)概率信息進(jìn)行特征變換,采用狀態(tài)綁定的方式,會(huì)在一定程度上影響這種前后相關(guān)性的獲取.在特征變換的基礎(chǔ)上,對(duì)聲學(xué)模型區(qū)分性訓(xùn)練后,識(shí)別性能得到進(jìn)一步的提升,且基于狀態(tài)綁定的特征變換方法其優(yōu)勢(shì)更為明顯.

由上述的實(shí)驗(yàn)結(jié)果可知,基于狀態(tài)綁定的RDLT能得到更好的識(shí)別結(jié)果,接下來將RDLT得到的變換矩陣構(gòu)造一個(gè)字典,字典中共有800個(gè)字典項(xiàng),采用正則化方法選取字典項(xiàng),進(jìn)行分段特征變換.在這個(gè)過程中,正則化參數(shù)λ1、λ2以及語音信號(hào)的分段時(shí)長(zhǎng)對(duì)識(shí)別結(jié)果具有較大的影響,因此,分別討論了上述參數(shù)在不同設(shè)置條件下的識(shí)別性能,識(shí)別結(jié)果如表2所示,括號(hào)內(nèi)為稀疏度,其度量方式為零系數(shù)占所有系數(shù)的比例.

表2 不同正則化參數(shù)、分段時(shí)長(zhǎng)的識(shí)別性能及其稀疏度

由表2的識(shí)別結(jié)果可知,基于分段的方法在引入正則項(xiàng)之后,識(shí)別性能都獲得不同程度的提升.當(dāng)對(duì)目標(biāo)函數(shù)僅加入一個(gè)正則項(xiàng)時(shí),L1正則化(λ1=5)的識(shí)別結(jié)果會(huì)優(yōu)于L2正則化(λ2=20)的識(shí)別結(jié)果.加入L1正則化之后,當(dāng)數(shù)據(jù)分段較小時(shí),稀疏度較大;在相同的λ1值下,隨著數(shù)據(jù)量的增大,所選擇的特征變換矩陣也會(huì)增多;在相同的數(shù)據(jù)分段長(zhǎng)度下,λ1值越大,稀疏度越大,所選擇的變換矩陣越少.這也說明了L1約束具有參數(shù)選擇功能,能夠根據(jù)數(shù)據(jù)量的大小自適應(yīng)地確定參數(shù)的數(shù)量.在相同的語音分段方式下,λ2值越大,識(shí)別性能越高.L2約束會(huì)給每一個(gè)變換矩陣分配權(quán)重,因此,文中沒有計(jì)算其稀疏度.但所分配的權(quán)重系數(shù)中絕大部分接近于零,其可根據(jù)統(tǒng)計(jì)量信息進(jìn)行權(quán)重的分配,有效防止某幾個(gè)分量出現(xiàn)過大的值,來提高參數(shù)估計(jì)的穩(wěn)健性.對(duì)目標(biāo)函數(shù)同時(shí)加入L1和L2正則項(xiàng),當(dāng)λ1=5,λ2=10時(shí),能得到最大的識(shí)別性能提升.

同時(shí)由表2中的識(shí)別結(jié)果可知,對(duì)語音采用不同的分段方式,其識(shí)別結(jié)果會(huì)有較大的差異.在對(duì)語音采用固定長(zhǎng)度的分段方法中,將語音分成2 s一段的方式,能得到最優(yōu)的識(shí)別結(jié)果.這主要是采用這一長(zhǎng)度,能得到相對(duì)穩(wěn)定的統(tǒng)計(jì)特性,得到的參數(shù)信息較為準(zhǔn)確.隨著分段長(zhǎng)度的增大,識(shí)別性能反而會(huì)開始下降.這主要是因?yàn)楫?dāng)數(shù)據(jù)分段過大時(shí),段內(nèi)的聲學(xué)性質(zhì)會(huì)有較大的差異,即使是數(shù)據(jù)較為充分,也難以獲得最好的參數(shù)估計(jì),來同時(shí)描述差異性較大的語音信號(hào)段.采用強(qiáng)制對(duì)齊的分段方法,能得到最高的識(shí)別性能,這主要是因?yàn)閷?duì)齊到相同狀態(tài)的數(shù)據(jù)具有相類似的聲學(xué)特性,利用這些數(shù)據(jù)能估計(jì)得到穩(wěn)健的參數(shù)信息.另外,通過利用正則化方法,可根據(jù)語音段的聲學(xué)性質(zhì)和所擁有的數(shù)據(jù)量自適應(yīng)地確定變換矩陣的數(shù)量,有效避免基于幀特征變換方法中要經(jīng)驗(yàn)設(shè)定所需變換矩陣的個(gè)數(shù).

表3 聲學(xué)模型區(qū)分性訓(xùn)練的識(shí)別性能

在設(shè)置正則化參數(shù)λ1=5,λ2=10的條件下,分別采用固定長(zhǎng)度2 s和強(qiáng)制對(duì)齊的方式對(duì)語音信號(hào)分段,并進(jìn)行特征變換,在此基礎(chǔ)上進(jìn)一步對(duì)聲學(xué)模型區(qū)分性訓(xùn)練,識(shí)別結(jié)果如表3所示.

由表3的識(shí)別結(jié)果可知,經(jīng)過聲學(xué)模型區(qū)分性訓(xùn)練后識(shí)別性能有較大程度的提升.這說明在語音分段的基礎(chǔ)上進(jìn)行特征變換,可有效克服聲學(xué)模型對(duì)特征變換的影響,在特征變換求解優(yōu)化過程中側(cè)重于尋找區(qū)分性的特征.經(jīng)過區(qū)分性訓(xùn)練后,采用強(qiáng)制對(duì)齊的分段方式其識(shí)別率提升幅度更大.

5 結(jié)束語

提出了一種基于語音分段的特征變換方法,并將壓縮感知中的正則化方法引入到區(qū)分性特征變換中.通過采用狀態(tài)綁定的方式訓(xùn)練得到特征變換矩陣,利用變換矩陣構(gòu)造字典.針對(duì)某一語音段,為有效確定其最優(yōu)的特征變換矩陣及加權(quán)系數(shù),在特征變換的似然度目標(biāo)函數(shù)中加入了正則化約束項(xiàng),采用快速迭代收斂閾值算法對(duì)目標(biāo)函數(shù)進(jìn)行求解.實(shí)驗(yàn)結(jié)果表明,引入L1、L2正則項(xiàng)以及兩者相結(jié)合的彈性網(wǎng)正則項(xiàng),均能夠提高語音識(shí)別性能.采用強(qiáng)制對(duì)齊的方式進(jìn)行語音信號(hào)分段,可得到最好的識(shí)別性能,聲學(xué)模型區(qū)分性訓(xùn)練后進(jìn)一步提升了識(shí)別率.后續(xù)的研究可在目標(biāo)函數(shù)中引入其他形式的正則化約束項(xiàng).

參考文獻(xiàn):

[1]NASERSHARIF B,AKBARI A.SNR-dependent Compression of Enhanced Mel Subband Energies for Compensation of Noise Effects on MFCC Features[J].Pattern Recognition Letters,2011,28(11):1320-1326.

[2]POVEY D,KINGSBURY B,MANGU L,et al.f MPE:Discriminatively Trained Features for Speech Recognition[C]// Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2005: 961-964.

[3]ZHANG B,MATSOUKAS S,SCHWARTZ R.Recent Progress on the Discriminative Region-dependent Transform for Speech Feature Extraction[C]//Proceedings of the 9th International Conference on Spoken Language Processing.Baixas: ISCA,2006:1495-1498.

[4]FUKUDA T,ICHIKAWA O,NISHIMURA M,et al.Regularized Feature-space Discriminative Adaptation for Robust ASR[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2014:2185-2188.

[5]POVEY D.Improvements to f MPE for Discriminative Training of Features[C]//Proceedings of the Annual Conference of the International Speech Communication Association.Baixas:ISCA,2005:2977-2980.

[6]KARAFIAT M,JANDA M,CERNOCKY J,et al.Region Dependent Linear Transforms in Multilingual Speech Recognition[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2012:4885-4888.

[7]DENG L,CHEN J S.Sequence Classification Using the High-Level Features Extracted from Deep Neural Networks [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014:6844-6898.

[8]LIU D Y,WEI S,GUO W,et al.Lattice Based Optimization of Bottleneck Feature Extractor with Linear Transformation [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 5617-5621.

[9]YAN Z J,HUO Q,XU J,et al.Tied-state Based Discriminative Training of Context-expanded Region-dependent Feature Transforms for LVCSR[C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2013:6940-6944.

[10]ZIBULEVSKY M.L1-L2Optimization in Signal and Image Processing[J].IEEE Signal Processing Magazine,2010,27(3):76-88.

[11]EMRE Y,JORT F G,HUGO V H.Noise Robust Exemplar Matching Using Sparse Representations of Speech[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(8):1306-1319.

[12]ZHANG W B,FUNG P.Discriminatively Trained Sparse Inverse Covariance Matrices for Speech Recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(5):873-882.

[13]LU L,GHOSHAL A,RENALS S.Regularized Subspace Gaussian Mixture Models for Speech Recognition[J].IEEE Signal Processing Letters,2011,18(7):419-422.

[14]YU Z,EKAPOL C,JAMES G.Extracting Deep Neural Network Bottleneck Features Using Low-rank Matrix Factorization [C]//Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE,2014: 185-189.

[15]BECK A,TEBOULLE M.A Fast Iterative Shrinkage-thresholding Algorithm for Linear Inverse Problems[J].SIAM Journal on Imaging Sciences,2009,2(1):183-202.

(編輯:齊淑娟)

Regularized discriminative segmental feature transform method

CHEN Bin,ZHANG Lianhai,QU Dan,LI Bicheng
(Institute of Information System Engineering,PLA Information Engineering Univ.,Zhengzhou 450001,China)

Abstract:In order to improve the stability of the frame based feature transform method,a segment based discriminative feature transform method is proposed,and the feature transform matrix of each speech segment is determined using the regularization technique.In the novel method,the feature transform is viewed as a parameter selection problem with limited data.In the training stage,an over-complete dictionary is constructed by the feature transform matrices of tied-state based region dependent linear transform.During testing,after the speech signal is segmented through force alignment,an appropriate regularization term is added to the likelihood objective function.An optimal subset of the transform matrices is selected from the dictionary and their corresponding coefficients are estimated following the fast iterative shrinkage thresholding optimization algorithm.Experimental results show that compared with the tied-state RDLT method,after combining L1and L2regularization,the recognition rate is increased by 1.30% using the maximum likelihood training criterion.The performance gain is increased to 1.66%after discriminative training.

Key Words:feature transform;speech recognition;region dependent;regularization;discriminative training

作者簡(jiǎn)介:陳 斌(1987-),男,解放軍信息工程大學(xué)博士研究生,E-mail:chenbin873335@163.com.

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61175017,61403415);國(guó)家863計(jì)劃資助項(xiàng)目(2012AA011603)

收稿日期:2014-12-04 網(wǎng)絡(luò)出版時(shí)間:2015-05-21

doi:10.3969/j.issn.1001-2400.2016.02.018

中圖分類號(hào):TN912.3

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1001-2400(2016)02-0102-06

網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20150521.0902.015.html

主站蜘蛛池模板: 日本免费精品| 伊人无码视屏| 综合亚洲色图| 国产h视频在线观看视频| 97综合久久| 国产亚洲欧美在线人成aaaa| 国产91丝袜| 永久免费av网站可以直接看的| 国产视频欧美| 国产在线视频自拍| 精品国产自在现线看久久| 国产日韩精品欧美一区喷| 亚洲成a人片在线观看88| 国产成人综合亚洲网址| 精品無碼一區在線觀看 | 国产精品99久久久久久董美香| 97狠狠操| 色悠久久久| 四虎AV麻豆| 精品一區二區久久久久久久網站| 国产日韩精品欧美一区灰| 亚洲最新地址| 国产精品一区二区久久精品无码| 国产日韩欧美一区二区三区在线 | 免费国产小视频在线观看| 欧美精品亚洲日韩a| 亚洲成a人在线播放www| 亚洲欧美在线综合一区二区三区 | 中文字幕 91| 啪啪啪亚洲无码| 国产国语一级毛片| 亚洲中文字幕国产av| 久久久精品无码一二三区| 色综合久久88色综合天天提莫| 狠狠亚洲五月天| 亚洲精品在线观看91| 精品视频91| 欧美亚洲日韩中文| 午夜福利网址| 九九热精品免费视频| 中文字幕无码制服中字| 亚洲欧美人成电影在线观看| 浮力影院国产第一页| 高清久久精品亚洲日韩Av| 99精品高清在线播放| www.亚洲色图.com| 91热爆在线| 欧美一区二区自偷自拍视频| 国产成人AV大片大片在线播放 | 国产女人水多毛片18| 久久久久久尹人网香蕉 | 77777亚洲午夜久久多人| 在线观看无码a∨| 久久香蕉国产线看观看式| 成人在线第一页| 亚洲经典在线中文字幕| 久久黄色影院| 亚洲精品人成网线在线 | 激情视频综合网| 日韩国产 在线| 国产男女XX00免费观看| 国产AV无码专区亚洲精品网站| 午夜啪啪福利| 99久久精品免费观看国产| 久久久久青草大香线综合精品| 亚洲不卡无码av中文字幕| 国产高清在线观看91精品| 欧美日韩综合网| 国产精品一区二区在线播放| 亚洲欧洲一区二区三区| 久久精品国产免费观看频道| 免费人成视网站在线不卡| 亚洲人成网站在线播放2019| 欧美亚洲日韩中文| 日韩一区精品视频一区二区| 国产人成网线在线播放va| 亚洲第一天堂无码专区| 呦视频在线一区二区三区| 99精品国产自在现线观看| 国产精品欧美在线观看| 福利在线不卡| 国产精品人莉莉成在线播放|