999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音截止頻率在語音識別中的應用

2013-12-31 00:00:00呂勇
科技創新與應用 2013年36期

摘 要:語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種因素的干擾,從而導致預先訓練的聲學模型與實際環境語音的特征參數之間存在較大的差異,這會嚴重影響語音識別系統在實際環境下的識別性能。由于噪聲主要影響語音的高頻非周期部分,傳統的最大似然線性回歸算法在噪聲自適應中難以取得令人滿意的效果。文章提出了一種基于語音截止頻率的最大似然線性回歸算法,以當前測試環境的語音截止頻率為頻率上限,提取測試語音的特征參數;然后,將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率,忽略其高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用最大似然線性回歸算法對聲學模型的參數進行調整,使其與當前環境相匹配。

關鍵詞:語音識別;語音截止頻率;最大似然線性回歸;模型自適應

1 引言

在實際應用場合,語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種語音變異性的干擾,從而導致預先訓練的聲學模型與實際環境下提取的聲學特征之間存在較大的差異。因而需要對聲學模型或聲學特征進行補償,減小環境失配的影響,提高語音識別系統在實際環境下的識別性能。

模型自適應是一種減小環境失配的有效方法,它通過測試環境下的自適應數據調整預先訓練的聲學模型的參數,使之與當前環境相匹配。一般來說,聲學模型包含較多的參數,如果每個參數都獨立更新,則需要大量的自適應數據,這在實際應用中很難做到。因此,通常假設聲學模型的若干個高斯單元共享同一個環境變換關系,將這些高斯單元的自適應數據合并,估計同一組變換參數。最大似然線性變換[1](MLLR: Maximum Likelihood Linear Regression)是一種常用的模型自適應算法,它假設測試環境聲學模型與訓練環境聲學模型之間符合仿射變換關系,只需要通過仿射變換將訓練環境聲學模型每個高斯單元的均值和方差變換到測試環境,即可得到測試環境聲學模型。

在諧波噪聲模型中,語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中,諧波僅僅分布在頻譜的低頻段,因此可以將語音的頻譜劃分為兩個不同的部分:低頻諧波部分和高頻非周期部分,這兩個部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時域方法[2]。在大多數應用場合下,背景噪聲是寬帶的,它會同時影響語音的低頻段和高頻段。但在低頻諧波部分,語音的能量一般遠大于該頻段的噪聲能量,噪聲的影響較?。欢诟哳l非周期部分,語音的能量很小,更易受噪聲影響,通常會被噪聲覆蓋。因而可以認為含噪語音的低頻段是有用的語音諧波,而高頻段主要是噪聲信息。這樣,在語音識別中,根據環境噪聲的類型和信噪比,估計當前環境下的語音截止頻率,僅用語音的低頻諧波部分構建聲學特征,可以得到更好的識別效果。

文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中,首先從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,并用其作為頻率上限,提取語音的特征參數;然后,將聲學模型每個高斯單元的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用MLLR算法對聲學模型的參數進行調整,使其與當前環境相匹配。

2 基于語音截止頻率的最大似然線性回歸算法

2.1 訓練過程

在訓練階段,首先用Mel濾波器組將語音的有效頻譜劃分為N個Mel頻帶,設第i個Mel頻帶的上限頻率為fi,這N個上限頻率即為語音截止頻率的取值范圍。然后,為每個語音單元的發音樣本提取倒譜特征參數,訓練生成該語音單元的聲學模型。在語音識別中,聲學模型一般為隱馬爾可夫模型(HMM: Hidden Markov Model),其每個狀態的概率密度函數用一個高斯混和模型(GMM: Gaussian Mixture Model)來描述。這些預先訓練得到的聲學模型可能與實際應用環境并不匹配,因此在測試階段需要對其參數進行調整后,才能用于語音識別。

2.2 測試過程

2.2.1 確定語音截止頻率

用譜域方法從測試環境下的少量自適應數據中提取測試語音頻譜的截止頻率,并將其映射到Mel頻帶的上限頻率fi上,用與其最接近的Mel頻帶上限頻率作為當前測試環境的語音截止頻率。

2.2.2 特征提取

用當前測試環境的語音截止頻率作為頻率上限,提取測試語音的倒譜特征參數,即只保留截止頻率以下的Mel頻帶,忽略其以上的Mel頻帶。特征提取的步驟包括:聲學預處理、快速傅里葉變換、Mel濾波、取對數、離散余弦變換和時域差分。

2.2.3 高斯降維

因為在特征提取中根據語音截止頻率對語音的特征參數進行了降維,為了與特征參數一致,聲學模型每個高斯單元的均值向量與協方差矩陣也必須降維。將每個語音單元聲學模型的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略均值和方差的高頻Mel分量,再變換回倒譜域,即可得到與測試環境特征參數的頻率范圍一致的聲學模型。

2.2.4 模型變換

由于背景噪聲、信道失真、說話人的改變等各種因素的影響,高斯降維后的聲學模型可能與實際測試環境并不匹配,甚至相差很遠。為了減小環境失配的影響,需要對聲學模型的參數進一步調整。首先通過聚類算法將聲學模型的高斯單元劃分為若干類,假設每一類的全部高斯單元符合同一個仿射變換關系。然后,將每一類全部高斯單元的自適應數據合并,根據最大似然準則估計該類仿射變換的參數。得到變換參數后,對聲學模型各類高斯單元的均值向量和協方差矩陣進行變換,即可得到測試環境聲學模型。測試環境聲學模型的狀態初始概率分布、狀態轉移概率矩陣和高斯混和系數與訓練環境聲學模型一致。

2.2.5 語音識別

得到測試環境聲學模型后,即可對當前測試環境下提取的特征參數進行聲學解碼,得到識別結果。

3 結束語

語音識別系統在實際應用中不可避免地要受到背景噪聲的干擾,而噪聲主要影響語音的高頻非周期部分,因此在噪聲環境下僅用語音頻譜的低頻諧波部分進行語音識別可以取得更好的識別效果。文章將語音截止頻率用于聲學模型的參數自適應,提出了一種基于語音截止頻率的最大似然線性回歸算法,從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,提取測試語音的特征參數,并將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率忽略其高頻分量,再變換回倒譜域,然后利用MLLR算法對聲學模型的參數進一步調整,得到測試環境聲學模型?;谡Z音截止頻率的最大似然線性回歸算法優于傳統的MLLR算法,在噪聲補償中具有更好的魯棒性。

參考文獻

[1]N·S·Kim,J·S·Sung,D·H·Hong. Factored MLLR Adaptation [J]. IEEE Signal Processing Letters, 2011(2).

[2]K·Hermus,H·V·Hamme,S·Irhimeh·Estimation of the Voicing Cut-Off Frequency Contour Based on a Cumulative Harmonicity Score [J].IEEE Signal Processing Letters,2007(11).

主站蜘蛛池模板: 无码AV日韩一二三区| 亚洲国产天堂久久综合| 在线精品自拍| 色婷婷电影网| 国产偷倩视频| 九色综合视频网| 高清色本在线www| 日韩精品无码不卡无码| 成人精品免费视频| 亚洲品质国产精品无码| 麻豆精品国产自产在线| 国产在线精彩视频论坛| 欧美日韩综合网| 国产极品嫩模在线观看91| 国产日本一区二区三区| 亚洲无码视频喷水| 狠狠操夜夜爽| 亚洲第一成年人网站| 国产性生大片免费观看性欧美| 男女男精品视频| 国产成人精品优优av| 精品国产毛片| 91精品啪在线观看国产60岁| 精品国产网| 国产一级视频久久| 久久久亚洲色| av在线5g无码天天| 四虎国产成人免费观看| 波多野结衣一区二区三区四区视频 | 91网站国产| 国产嫩草在线观看| 99热这里只有精品免费| 二级特黄绝大片免费视频大片| 中文字幕在线永久在线视频2020| 视频二区欧美| 毛片基地视频| 日本在线欧美在线| 综合亚洲色图| 亚洲三级影院| 欧美在线导航| 国产香蕉在线| 青青青国产视频手机| 一级一毛片a级毛片| 国产啪在线91| 三上悠亚在线精品二区| 福利视频一区| 成人午夜精品一级毛片| 九色最新网址| 最新日韩AV网址在线观看| 亚洲精品无码在线播放网站| 色婷婷啪啪| 日韩一级毛一欧美一国产| 久草视频精品| 国产拍在线| 91久久国产热精品免费| 2018日日摸夜夜添狠狠躁| 色屁屁一区二区三区视频国产| 视频一区视频二区日韩专区| 午夜在线不卡| 亚洲αv毛片| 国产精品极品美女自在线看免费一区二区| 国产美女在线观看| 真人高潮娇喘嗯啊在线观看| 午夜国产不卡在线观看视频| 国产精品99r8在线观看| 久久网欧美| 国产高清毛片| 无码丝袜人妻| 色综合成人| 九九精品在线观看| 欧美三级视频在线播放| 五月天丁香婷婷综合久久| 奇米精品一区二区三区在线观看| 在线亚洲精品自拍| 亚洲毛片在线看| 免费在线看黄网址| 国产18在线播放| 全部免费毛片免费播放| 波多野衣结在线精品二区| 国产欧美日韩91| 欧美高清视频一区二区三区| 亚洲h视频在线|