摘 要:語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種因素的干擾,從而導致預先訓練的聲學模型與實際環境語音的特征參數之間存在較大的差異,這會嚴重影響語音識別系統在實際環境下的識別性能。由于噪聲主要影響語音的高頻非周期部分,傳統的最大似然線性回歸算法在噪聲自適應中難以取得令人滿意的效果。文章提出了一種基于語音截止頻率的最大似然線性回歸算法,以當前測試環境的語音截止頻率為頻率上限,提取測試語音的特征參數;然后,將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率,忽略其高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用最大似然線性回歸算法對聲學模型的參數進行調整,使其與當前環境相匹配。
關鍵詞:語音識別;語音截止頻率;最大似然線性回歸;模型自適應
1 引言
在實際應用場合,語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種語音變異性的干擾,從而導致預先訓練的聲學模型與實際環境下提取的聲學特征之間存在較大的差異。因而需要對聲學模型或聲學特征進行補償,減小環境失配的影響,提高語音識別系統在實際環境下的識別性能。
模型自適應是一種減小環境失配的有效方法,它通過測試環境下的自適應數據調整預先訓練的聲學模型的參數,使之與當前環境相匹配。一般來說,聲學模型包含較多的參數,如果每個參數都獨立更新,則需要大量的自適應數據,這在實際應用中很難做到。因此,通常假設聲學模型的若干個高斯單元共享同一個環境變換關系,將這些高斯單元的自適應數據合并,估計同一組變換參數。最大似然線性變換[1](MLLR: Maximum Likelihood Linear Regression)是一種常用的模型自適應算法,它假設測試環境聲學模型與訓練環境聲學模型之間符合仿射變換關系,只需要通過仿射變換將訓練環境聲學模型每個高斯單元的均值和方差變換到測試環境,即可得到測試環境聲學模型。
在諧波噪聲模型中,語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中,諧波僅僅分布在頻譜的低頻段,因此可以將語音的頻譜劃分為兩個不同的部分:低頻諧波部分和高頻非周期部分,這兩個部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時域方法[2]。在大多數應用場合下,背景噪聲是寬帶的,它會同時影響語音的低頻段和高頻段。但在低頻諧波部分,語音的能量一般遠大于該頻段的噪聲能量,噪聲的影響較小;而在高頻非周期部分,語音的能量很小,更易受噪聲影響,通常會被噪聲覆蓋。因而可以認為含噪語音的低頻段是有用的語音諧波,而高頻段主要是噪聲信息。這樣,在語音識別中,根據環境噪聲的類型和信噪比,估計當前環境下的語音截止頻率,僅用語音的低頻諧波部分構建聲學特征,可以得到更好的識別效果。
文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中,首先從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,并用其作為頻率上限,提取語音的特征參數;然后,將聲學模型每個高斯單元的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用MLLR算法對聲學模型的參數進行調整,使其與當前環境相匹配。
2 基于語音截止頻率的最大似然線性回歸算法
2.1 訓練過程
在訓練階段,首先用Mel濾波器組將語音的有效頻譜劃分為N個Mel頻帶,設第i個Mel頻帶的上限頻率為fi,這N個上限頻率即為語音截止頻率的取值范圍。然后,為每個語音單元的發音樣本提取倒譜特征參數,訓練生成該語音單元的聲學模型。在語音識別中,聲學模型一般為隱馬爾可夫模型(HMM: Hidden Markov Model),其每個狀態的概率密度函數用一個高斯混和模型(GMM: Gaussian Mixture Model)來描述。這些預先訓練得到的聲學模型可能與實際應用環境并不匹配,因此在測試階段需要對其參數進行調整后,才能用于語音識別。
2.2 測試過程
2.2.1 確定語音截止頻率
用譜域方法從測試環境下的少量自適應數據中提取測試語音頻譜的截止頻率,并將其映射到Mel頻帶的上限頻率fi上,用與其最接近的Mel頻帶上限頻率作為當前測試環境的語音截止頻率。
2.2.2 特征提取
用當前測試環境的語音截止頻率作為頻率上限,提取測試語音的倒譜特征參數,即只保留截止頻率以下的Mel頻帶,忽略其以上的Mel頻帶。特征提取的步驟包括:聲學預處理、快速傅里葉變換、Mel濾波、取對數、離散余弦變換和時域差分。
2.2.3 高斯降維
因為在特征提取中根據語音截止頻率對語音的特征參數進行了降維,為了與特征參數一致,聲學模型每個高斯單元的均值向量與協方差矩陣也必須降維。將每個語音單元聲學模型的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略均值和方差的高頻Mel分量,再變換回倒譜域,即可得到與測試環境特征參數的頻率范圍一致的聲學模型。
2.2.4 模型變換
由于背景噪聲、信道失真、說話人的改變等各種因素的影響,高斯降維后的聲學模型可能與實際測試環境并不匹配,甚至相差很遠。為了減小環境失配的影響,需要對聲學模型的參數進一步調整。首先通過聚類算法將聲學模型的高斯單元劃分為若干類,假設每一類的全部高斯單元符合同一個仿射變換關系。然后,將每一類全部高斯單元的自適應數據合并,根據最大似然準則估計該類仿射變換的參數。得到變換參數后,對聲學模型各類高斯單元的均值向量和協方差矩陣進行變換,即可得到測試環境聲學模型。測試環境聲學模型的狀態初始概率分布、狀態轉移概率矩陣和高斯混和系數與訓練環境聲學模型一致。
2.2.5 語音識別
得到測試環境聲學模型后,即可對當前測試環境下提取的特征參數進行聲學解碼,得到識別結果。
3 結束語
語音識別系統在實際應用中不可避免地要受到背景噪聲的干擾,而噪聲主要影響語音的高頻非周期部分,因此在噪聲環境下僅用語音頻譜的低頻諧波部分進行語音識別可以取得更好的識別效果。文章將語音截止頻率用于聲學模型的參數自適應,提出了一種基于語音截止頻率的最大似然線性回歸算法,從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,提取測試語音的特征參數,并將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率忽略其高頻分量,再變換回倒譜域,然后利用MLLR算法對聲學模型的參數進一步調整,得到測試環境聲學模型。基于語音截止頻率的最大似然線性回歸算法優于傳統的MLLR算法,在噪聲補償中具有更好的魯棒性。
參考文獻
[1]N·S·Kim,J·S·Sung,D·H·Hong. Factored MLLR Adaptation [J]. IEEE Signal Processing Letters, 2011(2).
[2]K·Hermus,H·V·Hamme,S·Irhimeh·Estimation of the Voicing Cut-Off Frequency Contour Based on a Cumulative Harmonicity Score [J].IEEE Signal Processing Letters,2007(11).