999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音識別在語音增強中的應用

2023-01-06 10:00:08張國峰
科技創新與應用 2022年36期

張國峰,丁 波

(珠海醫凱電子科技有限公司,廣東 珠海 519041)

通信系統中傳輸的語音通常都會受到外部環境噪聲和系統內部噪聲的影響,這會影響通信系統的性能。語音增強是抑制噪聲干擾的重要手段,其目的是增強含噪語音中的有用信號,提高含噪語音的信噪比。在實際應用中,語音增強系統的輸入通道可以分為單通道[1]、雙通道[2]和多通道[3]。一般來說,輸入通道越多,語音增強的效果就越好,所以基于麥克風陣列的多通道語音增強技術優于只有一個麥克風的單通道語音增強。但是,麥克風陣列算法的計算較為復雜,而且在很多場合中,只有一路輸入語音可用,此時仍然需要用到單通道語音增強技術。因此,對以譜減法[1]為代表的單通道語音增強進行研究,仍然具有重要的意義。

語音增強技術不僅用于提高語音的可懂度,而且廣泛應用于語音識別、語音合成等語音處理系統的前端[4-5]。直接對含噪語音進行去噪處理,雖然可以提高含噪語音的信噪比,但是會導致語音失真,使待識別語音與訓練語音的失配更加嚴重,從而影響語音識別系統的識別率,難以取得理想的識別效果。因此,在目前的魯棒語音識別技術中,對語音的增強都會結合后端識別器進行,調整待識別語音的特征參數,使其與后端識別器匹配;或者調整后端識別器的參數,使其與待識別語音的特征參數匹配。目前,魯棒語音識別技術已經取得了較好的效果,可以從含噪語音中實時提取背景噪聲的參數[5]。將語音識別系統實時提取的噪聲參數用于語音增強,可以提高語音增強系統中噪聲均值估計的實時性,從而提高語音增強系統對非平穩噪聲的實時跟蹤性能。本文研究語音識別在譜減法語音增強技術中的應用,包括在實時噪聲估計中的應用和在譜減系數估計中的應用。

在傳統的譜減法語音增強中,噪聲的均值只在語音間隙期(非語音段)估計。但是,實際生活中的噪聲往往是非平穩的,在語音存續期間(語音段)也可能發生變化。如果不及時更新噪聲的均值,就會給語音增強帶來較大的誤差。基于最優平滑和最小統計的噪聲估計[6-7]是一種常見的連續噪聲估計方法,其基本思想是用一段時間內含噪語音功率譜最小值的變化代表含噪語音功率譜的變化,對這段時間內含噪語音功率譜的最小值進行補償,得到含噪語音功率譜的均值。該方法的主要缺點是延遲較大,實時跟蹤性能較差,在延遲期間,語音增強的效果較差。在基于矢量泰勒級數的特征補償或模型補償[5]中,加性背景噪聲和乘性卷積噪聲的參數可以用期望最大(Expectation-Maximization,EM)算法[8]從含噪語音中實時提取。用語音識別系統提取的噪聲參數屬于倒譜特征向量,無法將其恢復為線性頻譜,不能直接用于語音增強。但是,可以用逆離散余弦變換將其變換到對數譜域,用每個通道對數譜能量的變化表示該通道噪聲電平的變化,從而求出該通道每個數字頻率處噪聲頻譜的均值。將估得噪聲頻譜的均值用于譜減法語音增強,可以提高噪聲估計的實時性,增強噪聲估計對非平穩噪聲的跟蹤能力,從而取得更好的增強效果。

譜減法語音增強的另一項關鍵技術是譜減系數估計。語音和噪聲都是典型的隨機信號,其時域信號和頻譜都是不可再現的。噪聲的隨機性很大,其頻譜的最大值可以達到平均值的6~7倍。在語音段,研究者無法得到每一幀含噪語音中噪聲的準確頻譜,因而只能在含噪語音頻譜中減去噪聲頻譜的平均值。如果噪聲頻譜的實際值比平均值大得多,就會導致增強后的語音存在較多的殘留噪聲,嚴重影響語音增強的效果。如果噪聲頻譜的實際值比平均值小得多,就會損傷語音,導致增強后的語音存在較大的失真,嚴重影響增強后語音的可懂度。因此,在譜減法語音增強中,譜減系數不能設置為常數1,而是根據含噪語音的局部信噪比動態調整譜減系數。如果在某個頻段上,語音的能量較大,即信噪比較高,可以設置較小的譜減系數。這是因為較小的譜減系數可以避免語音的損傷,而且語音的能量遠遠大于噪聲的能量,即使殘留較多的噪聲,對語音可懂度的影響也較小。如果在某個頻段上,語音的能量較小,即信噪比較低,可以設置較大的譜減系數。因為該頻段語音的能量占語音總能量的比例較小,即使有所損失,對語音可懂度的影響也不大;而且,在該頻段信號的頻譜中,大部分是噪聲,設置較大的譜減系數,可以最大可能地去除噪聲,提高增強后語音的信噪比。

譜減系數的設置除了與信噪比有關外,還與語音在每個頻段上存在的概率有關。語音可以劃分為若干個音節,而每個音節語音的頻譜在每個頻段上的分布是不一樣的。有的音節主要分布在低頻段,有的音節在低頻段和中頻段都有較高的能量。這可以為譜減系數的設置提供一定的先驗知識。如果語音在某個頻段上出現的概率較小,那么可以設置較大的譜減系數,盡可能地抑制噪聲;如果語音在某個頻段上出現的概率較大,那么可以設置較小的譜減系數,盡可能地保留語音。在譜減系數的估計中,引入語音存在的概率,可以減小信噪比估計的誤差對譜減系數設置的影響,提高譜減系數設置的精度。語音在每個頻帶上的存在概率可以用訓練語音來計算,只需要統計每個音節語音的頻譜在每個頻帶上的分布,即可得到該音節語音在每個頻帶上的存在概率。在語音增強時,先用語音識別系統識別出當前語音屬于哪個音節,即可得到當前語音在每個頻帶上存在的概率;然后將語音存在概率用于對譜減系數的加權,得到更加準確的譜減系數;最后,利用得到的譜減系數對含噪語音的幅度譜進行譜減運算,得到純凈語音幅度譜的估計值,并用逆傅里葉變換將其變換到時域,用重疊相加法連接各幀,得到完整的增強語音。

1 噪聲均值的實時估計

1.1 基于高斯混合模型的噪聲估計

為了使語音的每個數字頻率k隸屬于一個唯一的美爾(Mel)子帶,首先在美爾頻域將語音的有效頻率范圍劃分為D個互不重疊的Mel子帶,然后對每一幀信號進行聲學預處理,快速傅里葉變換,Mel濾波,取對數和離散余弦變換,得到每一幀信號的美爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients,MFCC),并以MFCC為語音識別系統的倒譜特征向量。

在訓練階段,用一個含有M個高斯單元的高斯混合模型(Gaussian Mixture Model,GMM)描述純凈語音MFCC的概率分布

式中:xt表示第t幀純凈語音的MFCC;b(xt)表示xt的概率密度函數;cm,μx,m和Σx,m分別表示第m個高斯單元的高斯混合系數、均值向量和協方差矩陣;D表示特征向量(MFCC)的維數,即Mel通道的數量;上標T表示矩陣或向量的轉置。

在測試階段,將含噪語音的特征向量(MFCC)代入GMM,通過EM算法反復迭代,即可得到噪聲均值μn的最大似然估計[5],即

式中:γm(t)=P(kt=m|yt,λ)表示給定先驗參數λ時,第t幀含噪語音特征向量(MFCC)yt屬于第m個高斯單元的后驗概率;Um和φm的表達式分別為

式中:C表示離散余弦變換矩陣;C-1表示矩陣C的逆矩陣;μn0表示噪聲的初始均值,是上一次迭代的結果;diag()表示以括號中的向量為對角元素生成的對角矩陣。

1.2 用于語音增強的噪聲估計

因為MFCC的提取屬于不可逆變換,無法將其還原為線性頻譜,所以用GMM提取的倒譜噪聲均值μn無法直接用于譜減法語音增強。為了得到噪聲的線性頻譜的實時估計,首先將噪聲的倒譜均值向量變換倒對數譜域

式中:un表示噪聲的對數譜均值向量,維數為D,每個元素對應一個Mel通道。設在當前語音段的前一個非語音段得到的噪聲的對數譜均值向量和線性譜均值向量分別為un和N,且數字頻率k屬于第i個Mel通道,則語音段噪聲的線性譜均值向量N的第k個元素N(k)通過下式估計

式中:un(i)和un(i)分別表示向量un和的第i個元素表示向量N的第k個元素。得到N后,即可將其用于譜減法語音增強。

2 基于語音存在概率的語音增強

2.1 語音存在概率的計算

在語音識別系統中,以音節為基本語音單元,用每個音節的所有訓練語音生成一個隱馬爾可夫模型,作為語音識別系統的聲學模型。第n個音節的語音在第i個Mel通道上存在的概率Pn(i)通過下式計算

式中:Mn,i表示第n個音節的語音在第i個Mel通道上存在語音的幀數;Mn表示第n個音節語音的總幀數。

2.2 含噪語音的幅度增強

在幅度增強中,先用語音識別系統對當前語音進行識別。設當前語音被識別為第n個音節的語音,則對第i個Mel通道上的每個數字頻率k,用加權譜減法對含噪語音進行幅度增強

式中:E(i)表示第i個Mel通道的對數能量;Emin和Emax分別表示E(i)的最小值和最大值。在譜減系數β(i)的計算中,β(i)的最小值設置為1,最大值設置為6。由式(9)可知,第i個Mel通道上的譜減系數β(i)與該通道上語音存在的概率Pn(i)成反比,較大的語音存在概率對應較小的譜減系數,較小的語音存在概率對應較大的譜減系數。這是因為,較大的語音存在概率意味著當前Mel通道語音的能量較大,設置較小的譜減系數一方面可以避免損傷語音;另一方面能量較高的語音對噪聲的抑制能力較強,即使保留較多的噪聲,人耳也不易察覺。較小的語音存在概率意味著當前Mel通道的頻譜中大部分是噪聲,設置較大的譜減系數,可以盡可能地消除噪聲,提高增強后語音的信噪比;此外,即使當前Mel通道存在少量語音,將其當作噪聲去除,對語音可懂度的影響也較小,因為其在語音總能量中的比例較小。

得到純凈語音幅度譜的估計值|X^(k)|后,首先將其與含噪語音的相位譜相乘,得到純凈語音的頻譜;然后對每幀語音的頻譜進行逆傅里葉變換,得到該幀語音的時域信號;最后,對所有幀語音的時域信號用重疊相加法連接,得到增強后的數字語音。

3 結束語

譜減法是一種重要的單通道語音增強技術,通過對含噪語音的幅度譜減去噪聲幅度譜的均值,達到增強語音的目的。譜減法的關鍵技術包括噪聲的實時估計和譜減系數的計算。將語音識別用于譜減法語音增強,一方面可以通過GMM實時估計噪聲的均值,另一方面可以利用語音在每個Mel通道上存在的概率計算譜減法的過減系數,提高語音增強的信噪比和可懂度。

主站蜘蛛池模板: 亚洲欧美日韩中文字幕在线| 国产综合精品一区二区| 欧美a在线| 欧美日韩国产在线播放| 一级福利视频| 欧美在线黄| 特级欧美视频aaaaaa| 一级福利视频| 美女视频黄又黄又免费高清| 在线观看无码av免费不卡网站 | 国产精品亚洲αv天堂无码| JIZZ亚洲国产| 91久草视频| 久久久久国产一级毛片高清板| 国产丝袜丝视频在线观看| 99视频在线看| 国产69精品久久| 国产91丝袜| 免费a级毛片视频| 日韩一区二区在线电影| 国产日本视频91| 国产Av无码精品色午夜| 免费人成网站在线高清| 久久综合成人| 亚洲自偷自拍另类小说| 国产成人三级在线观看视频| 久久一本日韩精品中文字幕屁孩| 国产一区二区三区在线观看免费| 亚洲无码高清免费视频亚洲| 国产在线精品美女观看| 99无码中文字幕视频| 午夜啪啪福利| 免费毛片视频| 国产AV无码专区亚洲精品网站| 99r在线精品视频在线播放| 欧美狠狠干| 欧美不卡二区| 国产97视频在线观看| 一本二本三本不卡无码| 国产色婷婷视频在线观看| 就去吻亚洲精品国产欧美| 久久99热66这里只有精品一| 欧美在线伊人| 99久久亚洲综合精品TS| 精品无码一区二区在线观看| 精品人妻无码中字系列| 国产成人一区在线播放| 亚洲男人在线| 无码免费视频| 无码丝袜人妻| 国产电话自拍伊人| 91福利免费视频| 国产成人h在线观看网站站| 青青青视频免费一区二区| 欧美日本在线一区二区三区| 99视频国产精品| 国产一级精品毛片基地| 亚洲欧美另类色图| 中文成人在线视频| 精品综合久久久久久97超人该| av一区二区三区在线观看| 夜色爽爽影院18禁妓女影院| 国产菊爆视频在线观看| 青青青亚洲精品国产| 2021国产精品自产拍在线| 国产91导航| 国产精品妖精视频| 日本道综合一本久久久88| 欧美日韩第三页| 9cao视频精品| 国产精品污污在线观看网站| 国产在线高清一级毛片| 99热精品久久| 亚洲福利视频一区二区| 亚洲成人黄色在线| 在线免费看黄的网站| 国产白浆视频| YW尤物AV无码国产在线观看| 亚洲婷婷丁香| 99尹人香蕉国产免费天天拍| 婷五月综合| 高h视频在线|