999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GMM 的AMR-NB 與G.729A 之間的LSP 參數轉碼方法

2010-08-04 08:32:42劉張宇鮑長春邱建偉徐昊
通信學報 2010年2期
關鍵詞:實驗模型

劉張宇,鮑長春,邱建偉,徐昊

(北京工業大學 電子信息與控制工程學院 語音與音頻信號處理實驗室,北京 100124)

1 引言

AMR-NB[1](adaptive multiple rate-narrow band)是3GPP(3rd generation partnership project)制訂的語音壓縮標準,現廣泛應用于 WCDMA(wideband code division multiple access)和TDS-CDMA(time division-synchronous code division multiple access)等第 3代移動通信系統中。G.729[2]是 ITU(international telecommunication union)于1995年制定的語音編碼標準,G.729A[3]是G.729的低復雜度版本,現主要應用于語音壓縮與VoIP(voice over internet protocol)等通信系統。這 2種基于CELP[4](code-excited liner prediction)的語音編碼技術在當今移動通信系統和網絡通信系統中的作用越來越重要。為了實現不同供應商之間通信設備的兼容與互通,需要在這2種不同語音編碼標準之間進行轉碼工作。

在基于CELP的AMR-NB和G.729A語音轉碼中,LSP參數轉碼是轉碼算法流程的第一步,也是整個語音轉碼算法的核心部分之一,基音參數,代數碼數以及增益的轉碼均建立在 LSP參數轉碼的基礎之上,因此,LSP參數轉碼效果將直接影響最終合成的語音質量。目前在LSP參數轉碼中應用最為廣泛的方法是直接轉碼(DTE,decode then encode)模式,這種傳統的碼流轉換方案具有2個缺點:1)運算量大;2)由于二次壓縮造成語音失真度加大,降低了合成語音質量[5]。為了解決DTE方法帶來的弊端,國外學者提出了利用直接參數轉換的方法[6,7]來實現這2種編碼標準之間的LSP參數轉碼,然而,LSP參數轉碼雖然能夠有效降低計算復雜度,但仍然存在二次量化失真,因此,需要找到一種更加有效的 LSP參數轉碼算法以提高轉碼語音質量。

本文對高斯混合模型(GMM,Goussian mixture model)進行了分析研究,并將其應用到了AMR-NB與G.729A之間的LSP參數轉碼算法中。該方法利用大量訓練語音數據,通過EM迭代算法進行高斯混合模型參數的估計,最后得到LSP參數轉碼函數。通過大量實驗,本文分析了訓練數據量、GMM數量、不同初始化方法的選取、收斂門限的限定和協方差矩陣限定與轉碼算法性能的關系,并得出了相應的結論。本算法在保證語音質量的情況下,極大地降低了計算復雜度和存儲空間。

2 GMM概述

GMM 是一種多維概率密度函數,常用來表示未知概率分布數據的分布函數,它在本質上是單狀態的HMM模型,其核心思想是用多個高斯分布的概率密度函數的組合來描述特征矢量在概率空間的分布狀況[8]。根據統計理論,若干個高斯概率密度的線性組合可以逼近任意分布,因此GMM能夠很好地描述各種形式的語音特征統計分布及其特性。下面介紹GMM的基本原理。

2.1 GMM的參數描述

GMM是由M個服從高斯分布的概率密度函數的加權組合而成的,其中每個高斯概率密度函數可以看作一個類,如圖1所示。

圖1 GMM組成示意圖

其表達式為

式(1)中x是D維的特征向量,iα是各高斯函數的混合權重,必須滿足的限制,μ是高斯分布的均值向量,Σ是高斯分布的協方差矩陣,M是混合高斯模型中高斯函數的數量。 N(x; μi; Σi)為M個D維的高斯概率密度函數,計算公式如下所示:

一個GMM可以由均值矢量、協方差矩陣和混合權值等參數進行描述,通常用λ來表示這些參數的集合,如式(3)所示:

應用式(3),可將式(1)改寫為

其中

2.2 GMM的參數估計(EM算法)

在語音的LSP參數轉碼中應用GMM需要解決一個問題,即通過輸入碼流x來求得模型參數λ,使得p(x|)λ達到最大值,從而求得LSP轉碼函數。這種優化準則即為最大似然估計準則(MLE),而如何調整模型參數λ,使p(x|)λ達到最大值,也就是GMM的訓練問題。

本文采用EM迭代算法進行GMM參數訓練。該算法主要分為下面2個步驟。

1) E步,即預估參數。根據所有訓練數據來估計高斯混合模型的混合權值、均值向量和協方差矩陣等參數。

2) M步,即最大化。從上一步得到的估計結果中,根據最大似然準則重新估算模型參數值,直到參數值達到最佳為止。

其中EM迭代算法中使用的公式如下所示[9]:

下面給出GMM的訓練流程,如圖2所示。

圖2 GMM訓練流程圖

在進行 EM 算法之前,首先需要對參數集λ={αi,μi,Σi}進行初始化,本文采用的是K均值方法進行參數值初始化,即對訓練數據中的所有特征矢量求均值和方差,作為初始均值和方差,初始權重設為相等權重,即α=1/M。利用EM迭代算法求出新的,并與前一次得到的進行比較,如果比較得到的差值小于一個設定的門限δ,則迭代結束,即可求得相對應的 GMM 參數集λ={αi, μi,Σi}。

3 基于GMM的LSP參數轉碼

3.1 LSP參數轉碼函數的建立和求取

如何建立和求取基于GMM的LSP參數轉碼函數是LSP轉碼中的核心問題。圖3給出了轉碼函數F(x)的建??蚣堋?/p>

圖3 基于GMM的LSP轉碼函數訓練過程

首先將語音訓練數據分別通過 AMR-NB與G.729A的編碼端,得到2組LSP參數向量,定義為X和Y,以最小均方誤差準則,對X和Y根據最大似然準則進行聯合高斯混合模型訓練,即得到轉碼函數F(x)。將F(x)引入到轉碼算法中,當源端的LSP參數碼流通過F(x)后,即得到目標端的LSP參數,從而完成LSP轉碼。接下來利用聯合高斯分布的條件期望預測方法[10]對轉碼函數F(x)進行數學建模,如圖4所示。

圖4 基于加權后驗概率的轉碼函數建模

源端的一組LSP參數X經過轉碼函數得到目標端的一組LSP參數Y,由于LSP參數具有獨立性,因此X與Y是按序一一對應的,根據后驗概率的思想,轉碼函數是M個加權后驗概率的組合,其數學表達式如下:

根據貝葉斯公式,得到

為了求解式(10)中的未知參數,需要對2端LSP參數進行聯合高斯混合模型訓練[11]。首先把按時間對齊的AMR-NB端LSP參數和G.729A端LSP參數合在一起,如式(12)所示:

式(12)中,N是訓練數據的數量,D是LSP參數的維數。然后利用 EM 迭代算法對矢量集Z2N×D進行GMM訓練,得到GMM參數集λ{αi,μi,Σi},其中協方差矩陣和均值分別表示為

將式(2)、式(11)、式(13)、式(14)代入式(1)即可求得F(x),即求得目標端LSP參數,完成LSP參數轉碼。

3.2 GMM在LSP參數轉碼應用中的問題

GMM參數在LSP參數轉碼中的應用中最關鍵的部分是參數的迭代估計,而在EM迭代算法中需要注意訓練數據的選擇和模型參數的選擇等問題。下面通過一系列實驗對這些問題進行詳細的分析。本文實驗均以AMR-NB 10.2kbit/s模式與G.729A轉碼為例。

3.2.1 訓練數據量對轉碼結果的影響

1) 不同訓練數據量對合成語音質量的影響。

由于GMM是一種概率統計模型,因此訓練數據量的大小對建模效果有較大的影響,從而間接影響轉碼效果。首先取 GMM 數為 32,分別采用從8s到約26min不同時長的NTT數據庫標準語音作為測試數據進行GMM訓練,并對6句中文語音(男女聲各 3句)進行轉碼實驗,得到了平均的客觀MOS 分值[12,13]。

如圖5所示,當高斯混合函數個數一定時,轉碼語音質量隨著訓練數據集的增大而提高,但在訓練數據量超過2萬幀之后,繼續加大訓練數據對語音質量的提高不再有明顯作用。另外,在基于GMM的 LSP參數轉碼算法中,在測試語料相同的條件下,AMR-NB向G.729A轉碼的MOS分要略高于G.729A向AMR-NB,這種情況與DTE以及傳統參數轉碼算法相似。

2) 不同訓練數據量對計算復雜度的影響。

LSP參數是通過轉碼函數F(x)進行轉碼的,轉碼函數F(x)的構建是通過對 GMM 參數進行訓練完成的,而GMM的EM參數估計并不依賴于源LSP碼流,是預先完成、獨立于轉碼算法之外的。因此,整個GMM訓練過程對轉碼算法的計算復雜度沒有影響,訓練數據集的增加也與轉碼計算復雜度無關。

圖5 訓練數據量的大小對轉碼客觀MOS分的影響

3.2.2 GMM數選取對轉碼結果的影響

1) 不同GMM個數對平均譜失真(SD,spectual distortion)的影響。

譜失真的定義如下:

圖6 LSP參數轉碼隨GMM數增加的譜失真變化曲線

從圖6中可以看到隨著GMM個數的增加,LSP參數轉碼譜失真逐漸下降,最后趨向于一個極值。另外,基于DTE方法的AMR-NB10.2kbit/s模式向G.729A轉碼的譜失真是2.683dB,因此,當GMM個數大于等于16時,本LSP參數轉碼方法產生的譜失真小于DTE轉碼方法。

2) 不同GMM個數對合成語音質量的影響。

GMM是由具有M個混合成分的高斯密度函數來進行線性疊加的,因此高斯模型的階數,即高斯密度函數的個數的大小與基于GMM的LSP參數轉碼效果直接相關。基于GMM的LSP參數轉碼算法是利用 GMM 對線譜頻率參數進行擬合,因此,在理論上M越大,聲道譜參數包絡就擬合得越精確,轉碼性能也就越好。本實驗以AMR10.2kbit/s轉碼速率為例,首先利用 76 800幀的NTT數據庫標準語音作為訓練數據,分別采用5種從小到大的不同的混合數進行GMM訓練,并對6句中文語音(男女聲各3句)進行轉碼實驗,得到了平均的客觀MOS分值,GMM個數對LSP參數轉碼后合成語音質量的影響實驗結果圖7所示。

圖7 GMM數大小對轉碼語音質量的影響

從圖7可以看出,在訓練數據量一定的條件下,一般地,轉碼語音質量隨著GMM數的增加而提高,但在混合模型達到256時,轉碼性能低于 128個混合模型數,也就是說,在 LSP參數轉碼的實際應用中,GMM訓練出現了過訓練現象。因此單從GMM數對LSP參數轉碼質量的影響來看,存在一個 GMM 的個數能夠對應最優的轉碼語音質量。經過實驗比較,取 GMM 個數為128。

3.2.3 EM算法中迭代次數的分析與收斂門限的確定

前文中已經討論了EM迭代算法的流程,應用最大似然法來獲得所要最大化的目標GMM參數集λ需要預先設定一個門限值δ,而這個門限值與EM 迭代算法的迭代速度和收斂精度密切相關,因此,選擇一個合適的δ是比較重要的。由于GMM 個數同樣影響迭代速度,因此本實驗對門限值和 GMM 數進行聯合分析。在本實驗中,GMM 數分別取 8,16,32,64,訓練數據為 24句NTT標準語音庫語音,每句時長為8s。實驗結果如圖8所示。

從圖8中可以看到,迭代次數是由收斂門限值和GMM數2個因素共同決定的。當GMM數較少時,迭代次數主要取決于收斂門限的取值,這是因為少量的GMM不足以準確描述譜參數特征,需要更高的精度來保證GMM的準確性。當GMM數足夠多時,在本實驗中即 GMM數達到64時,大量的GMM只需較少次數的迭代便可以滿足收斂門限的要求。在實際應用中,出于對計算復雜度的考量,GMM數不能取值過大,因此,需要通過確定較高的收斂門限來保證精度,在本文中取門限值δ為10-6。

圖8 門限值和GMM數與迭代次數的關系

4 實驗結果

為了驗證本文所提算法的有效性,在主觀A/B聽力測試與客觀MOS分測試中,LSP參數采用基于GMM的LSP參數轉碼技術進行轉碼,而基音參數、代數碼數以及增益采用 DTE轉碼方式進行轉碼。

4.1 主觀A/B聽力測試

本實驗采用A/B聽力測試方法對轉碼語音進行了主觀測試。測試語音由24句組成,每句長8s,分別由2男2女4個說話人發音。6名測聽人員分別對LSP經DTE轉碼的語音和經GMM轉碼的語音進行主觀測聽,并得到以下主觀偏好結果,如表1所示。

表1 LSP轉碼語音的主觀A/B聽力對比

從表1中可以看到,在AMR-NB 10.2kbit/s與G.729A之間的轉碼中,基于GMM的LSP轉碼主觀聽力質量不次于DTE的LSP轉碼方法。

4.2 客觀MOS分測試

本實驗使用 ITU-T P.862.1所規定的MOS_LQO[14]為客觀語音質量的衡量標準。實驗選取NTT標準語音數據庫的96句中文語音作為測試數據源,一共4男4女8位說話人,每人講12句話,每句8s時長,對于AMR-NB來說是每句話400幀,對于G.729A來說是每句話800幀。以AMR-NB 10.2kbit/s模式向G.729A轉碼為例,與DTE轉碼模式進行比較,實驗測得的MOS分結果如表2所示。

表2 LSP轉碼語音的MOS分比較

從表2中的MOS分值中可以看到,在男聲測試語音中,LSP 2種轉碼算法的質量非常接近;在女聲測試語音中,基于GMM的LSP轉碼語音質量略低于DTE方法;在所有語句中,GMM方法的平均MOS分與DTE方法比較接近,表明轉碼語音質量在可接受的范圍之內。

4.3 復雜度結果

在本實驗中預設高斯混合模型值為128,基于GMM的LSP轉碼算法與基于DTE的LSP轉碼算法的計算復雜度與空間復雜度對比如表3所示。

表3 LSP轉碼方法的復雜度比較

從表3中可以看到,基于GMM的LSP轉碼方法與 DTE方法相比,極大地降低了計算復雜度和空間復雜度,取得了比較好的結果。

5 結束語

本文主要概述了高斯混合模型的定義和基本原理,詳細介紹了高斯混合模型的參數估計算法——EM 迭代算法,提出并實現了基于 GMM 的AMR-NB與G.729A之間的LSP參數轉碼算法,以10.2kbit/s轉碼速率為例,分析了GMM在LSP參數轉碼中的幾個實際應用問題,最后給出了實驗結果。實驗結果表明,基于GMM的LSP轉碼方法能夠在保證合成語音質量的前提下,極大地降低計算復雜度和空間復雜度。GMM在LSP參數轉碼應用中的有效性,為GMM在其他參數轉碼中的應用提供了重要的借鑒意義。

[1] ETSI EN 301 704 V7.2.1 Adaptive Multi-Rate(AMR)Speech Transcoding[S].2000.

[2] ITU-T G.729:Coding of Speech at 8kbit/s Using Conjugate Structure Algebraic Code Excited Linear Prediction(CS-ACELP)[S].1996.

[3] ITU-T G.729A: Educed Complexity 8kbit/s CS-ACELP Speech Codec[S].1996.

[4] 鮑長春.數字語音編碼原理[M].西安:西安電子科技大學出版社,2007.BAO C C.Principles of Digital Speech Coding[M].Xi’an: Xidian University Press,2007.

[5] 邱建偉,鮑長春,徐昊等.基于CELP編碼模型的參數轉碼技術[J].電聲技術,2009,(4):84-87.QIU J W,BAO C C,XU H,et al.Parameter transcoding techniques based on CELP speech coding[J].Audio Engineering.2009(4): 84-87.

[6] OTA Y,SUZUKI M,TSUCHINAGA Y,et al.Speech coding translation for IP and 3G mobile integrated network[A].IEEE International Conference on Communications[C].New York: IEEE Press,2002.114-118.

[7] GHENANIA M,LAMBLIN C.Low-cost smart transcoding algorithm between ITU-T G.729(8kbit/s) and 3GPPNB-AMR(12.2kbit/s)[A].European Signal Processing Conference[C].Vienna: EUSIPCO Press,2004,(3): 1681-1684.

[8] 趙永剛,唐昆,崔慧娟.基于Gaussian混合模型的LSF參數量化方法[J].清華大學學報(自然科學版),2006,46(10): 1727-1730.ZHAO Y G,TANG K,CUI H J.Quantization of LSF parameters using a Gaussian mixture model[J].J Tsinghua University(Sci & Tech),2006,46(10): 1727-1730.

[9] 吳金池.語音辯識系統之研究[D].臺灣國立中央大學,2003.9-17.WU J C.Research on Speech Recognition System[D].Taiwan,China:National Central University,2003.

[10] KAIN A B.High Resolution Voice Transformation[D].Oregon Health and Science University,2001.36-54.

[11] 康永國,雙志偉,陶建華等.高斯混合模型和碼本映射相結合的語音轉換算法[A].第八屆全國人機語音通訊學術會議[C].2005.293-297.KANG Y G,SHUANG Z W,TAO J H,et al.Speech transform algorithm based on Gaussian mixture model and codebook mapping[A].NCMMSC2005[C].2005.293-297.

[12] 付強.語音的參數表示和質量客觀評價研究[D].西安電子科技大學,2000.46-66.FU Q.Research on Parameter Representation and Objective Quality Assessment of Speech[D].Xi’an: Xidian University.2000.46-66.

[13] ITU-T P.800.1:Mean Opinion Score(MOS) Terminology[S].2003.

[14] ITU-T P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO[S].2003.

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产91无码福利在线| 国产成人福利在线| 日韩区欧美区| 欧美特黄一级大黄录像| 欧美国产在线看| 人妻少妇乱子伦精品无码专区毛片| 国产丝袜啪啪| 最新亚洲av女人的天堂| 亚洲无码一区在线观看| 亚洲视频三级| 日韩精品少妇无码受不了| 欧美性久久久久| 亚洲成人播放| 婷婷色一二三区波多野衣| 四虎国产永久在线观看| 小说区 亚洲 自拍 另类| 无码丝袜人妻| 欧美国产视频| 国产美女在线免费观看| 亚洲视频在线观看免费视频| 激情综合五月网| 青青操视频免费观看| 午夜啪啪福利| 国内毛片视频| 男女性色大片免费网站| 亚洲中字无码AV电影在线观看| 中国国产高清免费AV片| 无码AV高清毛片中国一级毛片| 亚洲天堂日韩av电影| 国产 日韩 欧美 第二页| 日韩在线视频网| 午夜国产精品视频黄| 国产女主播一区| 天天色综合4| 国产成人永久免费视频| 免费一极毛片| 欧美综合中文字幕久久| 成人免费午夜视频| 91午夜福利在线观看精品| 久久国产香蕉| 亚洲中文字幕国产av| 91av成人日本不卡三区| 成人av专区精品无码国产| 国产精品55夜色66夜色| 亚洲国产成人久久精品软件| 天天操精品| 久久一本精品久久久ー99| 国内精品91| 日韩人妻无码制服丝袜视频| 欧美成人a∨视频免费观看 | 亚洲精品片911| 成人国产免费| 国产情侣一区二区三区| 国产又色又爽又黄| 中文字幕日韩视频欧美一区| a级毛片一区二区免费视频| 国产精品va免费视频| JIZZ亚洲国产| 国产男人天堂| 在线观看亚洲国产| 亚洲天堂网在线视频| 亚洲女同欧美在线| 久久96热在精品国产高清| 国产无遮挡猛进猛出免费软件| 福利视频一区| 日韩av电影一区二区三区四区| 中文字幕无码中文字幕有码在线| 国产精品福利一区二区久久| 亚洲一级毛片在线观播放| 亚洲天堂成人在线观看| 中文字幕久久波多野结衣| 国产精品久久久久久搜索| 青草视频免费在线观看| 国产国模一区二区三区四区| 男人天堂伊人网| 18禁高潮出水呻吟娇喘蜜芽| 久久不卡精品| 91成人在线观看视频| 伊人激情综合网| 91小视频在线播放| 99久久精品国产综合婷婷| 亚洲免费黄色网|