張馨予
西安文理學院,陜西 西安 710065
第三代移動通信系統將支持語音、視頻和數據等多媒體業務,但語音業務仍然是3G的最基本的業務。語音編碼技術經過幾十年的發展,已經有很多種可以實現在4.8kbit/s甚至更低的速率上提供接近長途語言質量高效的語音編碼方法,為保證互通性,3GPP于1999年公布了WCDMA的語音編碼標準AMR聲碼器標準。它由多速率語音編碼器,含有話音激活檢測器(VAD)與舒適背景噪聲(SID)產生系統的源控速率方案(SCR)和能減小傳輸誤碼與包丟失對合成語音影響的消除錯誤機制(ECU)3部分組成。其中,多速率語音編碼器是一個編碼速率和背景噪聲低速率編碼模式的一個整體語音編解碼器。它允許每一幀信號(20ms)的編碼速率可以不同,是AMR語音編碼標準的核心;其余幾部分則用語改善聲碼器的性能和提高網絡的用戶容量,是可選的組件。
多速率語音編碼器是一種單個集成的語音編碼器,它有8種固定的信源速率模式,從4.75kbit/s到12.2kbit/s。此外,還有低速率的噪聲編碼模式,此編碼器能夠根據命令在每20ms語音幀中改變它的速率。經測試表明:從信噪比的角度來看,對沒有背景噪聲的純語音序列,AMR聲碼器的8種速率表現出相對接近的語音質量;而對有背景噪聲的語音,8種速率的語音質量有明顯區別。根據此時的語音質量可以把8種速率分成高、中、低3類速率,高速率提供的語音質量比低速率提供的語音質量有很大提高;各類中不同速率提供較接近的語音質量。考慮到可能存在的應用要求。也可以將中速率再細分為兩個子類,分別擁有7.95kps、7.40kps和 6.70kps、5.90kps。
在討論AMR聲碼器8種速率模式選擇的時候,沒有給出每種速率和某些參數值的一一對應關系,也沒有給出相鄰速率切換的參數,因為這樣做沒有太大的意義。首先,從語音質量上,將8種速率分為3類,各類內提供較相近的語音質量;其次,AMR聲碼器有8種速率并不是為了在信道變化的時候在相鄰速率之間,由高到低的切換。實際上,在信道迅速變化時,這種遍歷式的切換也是不現實的。
相反,給出了用于不同類別速率選擇的參數值,因為在語音含有噪聲的情況下(無線通信系統中的常見情況)各類速率提供的語音質量有較大的不同。在實際操作中,可以選擇不同類之間的速率進行切換,以適應信道情況的變化。同時也可以根據不同的需要對每一類速率進行內部適當選擇。
如果接收機在背景噪聲狀態下不輸出任何信號,則用戶可能認為線路中斷,容易造成誤操作。研究表明當用戶處在噪聲環境中時,間斷的語音使得可懂度急劇下降,嚴重時甚至造成不能進行正常通話。移動環境的噪聲并不是長期平穩的,但是相對語音來說,背景噪聲變化比較緩慢,前后幀參數間的差距較小,編碼器沒有必要每一幀都進行參數估計、編碼,所以標準中采用非連續發送(DTX)的方法,但是解碼器連續產生背景噪聲。下面介紹編碼器和解碼器各自的處理方法。
編碼器要完成的是背景噪聲參數的估計和編碼。由于人耳聽覺只和信號的幅頻特性和信號幅度(能量)有關,所以只要估計出背景噪聲的頻譜包絡和能量就可以再生聽覺上很接近的噪聲。LSP可以很好地描述聽覺信號的譜包絡特性,所以AMR選取LSP和能量兩組參數來表示背景噪聲的特性,然后用背景噪聲特有的方法對LSP和能量進行量化,編碼成SID幀,傳送給信道。
AMR聲碼器把SID分為兩類:SID-FIRST和SID-UPDATE,其中SID-FIRST在語音幀(包括延長時間)結束后,立即發送,幀中不包括任何的編碼信息,只在幀模式域填充相應的值,它的作用是告知解碼器SID的起始時刻,同時編碼器計算緩沖區中特征參數(也即語音延長幀的特征參數)的平均值作為背景噪聲段參數的初始值;SID-UPDATE則包含兩個參數(LSP和能量)信息量化,它每三幀發送一次。另外,如果語音幀發送的時間很短,則在該語音段結束后立即重復發送前一次SID-UPDATE幀,同時使用前一段的背景噪聲參數作為本段背景噪聲的參數估計的初始值,這是因為人類的說話和信令音以及音樂信號都是有一定持續時間的,持續時間很短語音是由背景噪聲干擾造成的,如果把該段時間的參數作為背景噪聲參數估計的初始值,解碼器合成的背景噪聲在頻譜和能量上與實際背景噪聲的相差很大,主觀聽覺質量差。
解碼器收到SID幀所需要進行的操作就是根據背景再生參數構造一個合成濾波器,用能量受控的白噪聲序列激勵濾波器得到連續的背景噪聲。由于SID-UPDATE幀中包含噪聲的所有參數,解碼器只需進行解碼和合成就可以了,處理比較簡單。SID-FIRST沒有傳送背景噪聲的參數,只是告知解碼器背景噪聲段已經開始,后續的幀將是不連續的SID-UPDATE幀,所以第一個SID幀的參數是由保存在緩存區中的語音延長幀的參數計算得到的,把它作為背景噪聲參數估計的初始值。這就是編碼器對于語音突發結束時對語音進行延長,繼續連續發送LSP參數的原因。對于SIDUPDATE幀,LSP和能量均通過解碼得到,但能量需根據語音變化的模型進行調整以提高語音和背景噪聲相互切換時合成語音的主觀質量。
AMR語音編碼器以CELP模型作為編碼模型,采用分析—合成方法量化激勵信號。編碼器對20ms的語音幀進行編碼,對應于160個語音樣本,采樣頻率為8kHz。在每160個樣本中,對語音信號進行分析并抽取模型的參數(濾波器系數、自適應和固定碼本索引和增益)。這些參數被編碼并傳送,在譯碼端,這些參數被譯碼并用來選擇合成濾波器的激勵信號。AMR編碼器功能包括9大部分:預處理;線性預測分析和量化;開環基因分析;沖擊響應計算;目標信號計算;自適應碼本;代數碼本;自適應和固定碼本增益的量化;存儲器更新。
AMR的特點是LSP采用矢量量化。為保持時變性,AMR用內插重建每子幀所需的LSP參數。對12.2kb/s模式,線性預測分析執行兩次,而對其它模式,每幀執行一次。在12.2kb/s模式時,線性預測參數的兩個集被轉化為線譜對(LSP)并用38比特的分裂矩陣量化(SMQ)來聯合量化;對其它模式,線性預測參數的單個集被轉化成LSP并用分裂矢量量化(SVQ)來量化。語音幀被分為4個5ms的子幀,每個子幀包括40個樣本,每個子幀都傳送自適應碼本和固定碼本參數,子幀根據需要可以用量化和非量化的參數或它們的內插值形式。每個子幀(5.15kb/s和4.75kb/s模式是每幀)根據感知加權語音對開環基音延遲進行估計。然后對每個子幀進行以下的重復操作:
1)濾波器的初始狀態用LP殘留和激勵之間的誤差來修正的加權合成濾波器來計算目標信號;
2)計算加權合成濾波器的沖激響應;
3)用目標信號和沖激響應通過在開環基因延時周圍進行搜索來進行閉環基音分析;
4)通過移去自適應碼本的貢獻來修正目標信號,新的目標信號用在固定碼本搜索;
5)自適應和固定碼本的增益被量化成4—5bit或矢量量化成6—7bit;
6)最后,濾波器的存儲器狀態被更新以便發現下個子幀的目標信號。
AMR解碼器的處理和一般的解碼器相同。解碼器包括以下部分:發送參數譯碼(LP參數、自適應碼本矢量、自適應碼本增益、固定碼本矢量、固定碼本增益),合成重建語音。重建的語音還要經過后處理和信號放大。解碼器具有其獨特的重構隨機激勵矢量的相位彌散處理。由于7.95,6.70,5.90,5.15,4.75kb/s模式中隨機激勵碼矢量中非零樣點非常少,如果隨機激勵碼矢量在整個激勵信號中所占分量比較大,則合成語音自然度差、機器聲比較明顯,為了消除這種情況的影響,聲碼器對隨機激勵矢量的脈沖進行了相位彌散處理(抗稀疏處理)。其步驟為:
1)根據當前分幀子適應碼矢量的增益選取相位彌散處理程度;
2)根據隨機激勵碼矢量的增益修正相位彌散處理程度;
3)相位彌散處理:首先根據模式和相位彌散處理程度選取相應的濾波器,然后隨機激勵碼矢量和濾波器進行循環卷積。
通過對AMR研究,可以較清楚地看到以下幾個特點:
1)AMR有八種固定的信源速率模式,從12.2kb/s到4.75kb/s。另外還有低速率的背景噪聲編碼模式:1.8kb/s。
2)AMR是以更智能的方式解決信源編碼和信道編碼的速率分配問題。實際的語音速率取決于信道質量,是信道質量的函數。
3)AMR參數包括LP參數、自適應碼本矢量、自適應碼本增益、固定碼本矢量、固定碼本增益。AMR中不同模式下參數更新的速率相同,而不同模式下核心幀的比特數不同,其它部分比特數均相同。
4)AMR中專門設有靜音幀并在發送端和接收端都以一定的格式處理背景噪聲,使得對靜音的處理更加優化,從而使合成語音在主觀聽覺上的質量更好。
5)AMR中利用噪聲的短時平穩性采用非連續傳輸技術,噪聲參數每三幀傳輸一次,降低了系統的自干擾,同時增加了系統容量。
[1]祁玉生,等.現代移動通信系統[M].北京:人民郵電出版社,1999.
[2]楊留青,等.數字移動通信系統[M].北京:人民郵電出版社,1995.
[3]趙力.語音信號處理[M].北京:機械工業出版社,2003.
[4]胡航.語音信號處理[M].哈爾濱:哈爾濱工業大學出版社,2000.
[5]竺南直,等.碼分多址(CDMA)移動通信系統[M].北京:電子工業出版社,1999.
[6]邱玲,等.第三代移動通信技術[M].北京:人民郵電出版社,2001.
[7]鄔國揚.數字蜂窩網[M].西安:西安電子科學技術大學出版社,2000.
[8]易克初,等.語音信號處理[M].北京:國防工業出版社,2000.