嚴 琦 安 崗 葉 陽 楊治武
1 中國聯通研究院 北京 100032
2 中國電子科技集團公司第十研究所 成都 610000
人們在撥打電話的時候,會感覺到電話里的聲音和面對面講話時的差異性很大。這是因為我們的話音為了便于通過數字化的移動通信網絡進行傳輸,進行了一系列的處理,如模數轉換、語音編解碼等(如圖1所示)。

圖1 語音通話端到端處理流程
在2G和3G時代,由于帶寬較窄,且移動通信網通話效果受網絡環境影響較大,移動終端中都采用了一種稱之為自適應多速率編碼(Adaptive Multi-Rate,AMR)的語音編碼技術[1],雖然該技術壓縮比較大,頻譜利用率低,并且壓縮后質量較差,但用于人的聲音通話,效果還較為理想,這個時候的語音技術我們可以稱之為窄帶語音。
顧名思義,現在的高清語音就是一種寬帶語音技術。隨著LTE時代的到來,帶寬呈幾何級的增長,使得現在的語音通話可采用自適應多速率寬帶語音編碼技術(Adaptive Multi-Rate WideBand,AMR-WB),其采用了更高速率的語音編碼方式,頻譜利用率高,與傳統的窄帶電話相比,高清語音很大程度上提高了語音質量。
傳統的2G和3G語音通話,因為帶寬較窄,聲音的頻率范圍被限定在300Hz~3400Hz,采樣率也僅為8KHz,極大地影響了通話質量。但早期人們的通話主要以獲取信息為主,人們只要能通過移動通信網了解到有用的信息即可,對通話的質量等并沒有迫切的需求。但是隨著4G網絡建設的不斷加大和建設速度的加快,人們已經遠不滿足于信息的獲取,而更希望能通過對話得到面對面的真實體驗,能提升用戶體驗的高清語音通話就應運而生。
AMR-WB高清語音的頻率范圍為50Hz~7000Hz,音頻范圍更為廣闊,抽樣頻率為16KHz。相對窄帶語音而言,其增加的50Hz~300Hz的低頻率更好地提高了自然度、表現力和舒適度,而擴展的3400Hz~7000Hz的高頻頻率則可以更好地區分摩擦音、更易于理解,語音更自然、舒適。同樣的語音通話,在高清語音模式下,由于音域更廣、高低音分明,用戶能享受到高清晰、立體聲的效果(如圖2所示)。
聲學專家研究發現,人耳能接收到的聲音頻率范圍實際為20Hz~20KHz。也就是說人們需要更寬的聲音頻率才能更好地理解對方的講話,才能更好地表達情感,這也是為何高清語音比窄帶語音更能帶來現場感的原因。

圖2 語音頻率范圍
實際上,高清語音在移動通信網絡中的應用從3G時代就已經基本具備商用條件。目前,中國聯通是國內唯一一家在其3G全網開通高清語音的運營商。而到了4G的LTE時代,中國移動、中國聯通、中國電信三大運營商更是積極部署,并一致以VoLTE(Voice over LTE,基于LTE的語音通話)高清語音為解決方案[2]。
中國移動早在2014年就在杭州、廣州、南京、福州、長沙五個城市開展了VoLTE試點驗證,隨后2015年2月完成了杭州的VoLTE商用布局,杭州成為了中國移動第一個具備VoLTE商用的城市,隨后中國移動的VoLTE開始推廣到其它一線大城市,并開始在全國布局。2016年,中國移動將實現超過260個城市的VoLTE商用,預計實現3000萬客戶的發展目標。
中國電信在2015年7月份正式發布了VoLTE發展路線圖:2015年,進行技術試驗及驗證、技術規范和方案制定;2016年,開展大規模網絡建設,在芯片、終端、網絡、業務、互聯互通和IT等方面測試聯調;2017年底,使4G網絡達到天翼3G網絡同等覆蓋水平,實現VoLTE商用。
中國聯通的VoLTE起步比較慢,首批中國聯通的七個外場試點包括北京、上海、廣東、天津、湖南、湖北、河南,2015年12月30日才完成了第一個具備VoLTE商用的城市布局;2016年,北上廣三地聯通也陸續宣布具備VoLTE的商用條件,商用網絡的建設將成為聯通2016年的重點,預計2016年底聯通將完成國內一線大城市的VoLTE的試商用。
LTE網絡的主要特點是全IP化,所有的應用都以分組數據的形式進行傳播,語音業務也不例外,因此,在LTE時代,高清語音的測試會引入分組網絡,與傳統3G語音測試不一樣[3]。高清語音質量測試主要包括聲學測試和電學測試兩部分。
聲學測試[4]偏重于各種聲學參數,主要性能指標包括發送/接收靈敏度、發送/接收響應度、空閑信道噪聲、回聲控制、失真等,對LTE終端的整機聲學指標進行全方位的測試。
現在聲學測試已經非常成熟,并且在國際標準組織3GPP和行業標準組織CCSA中均對測試方法和測試內容進行了規定。在實際的聲學質量測試中,對測試環境的要求也非常嚴格[5],需要特定的消聲室以及專業的人工頭和人工耳,而且耳廓、電聲學特性必須符合ITU-T P.58建議中的相關要求。每款終端在設計時可采用Type3.3或Type3.4人工耳,測試過程中采用設計時選用的人工耳進行驗證。并且期間人工頭人工耳以及待測終端的擺放位置必須經過嚴格的校準才可以進行,這就要求聲學測試必須由專門的測試機構來完成。
我國現在的終端做入網檢測時部分聲學指標由工信部進行強制測試,如頻響等,但是對于運營商而言,一方面聲學測試成本太大,另一方面運營商更加重點關注貼近用戶實際使用場景、基于用戶體驗方面的測試,也就是電學測試。
音頻電學測試現在業內比較公認的是平均意見分MOS(Mean Opinion Score)測試[6],這是一種主觀評價方法。在實際語音質量評價中,會選取數量較多的人根據預先約定的評估準則(參見表1)對語音質量進行打分,共分為5個等級,最終的平均分就是所測通話語音質量的MOS值,它反映了測評人員對語音質量好壞的一種主觀判斷。

表1 MOS分級別
但是在實際測試中這種方法既費時又費力,基于此,ITU標準組織制定了相關算法,以此來模擬眾多人的主觀評定,從而通過機器儀表的方式來完成MOS分的測算。現在主流的標準算法為POLQA(Perceptual Objective Listening Quality Analysis,客觀聽力質量分析)算法,該算法可以將人類話音的頻率、響度等物理特性與人類心理上的感知特性的對應關系用數學模型來表示,即用客觀數學模型的評價來模擬主觀的評價,并且ITU組織在2011年正式發布為ITU-T P.863標準,其可覆蓋現階段所有的語音編解碼和網絡傳輸技術,能夠比較真實地衡量語音質量。
具體測試時是對LTE終端3.5mm接口處的音頻電信號進行分析和測試。
如圖3所示,待測終端通過射頻線與LTE終端綜合測試儀進行連接來接入LTE網絡,同時,待測終端通過特殊的音頻線與音頻分析儀相連,將3.5mm接口處的聲音電信號傳遞給音頻分析儀進行分析,依據選定的POLQA算法來計算出聲音的MOS值和時延,從而確定音頻質量。

圖3 音頻電學測試方案
在測試過程中,主要用到以下相關單元模塊。
1)LTE終端綜合測試儀。用于模擬多制式基站,通過射頻線給被測終端運行測試用例提供無線測試條件和環境,包括射頻環境和協議基礎和流程,并且可添加3GPP規定的典型信道衰落模型。
2)音頻分析儀。通過音頻接口獲取被測終端記錄和播放的音頻文件,并且依據選定的POLQA算法計算MOS值和時延。
3)IP網絡仿真模擬器。模擬實際IP網絡中可能存在的抖動和時延,測試添加特定的抖動和時延后被測終端的音頻質量。
4)控制電腦。負責測試流程控制和測試例管理以及測試結果分析。
5)待測終端。支持LTE/WCDMA/GSM等典型網絡制式,并具備CSFB(Circuit Switched Fallback,電路域回落)和VoLTE功能。
由于LTE網絡高帶寬以及VoLTE語音全IP化的特點,測試時不但要考慮到基本的聲碼器驗證,還需考慮到IP網絡帶來的抖動和時延給高清語音通話帶來的各種影響,基于VoLTE的高清語音電學測試主要從以下幾方面進行。
1)聲碼器驗證測試。選取AMR-WB下典型速率的聲碼器驗證測試,即23.85Kbit/s和12.65Kbit/s。
2)IP傳輸損傷下的語音質量測試[7]。VoLTE解決方案下,語音和數據一樣均IP化,IP網絡固有的抖動和時延特點下的語音質量測試,這個時候通過IP網絡仿真模擬器引入抖動和時延,從而完成此時的MOS分測試。
3)數據業務并發下的語音質量測試。根據現有分組網絡的特點,需區分輕數據業務和重數據業務下的語音質量測試。輕數據業務測試可以通過ping包方式進行,而重數據業務下的測試可以通過UDP方式進行。
4)切換發生下的語音質量測試。需測試在VoLTE和WCDMA網絡之間發生SRVCC(Single Radio Voice Call Continuity,語音業務連續性)時的語音質量。
5)編碼速率轉換測試。AMR-WB為自適應編碼,在實際現網中,語音編碼速率會采用一個特定的編碼速率集合來進行轉換。如23.85 Kbit/s -12.65 Kbit/s -8.8 Kbit/s,因此需要測試在編碼速率轉換過程中,終端是否具備較好的語音質量。
通過以上分析可以看出,語音MOS分的測試存在各種特定的場景,不同終端在不同的場景下測試所取得的MOS,表現能力是不一樣的,為能更好地對終端語音質量進行管控,需要按照MOS分對終端的測試情況進行分類。通過圖4我們可以看出在不同MOS分下語音質量的分析情況。

圖4 POLQA下不同MOS分數語音質量分析
可以看出,當MOS分大于4.0時,語音頻率較為完整;在3.5~4.0之間時,個別語句的某些頻率成分會有缺失,有較不明顯的背景噪聲;2.5~3.5之間時,會產生部分聲音的缺失,頻譜與原信號有較大區別;當MOS分小于2.5時,背景噪聲非常明顯,聲音頻率的缺失更加嚴重[8];因此,為保障終端的語音質量,我們在進行終端定制時需盡量選取MOS分值較高、得分較為理想的終端。
今后基于用戶體驗的高清語音質量測評研究主要包括以下兩方面。
1)基于EVS(Enhanced Voice Services,增強語音服務)聲碼器的全高清語音質量測試。EVS是專門為VoLTE語音解決方案而設計打造的下一代高清語音通話編解碼方案,它能夠使得手機的通話達到全高清效果。從圖2中我們也可以看出,EVS編解碼器的頻寬范圍是從50Hz到接近20KHz的聲音都能夠納入其中,基本上已經涵蓋了人類的聽覺范圍,這種全高清的語音通話效果遠遠超過現在采用的手機語音通話和各種OTT服務。
2)基于高鐵環境下的語音質量測試[9]。截止2015年底,中國的高鐵1.9萬公里,占全國鐵路16%,占全球高鐵60%,并且時速高達250~380km/h,復雜的無線環境使得現有的高鐵網絡雖然網絡覆蓋較好,但是掉話率較高,通話效果不理想。而目前的高鐵乘客主要是高收入人群,終端客戶需要一個穩定、可靠、高清的語音環境,實驗室中我們可以通過射頻信道仿真器來模擬高鐵環境下復雜的無線場景,配置相關網絡參數,并輔以音頻分析儀來實現高鐵環境下的語音質量測試。
參考文獻
[1] 溫秋燕.VoLTE高清語音解決方案研究[J].數字技術與應用,2015(4):27-28
[2] 周晶,葉丹.運營商LTE語音解決方案研究[J].集成技術,2013(3):79-81
[3] 狄德海.WCDMA手機音頻測試[J].中國測試,2009(1).125-128
[4] YD/T 1538 數字移動終端音頻性能技術要求及測試方法[S].CCSA,2013:10-19
[5] 向羅勇,朱斌.TD-SCDMA、WCDMA、GSM終端音頻一致性測試介紹及分析[J].現代電信科技,2011(8):34-37
[6] 姜先貴,李勇輝,朱斌等.VoLTE語音質量研究[J].郵電設計技術,2015(10):51-55
[7] 陳志偉,胡志國.IP網絡語音質量評價方法研究[J].計算機與現代化,2013(2):185-188
[8] 許可.VoLTE語音質量評價方法及測試方案[J].電信網技術,2014(5):81-84
[9] 王曉東,王惠生,謝保鋒.高速鐵路GSM-R語音質量評估研究[J].鐵路技術創新,2012(1):82-84