趙國棟,李栓紅,黃國策,田 偉
(1.空軍工程大學電訊工程學院,陜西 西安 710077;2.空軍第三飛行學院,遼寧 錦州 121001)
在地空通信中,語音通信作為一種重要的指揮手段,能夠實現指揮員與飛行員的直接對話,更好地完成戰術配合,在地空通信中發揮著極其重要的作用。短波在遠程語音通信中優勢突出,但現有短波語音通信還存在對空指揮通信盲區、跨區飛行時難以實時了解飛行通信指揮情況等問題需要解決。
因此要解決這些問題,短波地面臺站和各級指揮所的話音IP組網勢在必行。引入VoIP技術不僅可以實現短波臺站的共享、消除話音盲區,而且為話音的記錄與監聽,還為臺站的擴展提供了方便。而且近年來隨著網絡的不斷發展和普及,VoIP作為一種新興的網絡業務得到了廣泛的運用,VoIP的QoS技術也得到了完善和發展,可以滿足航空通信的需求。
承載網絡的性能(包括時延、時延抖動、丟包率等)是影響語音質量的主要因素[1]。語音編碼技術直接影響語音重構后的質量,特別是用于短波地空通信中,地面網絡采用的VoIP技術,在到達電臺后,語音解碼重構、重構后的語音能否適應短波信道的傳輸、會造成多大程度的語音質量損失在很大程度上受到地面VoIP的編碼技術的影響。
在實現短波地面臺站和各級指揮所的話音IP組網后,語音從指揮席送到飛行器要經過地面有線IP網和短波無線信道,流程如圖1所示。

圖1 語音傳輸流程
現有的語音壓縮編碼技術[2-3]主要有脈沖編碼調制(PCM)、適應脈沖編碼調制(ADPCM)、低延時代碼激勵線性預測器(LD-CELP)、共扼結構代數碼激線性預測(CSACELP)和多脈沖最大似然量化技術(MP-MLQ)。
語音編碼技術比較如表1所示。
歐洲的單一歐洲天空計劃(SERSA)最早提出在航空通信中采用VoIP技術,并很快得到了國際民航組織(ICAO)的認可,在2009年起草的ED-137文件中推薦采用的語音編碼標準有G.711 A率和μ率,G.728和G.729[4]。在本文中將對這4種編碼標準用于短波地空通信中的效果進行評估。

表1 語音編碼技術比較
本文主要是研究不同編碼技術對短波地空通信語音質量的影響,因此首先將地面網絡理想化,暫不考慮網絡性能對語音質量的影響。G.711 A率(A=86.7)和μ率(μ=100),G.728和G.729語音編解碼[5]通過Matlab7.8軟件編程實現。語音樣本采用含有中年男子和女子的語音片段“a.wav”,時長為10.6 s,語音的時域和頻域波形如圖2、圖3所示。


短波傳輸的仿真環境使用Matlab7.8的Simulink進行搭建。主要采用的技術和參數設置如下:
短波信道采用Watterson短波信道模型。短波傳輸以電離層為中繼的特點決定了短波信道存在著多徑時延、衰落、多普勒頻移、頻譜擴散、近似高斯白噪聲和電臺干擾等復雜現象。在此采用了Watterson短波信道模型[5],Watterson信道模型全面描述了短波信道的各種特性,經國際電信科學機構和實踐的研究證明是一個非常好的短波信道模型。Watterson模型如圖4所示。

圖4 Watterson模型原理框圖
Watterson模型利用N個抽頭延遲線來等效N條路徑。每個抽頭延遲不僅都有獨立的延遲τi,而且還具有一個增益函數Gi(t)與延遲了的信號x(t-τi)相乘。處理后信號的幅度和相位就進行了調整。Gi(t)是相互獨立的,它反映了衰落、頻譜擴散和多普勒頻移成分。Gi(t)可以表示為

式中:下標i代表第i條路徑;a,b表示對應路徑的2個磁離子分量;via,vib為指數因子,反映了第i條路徑2個磁離子分量的頻率擴散和多普勒頻移程度;Gia(t),Gib(t)代表第i條路徑兩個磁離子分量的幅度變量,是均值為零、相互獨立的復低通高斯過程樣本函數,反映了每條路徑的衰落程度;Gi(t)代表了乘性干擾。另外短波信道中還存在著加性干擾,可分為兩種類型:一類是高斯白噪聲NG(t),服從均值為零的正態分布;另一類是沖激噪聲NI(t),服從對數正態分布。那么,Watterson模型的輸出信號可表示為

使用Simulink實現短波語音Watterson模型[7],模型如圖5所示,首先將要發送的語音信號通過Wavread函數讀入到M文件中,然后對獲得語音信號進行Hilbert變換,得到實部和虛部正交的復信號,再通過To Frame模塊將基于采樣的格式轉換為基于幀的格式,之后將信號送入模型的核心單元Multipath Fading和AWGN信道,最后再將格式轉換為基于采樣的格式,分離實部和虛部,輸出到M文件中。

圖5 短波語音Watterson模型的Simulink框架
參數設置時,在Multipath Rayleigh Fading Channel和AWGN Channel中設置信道的多普勒頻擴(Doppler Spread)、多徑延遲時間(Delay Vector)和各路徑增益(Gain Vector)。采樣速率為12000 Hz,載頻為1800 Hz,采用雙徑模式(一條為主徑,一條為多徑),時延設為20 ms,衰落設為10 Hz,多普勒擴展為20 Hz,在AWGN Channel模塊中設置信道的信噪比為10 dB。
首先要采用不同的語音編碼技術對樣本a.wav進行編解碼,分別得到重構后的語音,再將重構后的語音送入短波電臺在接收端接收到最終的話音,不同編碼標準得到的話音如表2所示。

表2 不同編碼標準對應的重構語音
編解碼后的話音以及經過短波傳輸后的部分話音波形如圖6~10所示。

圖6 PCMAa.wav波形
通過PESQ模型[8],對經過編解碼和短波信道后的語音質量進行評估。PESQ評估模型是一種基于輸入-輸出方式的客觀評價模型,效果良好。與其他客觀評估算法相比,PESQ評估模型不僅采取了聽覺模型等比較先進的技術,同時也考慮了語音端到端的時延,對通信時延、環境噪聲都有較好的穩健性。



PESQ評估模型是將原始語音和輸出的語音信號經過電平調整、輸入濾波器、時間對準和補償、聽覺變換之后,綜合時頻特性,得到PESQ分數,最后將得分映射到主觀平均意見分(MOS)上,模型流程如圖11所示,PESQMOS值為-0.5~+4.5,語音質量等級與MOS值(取值范圍0~5)類似。不同的語音編碼技術對應的PESQMOS值如表3所示。



表3 不同語音編碼下的PESQMOS值
丟包率是影響質量的重要因素之一,在此利用Matlab程序對丟包率進行人為控制,通過50次重復仿真,得到不同丟包率下4種編碼算法的平均值如圖12所示。

圖12 不同編碼下語音質量受丟包率的影響
通過仿真結果可以看到編解碼后的語音質量評估值都能達到良好以上,而且G.711 A率和μ率編解碼后的語音質量要明顯好于G.728和G.729標準,但經過短波信道后,接收端的語音質量G.729,G.711 A率和μ率比較接近,G.728的值卻相對較小。由圖12可知,在丟包率小于3%前語音質量都未受到明顯影響,當丟包率逐漸增大時G.728和G.729受影響較大,當丟包率大于7%以后4種編碼技術下的語音質量急劇下降,語音質量損失嚴重,MOS值小于0.5,人耳識別困難。
以上結果說明,雖然經過G.728和G.729標準編解碼后的語音信號具有較為相近的PESQMOS值,但G.729標準重構后的語音信號對短波信道的適應能力要優于G.728標準。G.729標準重構后的語音信號與G.711 A率和μ率相比雖然對短波信道的適應能力相對較弱,但相差不大,如果再考慮地面IP網絡中語音包(ED137文件中推薦以20 ms的數據為一個語音包)的負載,G.729標準又相對占據了優勢。因此,如果地面IP網絡的帶寬足夠寬,建議采用G.711 A率或μ率,而如果帶寬受限,則建議采用G.729標準。
VoIP應用與航空通信領域,是近年來才提出的新課題,還未進入實用階段。本文以短波地空通信為背景,通過仿真實驗,為短波地空組網中地面VoIP話音編碼的選擇提供了參考意見。但由于短波信道采用的仿真環境與不穩定的真實傳輸環境還有差別,所以只能作為實際使用的參考。下一步的工作將以G.729標準為例,引入具體IP網絡,研究時延、時延抖動對航空語音通信的影響權值,從而設計出更適合與航空語音通信的QoS保證技術,提高接收端的語音質量。
[1]章學靜,何素娜,李金平.基于TMS320DM642的VoIP可視電話的關鍵設計[J]. 電視技術,2009,33(06):105-108.
[2]賈懋珅,鮑長春,李銳.8~64Kb/s超寬帶嵌入式語音頻編碼方法[J].通信學報,2009,30(5):27-34.
[3]張繼東,陸義寧.ITU-T中兩種低碼率語音編碼系統的性能比較[J].電聲技術,2001(12):6-8.
[4]ED-137,Interoperability standards for VoIP ATM components[S].2009.
[5]范睿,鮑長春,李銳.基于ACELP的嵌入式語音編碼算法[J].通信學報,2007,28(10):48-54.
[6]張爾揚,王瑩,路軍.短波通信技術[M].北京:國防工業出版社,2002.
[7]權明波,朱小明,吳江.基于Watterson模型的短波信道的Simulink研究與仿真[J]. 無線通信,2007,242(3):20-22.
[8]ITU-T P.862.2,Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs[S].2007.