面向戰場環境下的語音傳輸與重構

2022-12-01 12:52:18邵玉斌劉晶龍華李一民

兵工學報 2022年11期

邵玉斌，劉晶，龍華，李一民

(昆明理工大學信息工程與自動化學院，云南昆明 650500)

0 引言

電話是人們進行交互的最直接的遠程通信方式[1]。然而通信的頻譜資源有限，使得語音傳輸資源緊張[2]。在軍事演習或實戰中，戰場環境下充斥著各種人為干擾和軍事噪聲，在緊張頻譜資源下高效的話音壓縮編碼和噪聲抑制方法將是提高海陸空的信息快速交互和語音質量的重要途徑[3]。

Donoho等[4]提出利用壓縮感知技術對語音信號進行壓縮，可有效提高信號的傳輸效率，再通過重構算法恢復原始信號，從而能在音頻傳輸時減小頻譜資源開銷。但是，戰場環境下語音信號會帶有大量的背景噪聲，導致重構語音質量不好[5]。目前，含噪語音壓縮感知的重構算法主要有基追蹤[6]、匹配追蹤算法[7]以及貝葉斯算法[8]等。孫林慧等[9]提出含噪語音信號的自適應基追蹤去噪算法；楊真真等[10]提出含噪語音壓縮與重構的自適應共軛梯度重構算法；季云云等[11]提出針對脈沖噪聲的貝葉斯稀疏重構算法，都能夠在一定程度上取得較好效果，但是，這些算法復雜度高，重構時間長。為此，張殿飛等[12]提出壓縮感知自適應快速重構算法；馬春等[13]提出改進Kalman濾波L1模加速算法的語音信號重構；Kim等[14]提出一種視頻編碼方案的語音壓縮傳輸方法；Abbas[15]提出了基于離散小波變換和混沌信號的語音壓縮算法；Qin等[16]提出了基于貝葉斯壓縮感知的數據壓縮方法。實驗發現，以上方法在高壓縮比和低信噪比下重構的語音質量不佳，而且要求重構信號必須具有一定的稀疏性。

本文針對各類戰場環境噪聲的高壓縮比的語音傳輸與重構進行研究，將語音傳輸轉為圖像傳輸，提出一種基于語譜圖壓縮傳輸和重構的方法。首先將語音信號壓縮為語譜圖進行傳輸；再在接收端對圖像進行去噪；最后根據圖像重構出語音信號。實驗結果表明，本文方法在一定程度上解決了高壓縮比和低信噪比下重構語音質量不佳問題，達到了提高重構語音質量的目的。

1 構建語音傳輸和接收模型

聲音和圖像是聽覺和視覺上兩種模態接收的輸入信息，在數字處理領域各自有不同的處理方法[17]。考慮到可以進行視聽覺交互融合的方式進行信息交流，本文將語音信號壓縮為語譜圖信號傳輸。對語譜圖的研究表明：語譜圖包含大量的語音學信息，語音學家可以通過語音學知識和發聲特征解釋語譜圖[18]。因此對語譜圖進行傳輸再重構是可行的。

1.1 傳輸模型

將語音信號壓縮為二維灰度語譜圖信號。具體流程如下：

1)將語音信號x(n)進行分幀，n為離散信號時間序列，幀長為M，M為偶數，幀移為零，從而壓縮圖像的大小。再對每幀信號加窗，防止頻譜泄漏，采用的是漢明窗，加窗后的第i幀信號為s(i)(n)。

2)將信號s(i)(n)進行短時傅里葉變換后再求功率譜：

(1)

P(i)(k)=|X(i)(k)|2

(2)

式中：X(i)(k)為第i幀信號的離散傅里葉變換后的結果，k為傅里葉變換的第k個頻譜，1≤k≤M/2；P(i)(k)為功率譜。由于幅度譜對稱，因此取一半求功率譜P(i)(k)。

3)求對數的功率密度譜，定義如下：

(3)

LM ×M2

圖1 壓縮后的語譜圖

1.2 接收模型

由于本文方法應用于噪聲環境下的語音傳輸，語譜圖上夾帶噪聲，而且在信道傳輸的過程中也會有噪聲干擾。因此，本文引入自動色階算法[19]進行圖像增強處理，再逆向還原幅度譜矩陣。具體步驟如下：

1)利用直方圖統計語譜圖像素矩陣x的像素值，將像素值高于高閾值的部分置為255，將像素值低于低閾值的部分置為0。由于大部分噪聲像素值低于低閾值，將低于低閾值部分置為0，從而實現對噪聲的抑制。像素值在高低閾值之間采用線性量化的方法重新分配像素值，使圖像更具有層次感和目視效果。閾值定義如下：

Mmin=max (x1),x1(n)=x0(n) 1≤n≤K×α

(4)

Mmax=max (x2),x2(n)=x0(n)
1≤n≤K×(1-β)

(5)

式中：Mmax為高閾值；Mmin為低閾值；x0為總像素值從小到大排列向量；x1為低于低閾值的向量；x2為高于高閾值的向量；α、β為可控色劑因子取值；K為像素點的總個數。“可控色劑因子”指的是控制高低閾值大小的可調節因子，將第K×α個像素值設定為低閾值和第K×(1-β)個像素值設定為高閾值。線性量化的公式如下：

(6)

式中：s為閾值之間的像素最大值；l為閾值之間的像素最小值；Rz為高低像素閾值之間的像素值；R為量化后的像素值。圖2為不同噪聲源5 dB語音原始語譜圖和采用自動色階算法增強語譜圖的圖像，可控色劑因子α=0.7、β=0.005。從圖2中可以看到噪聲明顯減弱，語義信息凸顯。圖2中，噪聲代號說明：N1為白噪聲，N2為粉紅噪聲，N3為高斯信道噪聲，N4為軍用車輛噪聲，N5為F16駕駛艙噪聲，N6為機槍噪聲，N7為攻擊機駕駛艙噪聲，N8為驅逐艦作戰室背景噪聲。

圖2 原語譜圖和增強后的語譜圖

2)將增強后的像素值矩陣轉換為對數功率譜矩陣，公式如下：

(7)

LM ×M2

式中：P′dB為轉換后維的增強對數幅度譜矩陣；R為增強后的像素值矩陣；ε為對數能量的顯示范圍；η為最小的顯示范圍的絕對值。

3)將對數功率譜矩陣轉換為幅度譜矩陣，公式如下：

(8)

式中：P2為轉換后的幅度譜矩陣；PdB(j,i)為矩陣第j行第i列的對數幅度值。

2 語音重構模型

語音的頻譜由相位譜和幅度譜兩部分組成，缺少任何一部分還原到時域時，會導致語音質量下降。在1.2節中已經得到語音的幅度譜矩陣，因此只需要重構出相位譜即可得到語音信號。本文提出正弦模型(SM)、噪聲模型(NM)、發聲模型(VM)，分別對語音進行重構。

2.1 正弦重構模型

由于絕大多數周期信號均可以分解為一至無數個不同頻率的正弦信號，本文考慮采用正弦信號進行語音重構。具體步驟如下：

(9)

式中：Z為組合正弦信號。

2)將組合正弦信號進行分幀，幀長為M，幀移為0。得到分幀后的矩陣Z1。

3)用(8)式得到的幅度譜矩陣對Z1進行變換，公式如下：

Z2(j1,i)=Z1(j1,i)×P3(j1,i),1≤i≤ LM ,

1≤j1≤M

(10)

(11)

式中：替換：Z2(j1,i)為第j1行第i列變換后正弦矩陣數值；Z1(j1,i)為正弦矩陣的第j1行第i列的數值；P3(j1,i)為對稱幅度譜矩陣的第j1行第i列的數值；P4為P2上下翻折所得到的矩陣；P3為上下對稱的的矩陣。將調整的Z2逆分幀得到重構語音信號序列Z3。

2.2 噪聲重構模型

高斯信號近似等于無數個相位和幅度都是隨機的正弦信號疊加的結果，在頻率上是連續的，從而更好地模擬聲道中的氣流，因此可以采用噪聲進行信號重構。具體步驟如下：

1)產生采樣率為fs，長度為L的零均值單位方差高斯白噪聲信號序列Y(n)～N(0,1)。

2)對Y(n)進行分幀處理，幀長為M，幀移為0，得到分幀后的矩陣Y1。

3)用(8)式得到的幅度譜矩陣對Y1進行轉換，公式如下：

Y2(j1,i)=Y1(j1,i)×P3(j1,i)

(12)

式中：Y2為變換后的矩陣。通過對Y2逆分幀得到重構的語音信號Y3(n)。

2.3 發聲重構模型

長期研究表明，語音信號可以視為由激勵模型產生的信號，通過聲道模型和輻射模型的級聯產生的[20]，因此采用發聲模型可以重構出語音信號。具體步驟如下：

1)語音信號具有短時平穩性，因此(8)式得到的幅度譜估計每幀的單脈沖響應，作為聲道模型FIR濾波器。先求取對數幅度譜，公式如下：

P5(j,i)=10lgP2(j,i)

(13)

式中：P5為對數幅度譜。再對P5作離散余弦變換得到P6，這樣方便將聲門激勵和聲道激勵分離。以倒譜中的第λ=25條譜線為界，用1～25區間構建聲道沖激響應倒譜矩陣，公式如下：

(14)

式中：P6(j)為矩陣的第j行；G為聲道沖激響應倒譜矩陣。對G進行逆離散余弦變換得到聲道沖激響應頻域矩陣G1，對矩陣G1取反對數，再進行翻折變換，公式如下：

(15)

(16)

式中：G2為反對數后的聲道沖激響應頻域矩陣；G3為G2上下翻折后的矩陣；G4為上下對稱矩陣。再對G4進行逆傅里葉變換取實數部分，得到聲道模型全極點濾波器矩陣G5。圖3為聲道濾波器沖激響應在一幀內的波形。

圖3 一幀單脈沖響應波形

為了加快計算效率，對每幀256點取沖激響應最高峰128點左右能量集中的部分，本文取經驗值[67,190]之間的沖激響應點數，該范圍的能量占總能量的96%，構造新的沖激響應矩陣G6。

2)根據倒譜法估計清音濁音，濁音的倒譜中可以清晰地看到基音峰突出，而清音的倒譜中基本沒有出現基音峰。因此可以(8)式得到的幅度譜矩陣估計出清音和濁音，從而采用不同脈沖激勵聲道模型。先對P5作逆傅里葉變換得到倒譜域矩陣P7，濁音和清音估計公式如下：

(17)

式中：P7(i)為矩陣的第i列數據，即第i幀數據，1表示該幀為濁音，2表示該幀為清音。max(|P7(i)|)-min(|P7(i)|)為最大峰與最小峰的差值。

1× LM

3)采用倒譜法估計基音周期。如果對數振幅頻譜包含許多規則間隔的諧波，則頻譜的傅立葉分析將顯示一個與諧波之間的間隔相對應的峰值：即基頻。從而得到維的基音頻率序列J。

1×( LM ×M)

1×( LM ×

4)再采用三次樣條插值法生成幀與幀之間更加平滑的維的基音頻率序列J11。然后將生成的序列通過壓控振蕩器生成M)維的脈沖壓控信號J1。

5)研究表明聲帶振動類似于斜三角脈沖[20]，因此將生成的J1的沖激部分采用斜三角波形替代，斜三角波形公式如下：

(18)

式中：N1=4,N2=5，替代后的壓控信號序列為J2。圖4為一幀壓控輸出信號的波形。

圖4 一幀壓控輸出信號的脈沖波形

6)通過不同脈沖去激勵聲道模型，如圖5所示。

圖5 發聲重構模型

其中，J3(i)為矩陣的第i列數據，J3為J2分幀后的壓控信號序列矩陣，Q(i)=1即該幀為濁音，采用壓控信號序列脈沖激勵該幀聲道模型，Q(i)=2即該幀為清音，采用高斯噪聲脈沖激勵該幀聲道模型。從而得到語音信號分幀矩陣Z3，進行逆分幀得到未經過輻射模型的語音信號序列Z4。

7)聲道模型相當于兩次低通濾波，導致高頻部分弱化，因此需要經過輻射模型提高高頻部分，從而得到重構語音信號序列Z5。本文采用高通濾波和預加重組成輻射模型提高高頻部分。

3 實驗設計與結果分析

3.1 實驗設計

本實驗在MATLAB2019R上進行仿真，硬件的配置為Win10，運行內存為8 GB，處理器Intel-i7-4710MQ。語料為中國廣播電臺的音頻，每段音頻為10 s，采樣率為8 000 Hz，16位單通道的wav格式漢語音頻。分別與白噪聲、驅逐艦作戰室背景噪聲、軍用車輛噪聲、高頻信道噪聲、粉紅噪聲、F16座艙噪聲、攻擊機駕駛艙噪聲和機槍噪聲構造SNR=[0 dB,5 dB,10 dB]帶噪語音，噪聲來源于Nonspeech公開噪聲庫。重構語音質量采用客觀平均意見得分(PESQ)作為評價指標，PESQ分取值范圍為-0.5～4.5，PESQ是由P.862的PESQ程序對比原始語音與重構語音打分得出的。語音傳輸采用的是壓縮比[21]作為評價指標。去噪效果采用的是平均信噪比(ASNR)作為評價指標。壓縮比的計算公式如下：

(19)

式中：F為壓縮前的信號大小；CR為壓縮后的信號大小。平均信噪比定義如下：

(20)

3.2 實驗結果分析

3.2.1 不同幀長下重構語音質量

先驗證不同幀長下語譜圖重構的語音質量，選取M=64和M=256分析本文提出的3種不同重構模型的差異。根據(21)式計算出語音數據量為160 kB。待重構語譜圖分辨率為312×128，量化位數為8，實際大小約為15.1 kB的jpg格式的圖片，根據(19)式計算可得ρ≈10。

(21)

式中：f為語音的采用率；d為量化位數；s為聲道數；t為語音總時間。

圖6為原始語音波形和語譜圖及3種重構模型不同幀長下重構語音波形和語譜圖。表1為3種重構模型平均意見的得分。

圖6 原始語音和重構語音的波形及語譜圖

表1 3種方法重構語音的PESQ分

從圖6和表1可知，發聲模型重構的語音質量高于其他兩種方法。由于發聲模型是基于人的發聲方式重構的，可以很好地重構出清音和濁音，相位和幅度都高度重構，從而使得聽覺上更優于其他兩種方法，本文采用訊飛語音識別軟件，精確識別出了語音的內容。噪聲重構模型的優點是不存在卡頓和無聲調發聲現象，這是因為在頻率和時間上斷層被噪聲所彌補，從而稍微平滑，但是一直伴隨著少量的噪聲存在。正弦模型的優點是可以很好地重構出語音的波形和語譜圖，但是在M=64時，頻率上存在斷層，導致語音沒有聲調；M=256時，時間上存在斷層，導致語音出現卡頓現象，但是在聽覺上依然很清楚。由于M=64時，語音聲調總體質量不如M=256，因此本文后續在M=256上進行實驗。

3.2.2 不同壓縮比下重構語音質量

為了驗證本文方法無噪語音條件下，不同高壓縮比重構語音質量。下面分別采用文獻[6]基追蹤、文獻[22]快速重構算法(FRAT)、文獻[12]自適應快速重構算法以及本文提出的3種重構模型對壓縮比為ρ≈10和ρ≈40的語音進行重構。壓縮比ρ≈10選取的語譜圖分辨率為312×128，約為15.1 kb的jpg格式的圖片，壓縮比ρ≈40選取的語譜圖分辨率為156×64，約為3.8 kb的jpg格式的圖片。實驗結果如表2所示。

表2 6種方法重構語音的PESQ分

從表2中可以看出，在高壓縮比情況下，對比方法幾乎無法重構出語音信號。而本文提出的3種方法都可以相對較好地重構語音信號。ρ≈40時，接收到傳輸的語譜圖后，采用臨近插值處理的方法將分辨率156×64的語譜圖轉換為分辨率為312×128語譜圖，再進行語音重構，因此相對于ρ≈10時，語音質量有所下降，從而證明了本文方法在高壓縮比下有效。

為了驗證噪聲環境下不同方法重構語音的平均信噪比的大小。在壓縮比為ρ≈10，信噪比為10 dB的語音信號條件下對語音進行壓縮重構。實驗結果如表3所示。

表3 6種方法重構語音的平均信噪比

從表3中可以看出，在噪聲環境和高壓縮比下，對語音進行重構，對比方法重構的語音的平均信噪比低于原始信號的平均信噪比，是由于噪聲和抽樣的數據不足導致重構不理想。而本文提出的3種重構方法較原始語音信號在平均信噪比上都有些許提高，由于本文采用了圖像傳輸的方式，在提高壓縮比的同時，盡量減少了語音信號的抽樣，而且還采用了圖像去噪算法進行噪聲抑制，從而證明本文方法在噪聲環境下的進行語音重構有效。

3.2.3 不同信噪比下重構語音質量

由于對比方法在高壓縮比下，基本無法重構語音，下面僅驗證本文3種方法在不同噪聲環境的不同信噪比下，壓縮比ρ≈10的條件下重構的語音質量。分別測試在8種不同噪聲源下，不同信噪比環境下的語音重構質量。實驗結果如表3所示。表3中噪聲代號與圖2相同。

從表4可以看出，本文提出的3種重構模型在白噪聲、粉紅噪聲、高斯信道噪聲重構語音質量最優，在F16戰機噪聲和攻擊機駕駛艙噪聲環境下，重構的語音質量稍微有所下降，在驅逐艦作戰背景噪聲環境下，重構語音質量相對較差，機槍噪聲和軍用車輛噪聲環境下重構語音質量最差。結合圖2可知，頻率上均勻分布的噪聲采用自動色階算法可以很好地被抑制，從而得到較好的重構效果；噪聲在頻率上分布較為集中的情況下，導致圖像處理后，依然存在小部分噪聲存在，導致重構質量下降；噪聲大部分分布在頻率段較低的位置時，由于語音信號主要集中在中低頻部分，采用圖像處理的方法無法很好地抑制噪聲，導致重構出的語音依然存在噪聲的影響，導致語音質量差。從重構方法分析，在噪聲環境下，發聲重構模型效果最差，由于噪聲影響導致語音的相位無法較好地重構，從而使得隨著信噪比的降低重構語音質量急劇下降。正弦重構模型次之，隨之信噪比的下降，無法將噪聲全部抑制，導致重構出的語音具有滋滋聲，從而影響聽覺，導致語音質量不佳。噪聲重構模型最佳，由于圖像處理后語音較弱的部分被噪聲間接增強，卡頓部分被噪聲銜接上，導致滋滋聲不明顯，從而提高了重構語音質量。

表4 不同方法重構語音的PESQ分

3.2.4 不同方法重構語音時間

采用AFRAT、以及本文的提出的三種重構方法重復實驗10次，對比AFrat、SM、NM、VM4種重構模型的重構語音時間對比。實驗結果如表5所示。

表5 4種方法重構語音時間

從表5中可以看出：VM模型重構時間最短，由于只存在卷積運算，而且只取部分有效脈沖響應，從而重構速度快；NM的重構速度次之，由于NM重構模型存在矩陣運算，相對于VM模型，重構速度稍慢；SM模型相對于NM模型，由于SM有多個矩陣運算，導致重構時間增加很大；AFrat模型隨著語音信噪比的增大，重構時間增大，由于AFast模型選擇的原子個數接近于稀疏向量的行數，從而導致的浮點計算增大。

根據上述實驗結果及分析可知，在高壓縮比和不同噪聲源下，本文提出的噪聲重構模型具有較好的重構性能；在高壓縮比和無噪環境的情況下，本文提出的發聲重構模型具有較好的重構性能。

4 結論

本文針對高壓縮比和戰場環境下語音重構性能差甚至無法重構的問題，提出了一種基于圖像傳輸處理的語音傳輸重構一體化模型。根據聲音和圖像是聽覺和視覺兩種交互形式，將語音轉換為內存更小圖像進行傳輸；考慮到戰場環境噪聲復雜，引入圖像增強技術，抑制環境噪聲；最后根據不同的重構模型進行語音重構。實驗結果表明：高壓縮比及無噪的情況下，基于發聲重構模型具有很好的重構性能；在高壓縮比及噪聲環境下，基于噪聲重構模型能較好的重構出語音信號，語音質量也能達到人耳接受范圍。后續繼續在高壓縮比以及語音重構質量上進行提高，實現傳輸和重構一體化智能系統。