楊素素
(南京航空航天大學金城學院,江蘇南京,210000)
由于每個人發出的語音中帶有各自語音信號特征,因此語音信號同其他信號一樣具有頻率、周期、能量等特征參數[1]。姚文冰指出:短時間內語音信號通過自回歸(AR)模型由均值為零的高斯白噪聲e(n)通過激勵線性時不變系統A(Z)產生,線性時不變系統傳輸函數最小,通過高階積累量能夠有效減少背景噪聲影像,而應用高階譜分析技術能夠有效提高語音編碼中的抗噪聲能力[2]。為能夠直觀清楚的辨別擁有共同特征參數的不同說話者的語音,通過AR參數模型雙譜估計計算語音信號雙譜,利用高階累積量抑制高斯噪聲,使得語音信息特征研究更趨于直觀,提高語音辨別效果。




兩式中x*(n)是x(n)的共軛復數,通過Hilbert變換得到復數信號后,當3ω由1ω、2ω二次相位耦合后3ω=1ω+2ω,x(t)為耦合信號,此時定義①中三階累積量及對角切片均為0,定義②中三階累積量及對角切片分別為:

通過上式可知①中雙譜運算過程及對角切片不含耦合信息成分,②中包含全部諧波分量且雙譜運算中保留所有諧波分量,(1.5)中僅含有諧波分量1ω、2ω,對角切片中僅含有諧波分量1ω、2ω。
在Labview環境中進行聲卡編程,自由設定聲卡參數,并通過Labview圖形化編程優勢實現傳統儀器模塊效果。語音信號輸入后通過信號調理電路,對信號進行放大、濾波、隔離及線性化處理正確識別聲卡,再通過PC機聲卡線路輸入或麥克風輸入形成信號輸入端口,將所獲取模擬語音信號通過A/D轉換后輸入計算機,經過Labview程序處理并保存。通過計算機聲卡特性將其設置為44.1kHz采樣頻率、雙通道、16位采樣比特數、手動采集,確保數據采樣過程中干擾程度最小,實時波形穩定。語音數據采集過程中要保證環境相對安靜,外部嘈雜聲音較小,參與實驗的人員以語速穩定、心情平穩、緩慢的形式錄制固定數字的一段話,在Labview程序中設置好保存路徑后將語音錄制文件保存為WAV形式[3]。Labview程序數據分析包能夠提供多種語音信號處理程序,包塊信號調理、波形測量、信號監測等,常用濾波器形式也比較多樣,因此在使用過程中只需輸入對應指標參數即可[4]。
在實數域內對不同性別語音信號雙譜運算及對角切片結果進行分析,對比兩組男女生語音信號雙譜圖可發現,男生雙譜圖的譜峰分布比較廣泛,但女生的分布比較集中。但整體對角切片圖變化特征不夠明顯。
圖1分別對對應的復數域內根據公式①進行重新分析,圖1中1.1(a)譜峰多且比較尖細,對角切片中主峰位置在200Hz處,而1.1(b)中主峰比較粗大,雙譜運算圖中下部峰也比較粗,對應的對角切片主峰位置在175Hz處。圖1.2(a)中出現三個比較高的峰譜,對應的對角切片主峰位置在168Hz處,圖1.2(b)中主峰只有一個且比較尖細,對應的對角切片主峰位置在160Hz處,從圖1中可以看出經過公式①的運算處理后,不同性別語音信號的雙譜運算結果及對角切片結果更加清晰簡潔,能夠分別出不同聲音信號的特征,區分聲音。

圖1 復數域內根據公式①處理后的雙譜及對角切片譜
圖2分別對對應的復數域內根據公式②進行重新分析,圖2.1(a)中出現三個比較高的峰譜,雙譜運算圖中三個峰譜均比較粗,對應的對角切片主峰位置在 165Hz處,圖 2.1(b)中主峰只有一個,較粗,下部峰較粗,對應的對角切片有兩個比較高的峰譜,其中主峰位置在165Hz處,兩位男生語音信號對角切片主峰位置雖然很接近,但其余下部峰有明顯區別。2.2(a)譜峰多、尖細且比較集中,對角切片中主峰位置約在165Hz 處,2.2(b)中主峰共有三個,尖細且集中,雙譜運算圖中下部峰基本為零,對應的對角切片主峰位置在125Hz處。從圖2中可以看出經過公式②的運算處理后,對角切片圖譜的區別比較明顯,且雙譜圖較未處理過的更為集中,亦能夠分辨聲音信號特征。

圖2 復數域內根據公式②處理后的雙譜及對角切片譜
以上分析中可以看出每個人的語音信號雙譜圖與性別、語言、音色等有一定相關性,不同之處越多,雙譜圖及對角切片圖的變化越明顯。由于三階累積量的定義方式有所區別,但不同的定義方式下處理后的雙譜圖及對角切片圖均能夠區別語音信號特征比較相近的信息,使譜圖更加準確、清晰。
語音信號雙譜圖之所以有很大區別,其原因在于不同因素影響下雙譜圖差別比較明顯,影響因素越多,差別越大。通過雙譜圖能夠有效區分不同語音信號特征的人,提升語音信號辨別準確水平,同時雙譜圖分析對語音因素變化十分敏感,可有效處理信號變化,是語音信號辨別的一種行之有效的手段。