(東北大學 信息科學與工程學院, 沈陽 110004)
摘 要:給出了一種新的語音信號的可視化方法,利用基于小波變換的時頻分析方法來模擬基底膜帶通濾波器的特性,克服了SFT(短時傅里葉變換)分析對高、低頻段具有相同的時間分辨率和頻率分辨率的缺點。對經(jīng)過小波變換濾波后的語音信號進行特征編碼形成語音的組合特征,將該組合特征作為一個新的特征量來表示語音信息,并將這種特征用簡單的圖形表示出來。利用聾啞人自身的大腦來識別語音,達到訓練其口語的目的。
關鍵詞:語音可視化;小波變換; 組合特征
中圖分類號:TP391.42 文獻標志碼:A
文章編號:10013695(2009)01009403
Speech visualization based on wavelet transform
WANG Xu, XUE Lifang, YANG Dan, HAN Zhiyan
(College of Information Science Engineering, Northeastern University, Shenyang 110004, China)
Abstract:This paper described a new speech visualization method that created readable patterns by integrating combined feature into a single image. The system made use of timefrequency analysis based on wavelet transform to simulate the bandpass filter property of basilar membrane. The method remedied the defect that short fourier transform(SFT) had the same timeresolution and frequencyresolution to different frequency ranges. The auditory feature was displayed on the CRT by plot patterns and the deaf could utilize their own brain to identify different speech for training their oral ability effectively. Firstly, speech signal underwent a series of preprocessing course. Secondly, made use of wavelet transform to process timefrequency analysis for speech signal and extracted the feature value for speech visualization. Then calculated that the feature value lay in which place in full array and obtained the combined feature value. Finally, utilized plot display algorithm to generate a speech plot.
Key words:speech visualization; wavelet transform; combined feature
語音信息的傳遞是人們相互交流最方便、最自然的手段。一部分聾啞人不能說話是因為他們的聽覺器官遭到損壞,不能將語音信息采集到大腦,但發(fā)音器官是完好的。這種情況下的聾啞人,如果輔助于一些視覺訓練系統(tǒng),經(jīng)過一段時間的專門訓練是可以學會說話并與健全人進行交流的。對這種將語音信息轉換為可以用視覺識別圖像的輔助聾啞人語音訓練系統(tǒng)自20世紀60年代中期以來在國內外都有很多研究[1,2]。這些方法主要分為三種:
a)系統(tǒng)向學習者提供聲音的靜止或動態(tài)圖像來誘導學習者發(fā)音,但并不對學習者的發(fā)音進行分析和評價,這種系統(tǒng)多采用數(shù)據(jù)庫來組織語音圖像數(shù)據(jù)[3,4]。
b)系統(tǒng)通過麥克風、攝像頭等感知器來獲取學習者發(fā)音時的語音和其他信息,通過分析后在屏幕上反饋并與正確發(fā)音進行比較(如顯示語音的響度、基音、頻譜及發(fā)音器官的運動等)[5,6]。
c)對學習者的發(fā)音進行準確性評分,并將其結果反饋給學習者[7]。
但是到目前為止,這些系統(tǒng)大多采用單一的語音特征表示方法,不僅識別率不高,而且顯示的信息過于專業(yè)化,不宜為聾啞人理解接受。本文介紹一種新型的視覺訓練系統(tǒng),它仿照人類聽覺神經(jīng)系統(tǒng)作用來提取語音信息,再對語音信息進行特征編碼得到一種組合特征矢量并通過圖形顯示出來。這種新的語音表示方法只需要進行簡單的訓練,根據(jù)人類大腦自身反饋和極強的視覺識別功能就可以進行語音的辨識。
1 聽覺生理基礎
聽覺系統(tǒng)由耳廓、外耳道、鼓膜、聽小骨、耳蝸及聽覺神經(jīng)組成。耳廓收集聲音經(jīng)外耳道到鼓膜到聽小骨到耳蝸到聽覺神經(jīng)送入大腦[8]。在這段路程中,由于外耳道的形狀,在聲音到鼓膜前將聲壓放大3~6 dB,通過聽小骨形成的一套機械杠桿再次將聲壓放大1.5倍,然后是骨傳導產生更大的放大約22倍。V.GonBeKesy用正弦信號對耳蝸中的基底膜進行研究,得出以下結論:基底膜的聽覺響應與刺激頻率有關。頻率較低時,靠近耳蝸尖部的基底膜產生響應;反之頻率高時,則靠近圓形窗的窄而緊的基底膜產生響應,基底膜頻率響應的空間分布導致基底膜上不同的位置的柯蒂氏器官的纖毛細胞對不同頻率的聲音彎曲,從而刺激附近的聽覺神經(jīng)末梢產生電化學脈沖,并經(jīng)聽覺神經(jīng)傳遞給大腦。整個過程類似一組恒定品質因數(shù)的帶通濾波器,其頻域分析特性類似于一個小波分析器。
2 基于小波變換的時頻分析方法
小波變換是一種信號的時間—尺度(時間—頻率)分析方法[9],它具有多分辨率分析(multiresolution analysis)的特點,而且在時頻兩域都具有表征信號局部特征的能力,是一種窗口大小固定不變但其形狀可以改變,即時
間窗和頻率窗都可以改變的時頻局部化分析方法。在低頻部分具有較高的頻率分辨率和較低的時間分辨率,在高頻部分具有較高的時間分辨率和較低的頻率分辨率,所以被譽為分析信號的數(shù)學顯微鏡。小波的這種特性克服了SFT分析對高、低頻段具有相同的時間分辨率和頻率分辨率的缺點,使之成為分析非平穩(wěn)信號的一種有效手段。語音信號正是非平穩(wěn)信號。
小波變換最早是由法國地球物理學家Morlet于20世紀80年代初在分析物理信號時提出來的,它定義為
Wx(a,τ)=(1/a)∫x(t)φ*[(t-τ)/a] dt=〈x(t),φaτ(t)〉(1)
φaτ(t)=φ[(t-τ)/a]/a(2)
其中:Wx表示信號x(t)的小波變換;*表示取共軛;φ(t)為基本小波(母小波)函數(shù);φaτ(t)為基本小波的位移與尺度伸縮;a是尺度因子,τ是位移。
從頻域看,在不同的尺度a下,小波變換相當于用一組恒定品質因數(shù)的帶通濾波器對信號進行分析。可見,小波變換的多分辨分析特性與聽覺系統(tǒng)的基底膜的頻率分析特性很相似。
3 系統(tǒng)原理及構成
基于以上的理論分析和對語音相關的聲學特征的研究,仿照人類聽覺神經(jīng)系統(tǒng)的作用提出了一種新的語音信號的可視化方法。它利用基于小波變換的時頻分析方法來提取語音信息,再對語音信息進行特征編碼得到一種組合特征向量,將其作為新的特征向量來表示語音。不同的語音由于其組合特征向量的不同,從而形成不同的圖案以達到識別的目的。一個完整的語音圖譜顯示系統(tǒng)(圖1)由以下幾個部分組成:
a)語音信號預處理。語音信號經(jīng)過一系列預處理過程,包括預濾波、量化、預加重和端點檢測等。
b)語音信號特征分析。系統(tǒng)利用小波變換對語音信號進行時頻分析,提取語音信號的聽覺特征。
c)語音信號特征編碼。系統(tǒng)通過計算小波濾波后特征值的排列組合情況來獲取語音信號的組合特征向量。
d)語音圖譜顯示。系統(tǒng)通過圖形顯示算法來生成語音圖譜,該算法包括坐標系劃分、面積計算和特征值坐標計算三個部分。
3.1 語音信號特征分析
為了保證不同分析尺度下得到的各通道信號幅度相一致,采用Mallat對小波變換的另一種定義[10]為:
Wx(a,τ)=(1/a)∫x(t)φ*((τ-t)/a) dt=〈x(t),φaτ(t)〉(3)
φaτ(t)=φ((τ-t/a))/a(4)
對于連續(xù)小波變換,尺度a的確定可以由各通道的中心頻率計算求得。對于Morlet、Daubechies等小波,尺度a=2時對應的中心頻率為 3/4×(Fs/2)(Fs為語音信號的抽樣頻率)。根據(jù)小波變換的恒Q特性,對于給定的中心頻率w0,其對應的尺度為
a=3/4×(Fs/2)×(2/w0)(5)
表1給出了文獻[11]中的6通道帶通濾波器的中心頻率及計算所得小波變換的尺度a(Morlet小波)。
表1 6通道帶通濾波器的中心頻率及對應的尺度
W0/HzaW0/Hza
39321.041 6854.91
63912.942 7363.02
1 0377.974 4431.86
3.2 語音信號特征編碼
a)將所有采樣點的每個通道濾波后所有能量值按幅值平均分為五個區(qū)間,每一個區(qū)間的遞增大小為
E=(max(f)-min(f))/5(6)
其中:max(f)、min(f)是所有采樣點濾波后得到能量值的最大值和最小值。五個區(qū)間定義為m1~m5,對應min(f)~max(f)。這樣某一時刻(某個采樣點n)小波濾波后的每個能量值f都落在五個區(qū)間的某一個區(qū)間中。
b)進行特征組合值的計算。計算出每一個時刻的c個能量值所對應區(qū)間的排列。小波濾波后如果輸出的c個能量值都比較小,都落在第一個區(qū)間,則定義為1;小波濾波后如果輸出的c個能量值都比較大,都落在第五個區(qū)間,則此數(shù)值與全排列的個數(shù)相同,為mc。n時刻特征組合值就是找出此時刻小波濾波后輸出的c個特征值是全排列中的第幾個排列值。
3.3 語音圖形顯示
本文通過對元音的特征組合值的多次實驗表明一些單元音的特征值數(shù)值較小,如[o]、[u],而另一些單元音的特征值數(shù)值較大,如[a]、[e];而雙元音存在著前元音向后元音過渡的情況。為了區(qū)分每個單元音并反映這種過渡情況,將坐標平面的橫縱坐標軸按組合特征值的數(shù)值大小平均分成55等份。由于語音的分布不均勻性,每一份所代表的組合值并不相同。最初的坐標(序號1~15)分割較細,可以區(qū)分出特征值數(shù)值較小的不同元音;中間的坐標(序號16~45)占的范圍比較大,因為很多雙元音都是以特征值數(shù)值較大的語音開始;后面的坐標(序號46~55)占的范圍較小,因為語音特征值在此段出現(xiàn)對應數(shù)值的幾率較低。
面積計算即是為了計算分割后的坐標平面的每一個區(qū)域的面積,為的是將此范圍內的包含的點均勻地分布其中。特征值坐標計算流程如下:
a)輸入點的特征值,計算此點落在坐標系的第幾個區(qū)域內;
b)是否在第一個坐標區(qū)域中?若是,x=sum mod 10,y=sum/5;
c)若否,計算此坐標區(qū)域總共包含的點數(shù),得到該坐標區(qū)域的面積;
d)將特征值映射為此區(qū)域的值:x=(temp mod 10)+(k-1)×10,y=(s mod 10)+(k-1)×10;
e)輸出x、y,顯示圖像。
4 實驗和結果分析
本文中算法實現(xiàn)的試驗數(shù)據(jù)均取自標準語音數(shù)據(jù),圖2~4給出了元音[a]、[u]和[au]的圖形示例。從圖中可以得到以下結論:
a)相同顏色的圓表示組合特征值處在同一區(qū)域,數(shù)值相近。
b)顏色由藍向紅漸變,表示其組合特征值的數(shù)值逐漸加大。
c)[i]、[u]、[o]的組合特征值較低,集中在左下角,但[i]的圖譜較偏下,[u]圖譜中多為深藍色的圓,而[o]多為淺藍顏色的圓;[a]和[e]的組合特征值相對較高,并且圖案由紅色區(qū)域向左下方藍色區(qū)域逐漸生成,表示其特征值由高向低減小。
d)[au]的語音圖譜可以看成由語音[a]和[u]圖譜的合成,生成過程是先生成[a]的圖譜的形狀,再向[u]的圖譜過渡;[au]圖譜中淺藍色和淡綠色的圓,代表的是這種過渡過程,[ei]類似。
e)雙元音[ou]圖譜中由于每個單元音的特征值比較接近,過渡和圖案特征都不明顯。
5 結束語
本文提出了一種新的語音信號的可視化方法,將語音特征信息轉換為視覺信息,作為輔助聾啞人進行語音訓練的系統(tǒng)。聾啞人經(jīng)過一段時間的系統(tǒng)訓練后可以通過有規(guī)律的圖形來識別語音信號,避免了語音識別過程中的復雜性和不確定性,為語音信號的可視化研究提供了新的探索渠道。本文現(xiàn)階段只是對語音中單元音和雙元音的發(fā)音特征方面進行了初步的研究和嘗試,一些理論和應用實際問題有待于進一步的深入研究。
參考文獻:
[1]RUSSELL M J, SERIES R W, WALLACE J L, et al. The STAR system:an interactive pronunciation tutor for young children[J]. Computer Speech and Language, 2000,14(2):161175.
[2]BUNNELL H T, YARRINGTON D M, POLIKOFF J B. STAR:articulation training for young children[C]//Proc of the 6th International Conference on Spoken Language Processing. Beijing:[s.n.],2000:8588.
[3]ALONSO F, ANTONIO A, FUERTES J L, et al. Teaching communication skills to hearing impaired children[J]. IEEE Trans on Multimedia, 1995,2(4):5567.
[4]HSIAO M L,LI P T, LIN P Y,et al.A computer based software for hearing impaired children’s speech training and learning between teacher and parents in Taiwan[C]//Proc of the 23rd Annual International Conference on Engineering in Medicine and Biology Society. 2001:14571459.
[5]FARANI A S, CHILTON E. Auditorybase dynamical spectrogram[C]//IEEE UK Symposium on Applications of TimeFrequency and TimeScale Methods. Coventry: University of Warwick,1997:2729.
[6]OSTER A M. Teaching speech skills to deaf children by computerbased speech training[C]//Proc ofthe 18th International Congress on Education of the Deaf. 1995:6775.
[7]FRANCO H, NEUMEYER L, KIM Y, et al. Automatic pronunciation scoring for language instruction[C]//Proc of IEEE International Conference on Acoustics, Speech, and Signal Processing.Washington DC:IEEE Computer Society, 1997:14711474.
[8]YANG Xiaowei, WANG Kuansan, SHAMMA S A. Auditory representations of acoustic signals[J].IEEE Trans on Information Theory, 1992,38(2):824839.
[9]INGRAD DAUBECHIES. Ten lecture on wavelets[M].Philadelphia:Society for Industrial and Applied Mathematics, 1992.
[10]楊福生. 小波變換的工程分析和應用[M]. 北京: 科學出版社, 1999.
[11]DORMAN M F, LOIZOU P C, RAINEY D. Speech intelligibility as a function of the number of channels of stimulation for signal processors using sinewave andnoiseband outputs[J]. Journal of the Acoustical Society of America, 1997,102(4):24032411.