韓志艷,王 健
(渤海大學 遼寧 錦州 121000)
基于神經網絡的漢語聲韻母可視化方法
韓志艷,王 健
(渤海大學 遼寧 錦州 121000)
為了克服現有語音可視化方法的局限性,該文提出了一種基于神經網絡的漢語聲韻母可視化方法,通過集成不同的語音特征進入一幅圖像中為聾啞人創造了語音信號的可讀模式。采用小波神經網絡來進行位置信息映射和顏色信息獲取,由于小波神經網絡具有結構可設計性、收斂精度可控性和收斂速度快的優點,有效地提高了漢語聲韻母的正確編碼率。而且將圖像分為12個不同顏色的顯示區域,每個顯示區域內的音具有相似的發音特點和相同的發音部位,這就更好地利用了聾啞人對色彩刺激的視覺記憶能力較強的優點。與現有方法相比,具有很好的魯棒性和易懂性。
語音可視化;神經網絡;語音信號;漢語聲韻母;特征提取;主成分分析
語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段。而對聾啞人來說,語言交流變成一件很難實現的事情,一部分聾啞人不能說話是因為他們的聽覺器官遭到破壞,不能將語音信息采集到大腦[1-2]。研究表明,人類聽覺系統和視覺系統是兩個性質不同的并具有互補性的信息系統,視覺系統是一個高度并行的信息接收和處理系統,人類眼球中視網膜上的數百萬個錐狀細胞通過纖維狀神經組織與大腦相連,形成一個高度并行的信道,視覺信道接受信息的速率是很高的,據測量和估算,看電視時的信息接收速率大致可達到2×104 b/s,這比聽覺系統聽語音時的信息接收速度高出上千倍,因此人們相信人類所獲得的信息有70%是通過視覺獲得的說法。所以對于聾啞人來說,這無疑就是一個很大的助手,聽覺的缺陷由視覺來補償,語音不僅能聽見,還可以通過多種其他形式使聾啞人“看”見[3-5]。
1947年R.K.Potter和G.A.Kopp等人就提出了一種可視化方法—語譜圖,隨后有不同的語音研究專家開始研究改進這種語音可視化方法,比如在1976年L.C.Stewart等人提出了有色譜圖和1984年G.M.Kuhn等人提出了對聾人進行訓練的實時的語譜圖系統,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了許多語譜圖的改進方法,但是顯示的語譜圖的專業性很強,而且很難辨別記憶。尤其是對于同一個語音不同的人來說,甚至是同一個語音同一個人來說都有可能造成語譜圖的變化,對于不同環境下錄制的語音信號其魯棒性能更為不好。
此外,還有一些學者對人的發音器官的運動變化以及面部表情的變化來實現語音可視化,有效地剖析了人的發音過程,但就其語音可懂度而言,還難以達到理想效果,除極少數專家以外,人們很難直接通過觀察發音器官的運動和面部表情的變化而準確地感知語音。因此,該文提出了一種基于神經網絡的漢語聲韻母可視化方法,與現有方法相比,具有很好的魯棒性和易懂性。彌補了用語譜圖來進行可視化很難辨別和記憶的缺點。無論是聽力受損人群還是普通人,經過一段時間的專門訓練,都可以直觀地辨識出該可視化圖像所對應的發音,并和健全人進行交流。
如圖1所示為本可視化系統的總體結構框圖,其包括語音信號獲取、語音信號預處理、語音特征提取、PCA降維、神經網絡設計、位置信息映射、顏色信息獲取及圖像合成。首先對獲取的語音信號進行預處理及特征提取,然后用主成分分析法PCA對獲取的語音特征參數進行降維處理,再通過神經網絡獲得相應的位置信息和顏色信息,最后通過圖像合成模塊生成可視化圖像,實現對23個聲母和24個韻母的可視化。

圖1 系統總體結構圖
2.1 語音信號獲取及預處理
利用麥克風輸入語音數據,然后以11.025 kHz的采樣頻率、16 bit的量化精度進行采樣量化,獲得相應的語音信號。然后利用一階數字預加重濾波器對獲取的語音信號進行預加重處理,其中利用的預加重濾波器的系數取值范圍為0.93~0.97之間。接下來以幀長256點的標準進行分幀處理,并對分幀后的語音信號加漢明窗處理,再利用短時能零積法進行端點檢測。
2.2 語音特征提取及PCA降維
步驟1:計算共振峰特征
采用基于Hilbert-Huang變換的方法來估算預處理后的語音信號共振峰頻率特征,得到每幀信號的共振峰特征值F1,F2,F3,F4。具體由快速傅里葉變換(FFT)初步估計出的語音信號的各階共振峰頻率確定相應帶通濾波器的參數,并用該參數對語音信號作濾波處理,對濾波后的信號進行經驗模態分解(EMD)得到一族固有模態函數(IMF),按能量最大原則確定出含有共振峰頻率IMF,計算出該IMF的瞬時頻率和Hilbert譜即得到語音信號的共振峰頻率參數[6]。
步驟2:計算WPTC特征參數
根據小波包變換在各分析頻段的恒Q(品質因數)特性與人耳聽覺對信號的加工特點相一致的特點,結合小波包對頻帶的多層次劃分,并根據人耳感知頻帶的特點,自適應地選擇相應頻帶,計算出基于小波包變換的語音信號魯棒特征參數(WPTC):WPTC1~WPTC20[7]。
步驟3:計算PMUSIC-MFCC特征參數
為改善語音可視化的魯棒性,采用多信號分類法(Multiple Signal Classification,MUSIC)的譜估計技術并在其中引入感知特性,計算出基于MUSIC和感知特性的魯棒特征參數(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC 12[8]。
步驟4:計算Mel頻率倒譜系數
根據人耳對不同頻率語音的感知特性,提出了Mel頻率的概念,從而計算出Mel頻率倒譜系數(MFCC):MFCC1~MFCC 12。具體將經過預處理后的每幀語音信號進行離散傅里葉變換得到線性頻譜,并通過Mel頻率濾波器組得到Mel頻率,然后取對數并進行離散余弦變換得到Mel頻率倒譜系數。
用主成分分析法PCA對上述語音特征參數進行降維處理[9-11],將初始的48維特征向量降為12維特征向量。
2.3 神經網絡設計
小波神經網絡是以小波基函數為神經元激勵函數的前饋網絡模型,它作為一種前向神經網絡,與基于Sigmoid函數的BP網絡和徑向基 (RBF)網絡相比,具有結構可設計性、收斂精度可控性和收斂速度快等優點[12-14]。該文中小波神經網絡采用3層結構,如圖2所示,其具體的設計步驟和學習算法參照文獻[15]。

圖2 小波神經網絡結構
2.4 位置信息映射
將PCA降維后的語音特征參數作為神經網絡的輸入,神經網絡的輸出即為相應的位置信息,神經網絡的輸出層有6個神經元,均采用二進制編碼,共有64個不同的碼,按著由左到右、由上到下的順序依次對應著圖像中的一個位置并用“0”、“1”組合進行編碼,如圖3所示,只用前47個碼,依次對應著a o e i u ü y w an en in un ün j q x b p m f d t n l ang eng ing ong zh ch sh r g k h z c s ai ei ui ao ou iu ie üe er。如000000代表第一行第一列的那個位置,對應著韻母a,000001代表第一行第二列的那個位置,對應著韻母o,以此類推。

圖3 位置信息映射示意圖
2.5 顏色信息獲取
神經網絡的輸出將特征編成64個不同的碼,其中只用前47個碼,按著由左到右、由上到下的順序,每個碼對應一個位置,通過給屏幕相應位置的RGB賦值,來獲取顏色信息。該文將圖像分成12個不同顏色的顯示區域,每個顯示區域內的音具有相似的發音特點或相同的發音部位。如碼000000,000001,000010,000011,000100,000101為1區,即單韻母區,設定R=0.95,G=0.75,B=0.68,顏色為桃紅色;碼000110,000111為2區,即y w區,設定R=0,G=0.95,B=0,顏色為綠色;碼 001000,001001,001010,001011,001100為3區,即前鼻韻母區,設定 R=0.52,G=0.38,B=0.76,顏色為藍紫色;碼001101,001110,001111為4區,即舌面前音區,設定 R=0.25,G=0.52,B=0.18,顏色為深綠色;碼010000,010001,010010為5區,即雙唇音區,設定R=0.12,G=0.98,B=0.76,顏色為藍綠色;碼010011為6區,即唇齒音區,設定R=0,G=0,B=0.55,顏色為藍色;碼010100,010101,010110,010111為7區,即舌尖中音區,設定R=0.75,G=0,B=0.55,顏色為紫色;碼011000,011001,011010,011011為8區,即后鼻韻母區,設定R=0.75,G=0,B=0,顏色為紅色;碼011100,011101,011110,011111為9區,即舌尖后音區,設定R=0.98,G=0.96,B=0,顏色為黃色;碼100000,100001,100010為10區,即舌根音區,設定R=0.87,G=0.87,B=0.79,顏色為灰白色;碼100011,100100,100101為11區,即舌尖前音區,設定 R=0.74,G=0.42,B=0,顏色為褐色;碼100110,100111,101000,101001,101010,101011,101100,101101,101110為12區,即復韻母區,設定R=1,G=1,B=1,顏色為白色。
2.6 圖像合成
圖像合成時,把位置信息與顏色信息融合在一幅圖像中在顯示屏上顯示。具體為先獲得位置信息,然后在相應的位置上添加顏色信息,獲得相應的語音圖像。
如圖4(a)所示,聲母p的圖像位置在第三行第二列的位置,編碼為010001,顏色為藍綠色。如圖4(b)所示,韻母o的圖像位置在第一行第二列的位置,編碼為000001,顏色為桃紅色。如圖4(c)所示,y與I,w與u兩者發音很相似,語譜圖也十分類似,很難辨識,而該文提出的方法卻很容易區分開。
用來訓練神經網絡的實驗數據取自3歲到60歲的人群中,錄音環境很隨機,隨著人所在的位置隨時錄音,這樣就可以使系統更加具有實用性。實驗數據是由10個人發的1 000個音組成,其中400個用來作為測試數據,其余用來作訓練數據。數據采樣頻率為11.025 kHz,量化精度為16 bit,語音的幀長取為256個采樣點,幀移為80個采樣點。為了驗證該文方法的魯棒性和可行性,在測試集的每個語音中手工加入了噪聲,構成信噪比為10dB,5dB,0dB,-5 dB的含噪語音信號。并把該文方法同語譜圖方法進行了比較研究,系統初步測試結果如表1所示。

圖4 語音可視化圖像

表1 兩種可視化方法的性能比較
由表1可以看出,用語譜圖方法進行可視化的平均正確識別率為23.68%,而該文方法的平均正確識別率卻達到了89.85%,這就更充分地證明了該文方法的有效性和可行性。
該文結合聲韻母的發音特點提出了一種新的語音可視化方法,原理淺顯易懂,計算量少,做出的圖形也易于識別,可以讓使用這種方法的聽力障礙者接受很少時間的簡單訓練,根據訓練者大腦自身反饋和極強的視覺識別功能,就可以進行語音的辨識。而且該文采用小波神經網絡來進行位置信息映射和顏色信息獲取,小波神經網絡具有結構可設計性、收斂精度可控性和收斂速度快的優點,有效地提高了漢語聲韻母的正確編碼率。
[1]劉妍秀,孫一鳴,楊華民.基于歸一化算法的噪音魯棒性連續語音識別[J].吉林大學學報:理學版,2015,53(3):519-524.
[2]Smith A.The present status of hearing impairment in the world and protective strategies[J].Chinese Scientific Journal of Hearing and Speech Rehabilitation,2004(6):8-9.
[3]王楓,胡旭君.聽力障礙兒童與正常兒童視覺記憶能力比較研究[J].中國特殊教育,2001(4):32-34.
[4]陳琦.聽力障礙兒童聲母發音訓練分析 [J].當代教育實踐與教學研究,2015(3):98.
[5]陳汝琛,姚佳,高忠華.基于語音識別技術的聾啞人視覺輔助語音訓練系統[J].中國生物醫學工程學報,1996,15(4):360-364.
[6]黃海,陳祥獻.基于Hilbert-Huang變換的語音信號共振峰頻率估計 [J].浙江大學學報,2006,40(11):1926-1930.
[7]韓志艷,王健,倫淑嫻,等.基于小波包變換的語音信號魯棒特征提取 [C]//第29屆中國控制會議論文集,USA:IEEE,2010:2832-2837.
[8]Han Z Y,Wang J,Wang Xu et al.Robust feature extraction for speech recognition based on perceptually motivated MUSIC and CCBC[J].ChineseJournalofElectronics,2011,20(1):105-110.
[9]Hoang T,Tran H L,Huynh B H N.Proposed combination of PCA and MFCC feature extraction in speech recognition system:The International Conference on Advanced Technologies for Communications,2014[C]//USA:IEEE,2014:697-702.
[10]Wu Q,Zhang L Q,Shi G C et al.Robustmultifactor speech feature extraction based on Gabor Analysis[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):927-936.
[11]Bavkar S,Sahare S.PCA based signal channel speechenhancementmethodforhighlynoisyenvironment:The International Conference on Advances in Computing,Communications and Informatics,2013 [C]//Mysore:IEEE,2013:1103-1107.
[12]Mcloughlin I,Zhang H M,Xie Z P et al.Robust sound eventclassification using deep neural networks[J].IEEE Transactions on Audio,Speech, and Language Processing,2015,23(3):540-552.
[13]Malfait N,Fonlupt P,Centelles L et al.Different neural network are involved in audiovisual speech perception depending on the context[J].Journal of Cognitive Neuroscience,2014,26(7):1572-1586.
[14]韓志艷,倫淑嫻,王健.基于遺傳小波神經網絡的語音情感識別 [J].計算機技術與發展,2013,23(1):75-78.
[15]韓志艷,倫淑嫻,王健.語音信號魯棒特征提取及可視化技術研究[M].沈陽:東北大學出版社,2012.
Visualization method for Chinese vowel sound based on neural network
HAN Zhi-yan,WANG Jian
(Bohai University,Jinzhou 121000,China)
In order to overcome the limitation of speech visualization.This paper proposed a novel speech visualization method for Chinese vowel sound based on neural network.It created readable patterns by integrating different speech features into a single picture.It used wavelet neural network to map location information and color information.Because the wavelet neural network has the advantages of structure designability,convergence precision controllability and rapid convergence,that effectively improve the correct rate of Chinese vowel sound encoding.The image was divided into 12 different color display areas,the speech for each display area have similar pronunciation characteristics and the same pronunciation articulation.That make full use of the advantages of deaf people of visual identification ability and visual memory ability for color.Compared with the existing method,this method has good robustness and understandability.
speech visualization;neural network;speech signal;Chinese vowel sound;feature extraction;principal component analysis(PCA)
TN101
:A
:1674-6236(2017)05-0005-04
2016-05-19稿件編號:201605192
國家自然科學基金資助(61503038;61403042)
韓志艷(1982—),女,內蒙古赤峰人,博士,副教授。研究方向:情感識別、情感可視化。