999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的漢語聲韻母可視化方法

2017-03-23 10:21:22韓志艷
電子設計工程 2017年5期
關鍵詞:可視化信號信息

韓志艷,王 健

(渤海大學 遼寧 錦州 121000)

基于神經網絡的漢語聲韻母可視化方法

韓志艷,王 健

(渤海大學 遼寧 錦州 121000)

為了克服現有語音可視化方法的局限性,該文提出了一種基于神經網絡的漢語聲韻母可視化方法,通過集成不同的語音特征進入一幅圖像中為聾啞人創造了語音信號的可讀模式。采用小波神經網絡來進行位置信息映射和顏色信息獲取,由于小波神經網絡具有結構可設計性、收斂精度可控性和收斂速度快的優點,有效地提高了漢語聲韻母的正確編碼率。而且將圖像分為12個不同顏色的顯示區域,每個顯示區域內的音具有相似的發音特點和相同的發音部位,這就更好地利用了聾啞人對色彩刺激的視覺記憶能力較強的優點。與現有方法相比,具有很好的魯棒性和易懂性。

語音可視化;神經網絡;語音信號;漢語聲韻母;特征提取;主成分分析

語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段。而對聾啞人來說,語言交流變成一件很難實現的事情,一部分聾啞人不能說話是因為他們的聽覺器官遭到破壞,不能將語音信息采集到大腦[1-2]。研究表明,人類聽覺系統和視覺系統是兩個性質不同的并具有互補性的信息系統,視覺系統是一個高度并行的信息接收和處理系統,人類眼球中視網膜上的數百萬個錐狀細胞通過纖維狀神經組織與大腦相連,形成一個高度并行的信道,視覺信道接受信息的速率是很高的,據測量和估算,看電視時的信息接收速率大致可達到2×104 b/s,這比聽覺系統聽語音時的信息接收速度高出上千倍,因此人們相信人類所獲得的信息有70%是通過視覺獲得的說法。所以對于聾啞人來說,這無疑就是一個很大的助手,聽覺的缺陷由視覺來補償,語音不僅能聽見,還可以通過多種其他形式使聾啞人“看”見[3-5]。

1947年R.K.Potter和G.A.Kopp等人就提出了一種可視化方法—語譜圖,隨后有不同的語音研究專家開始研究改進這種語音可視化方法,比如在1976年L.C.Stewart等人提出了有色譜圖和1984年G.M.Kuhn等人提出了對聾人進行訓練的實時的語譜圖系統,以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了許多語譜圖的改進方法,但是顯示的語譜圖的專業性很強,而且很難辨別記憶。尤其是對于同一個語音不同的人來說,甚至是同一個語音同一個人來說都有可能造成語譜圖的變化,對于不同環境下錄制的語音信號其魯棒性能更為不好。

此外,還有一些學者對人的發音器官的運動變化以及面部表情的變化來實現語音可視化,有效地剖析了人的發音過程,但就其語音可懂度而言,還難以達到理想效果,除極少數專家以外,人們很難直接通過觀察發音器官的運動和面部表情的變化而準確地感知語音。因此,該文提出了一種基于神經網絡的漢語聲韻母可視化方法,與現有方法相比,具有很好的魯棒性和易懂性。彌補了用語譜圖來進行可視化很難辨別和記憶的缺點。無論是聽力受損人群還是普通人,經過一段時間的專門訓練,都可以直觀地辨識出該可視化圖像所對應的發音,并和健全人進行交流。

1 可視化系統總體結構

如圖1所示為本可視化系統的總體結構框圖,其包括語音信號獲取、語音信號預處理、語音特征提取、PCA降維、神經網絡設計、位置信息映射、顏色信息獲取及圖像合成。首先對獲取的語音信號進行預處理及特征提取,然后用主成分分析法PCA對獲取的語音特征參數進行降維處理,再通過神經網絡獲得相應的位置信息和顏色信息,最后通過圖像合成模塊生成可視化圖像,實現對23個聲母和24個韻母的可視化。

圖1 系統總體結構圖

2 可視化方法具體實施

2.1 語音信號獲取及預處理

利用麥克風輸入語音數據,然后以11.025 kHz的采樣頻率、16 bit的量化精度進行采樣量化,獲得相應的語音信號。然后利用一階數字預加重濾波器對獲取的語音信號進行預加重處理,其中利用的預加重濾波器的系數取值范圍為0.93~0.97之間。接下來以幀長256點的標準進行分幀處理,并對分幀后的語音信號加漢明窗處理,再利用短時能零積法進行端點檢測。

2.2 語音特征提取及PCA降維

步驟1:計算共振峰特征

采用基于Hilbert-Huang變換的方法來估算預處理后的語音信號共振峰頻率特征,得到每幀信號的共振峰特征值F1,F2,F3,F4。具體由快速傅里葉變換(FFT)初步估計出的語音信號的各階共振峰頻率確定相應帶通濾波器的參數,并用該參數對語音信號作濾波處理,對濾波后的信號進行經驗模態分解(EMD)得到一族固有模態函數(IMF),按能量最大原則確定出含有共振峰頻率IMF,計算出該IMF的瞬時頻率和Hilbert譜即得到語音信號的共振峰頻率參數[6]。

步驟2:計算WPTC特征參數

根據小波包變換在各分析頻段的恒Q(品質因數)特性與人耳聽覺對信號的加工特點相一致的特點,結合小波包對頻帶的多層次劃分,并根據人耳感知頻帶的特點,自適應地選擇相應頻帶,計算出基于小波包變換的語音信號魯棒特征參數(WPTC):WPTC1~WPTC20[7]。

步驟3:計算PMUSIC-MFCC特征參數

為改善語音可視化的魯棒性,采用多信號分類法(Multiple Signal Classification,MUSIC)的譜估計技術并在其中引入感知特性,計算出基于MUSIC和感知特性的魯棒特征參數(PMUSIC-MFCC):PMUSIC-MFCC1~PMUSIC-MFCC 12[8]。

步驟4:計算Mel頻率倒譜系數

根據人耳對不同頻率語音的感知特性,提出了Mel頻率的概念,從而計算出Mel頻率倒譜系數(MFCC):MFCC1~MFCC 12。具體將經過預處理后的每幀語音信號進行離散傅里葉變換得到線性頻譜,并通過Mel頻率濾波器組得到Mel頻率,然后取對數并進行離散余弦變換得到Mel頻率倒譜系數。

用主成分分析法PCA對上述語音特征參數進行降維處理[9-11],將初始的48維特征向量降為12維特征向量。

2.3 神經網絡設計

小波神經網絡是以小波基函數為神經元激勵函數的前饋網絡模型,它作為一種前向神經網絡,與基于Sigmoid函數的BP網絡和徑向基 (RBF)網絡相比,具有結構可設計性、收斂精度可控性和收斂速度快等優點[12-14]。該文中小波神經網絡采用3層結構,如圖2所示,其具體的設計步驟和學習算法參照文獻[15]。

圖2 小波神經網絡結構

2.4 位置信息映射

將PCA降維后的語音特征參數作為神經網絡的輸入,神經網絡的輸出即為相應的位置信息,神經網絡的輸出層有6個神經元,均采用二進制編碼,共有64個不同的碼,按著由左到右、由上到下的順序依次對應著圖像中的一個位置并用“0”、“1”組合進行編碼,如圖3所示,只用前47個碼,依次對應著a o e i u ü y w an en in un ün j q x b p m f d t n l ang eng ing ong zh ch sh r g k h z c s ai ei ui ao ou iu ie üe er。如000000代表第一行第一列的那個位置,對應著韻母a,000001代表第一行第二列的那個位置,對應著韻母o,以此類推。

圖3 位置信息映射示意圖

2.5 顏色信息獲取

神經網絡的輸出將特征編成64個不同的碼,其中只用前47個碼,按著由左到右、由上到下的順序,每個碼對應一個位置,通過給屏幕相應位置的RGB賦值,來獲取顏色信息。該文將圖像分成12個不同顏色的顯示區域,每個顯示區域內的音具有相似的發音特點或相同的發音部位。如碼000000,000001,000010,000011,000100,000101為1區,即單韻母區,設定R=0.95,G=0.75,B=0.68,顏色為桃紅色;碼000110,000111為2區,即y w區,設定R=0,G=0.95,B=0,顏色為綠色;碼 001000,001001,001010,001011,001100為3區,即前鼻韻母區,設定 R=0.52,G=0.38,B=0.76,顏色為藍紫色;碼001101,001110,001111為4區,即舌面前音區,設定 R=0.25,G=0.52,B=0.18,顏色為深綠色;碼010000,010001,010010為5區,即雙唇音區,設定R=0.12,G=0.98,B=0.76,顏色為藍綠色;碼010011為6區,即唇齒音區,設定R=0,G=0,B=0.55,顏色為藍色;碼010100,010101,010110,010111為7區,即舌尖中音區,設定R=0.75,G=0,B=0.55,顏色為紫色;碼011000,011001,011010,011011為8區,即后鼻韻母區,設定R=0.75,G=0,B=0,顏色為紅色;碼011100,011101,011110,011111為9區,即舌尖后音區,設定R=0.98,G=0.96,B=0,顏色為黃色;碼100000,100001,100010為10區,即舌根音區,設定R=0.87,G=0.87,B=0.79,顏色為灰白色;碼100011,100100,100101為11區,即舌尖前音區,設定 R=0.74,G=0.42,B=0,顏色為褐色;碼100110,100111,101000,101001,101010,101011,101100,101101,101110為12區,即復韻母區,設定R=1,G=1,B=1,顏色為白色。

2.6 圖像合成

圖像合成時,把位置信息與顏色信息融合在一幅圖像中在顯示屏上顯示。具體為先獲得位置信息,然后在相應的位置上添加顏色信息,獲得相應的語音圖像。

3 仿真實驗及結果分析

如圖4(a)所示,聲母p的圖像位置在第三行第二列的位置,編碼為010001,顏色為藍綠色。如圖4(b)所示,韻母o的圖像位置在第一行第二列的位置,編碼為000001,顏色為桃紅色。如圖4(c)所示,y與I,w與u兩者發音很相似,語譜圖也十分類似,很難辨識,而該文提出的方法卻很容易區分開。

用來訓練神經網絡的實驗數據取自3歲到60歲的人群中,錄音環境很隨機,隨著人所在的位置隨時錄音,這樣就可以使系統更加具有實用性。實驗數據是由10個人發的1 000個音組成,其中400個用來作為測試數據,其余用來作訓練數據。數據采樣頻率為11.025 kHz,量化精度為16 bit,語音的幀長取為256個采樣點,幀移為80個采樣點。為了驗證該文方法的魯棒性和可行性,在測試集的每個語音中手工加入了噪聲,構成信噪比為10dB,5dB,0dB,-5 dB的含噪語音信號。并把該文方法同語譜圖方法進行了比較研究,系統初步測試結果如表1所示。

圖4 語音可視化圖像

表1 兩種可視化方法的性能比較

由表1可以看出,用語譜圖方法進行可視化的平均正確識別率為23.68%,而該文方法的平均正確識別率卻達到了89.85%,這就更充分地證明了該文方法的有效性和可行性。

4 結 論

該文結合聲韻母的發音特點提出了一種新的語音可視化方法,原理淺顯易懂,計算量少,做出的圖形也易于識別,可以讓使用這種方法的聽力障礙者接受很少時間的簡單訓練,根據訓練者大腦自身反饋和極強的視覺識別功能,就可以進行語音的辨識。而且該文采用小波神經網絡來進行位置信息映射和顏色信息獲取,小波神經網絡具有結構可設計性、收斂精度可控性和收斂速度快的優點,有效地提高了漢語聲韻母的正確編碼率。

[1]劉妍秀,孫一鳴,楊華民.基于歸一化算法的噪音魯棒性連續語音識別[J].吉林大學學報:理學版,2015,53(3):519-524.

[2]Smith A.The present status of hearing impairment in the world and protective strategies[J].Chinese Scientific Journal of Hearing and Speech Rehabilitation,2004(6):8-9.

[3]王楓,胡旭君.聽力障礙兒童與正常兒童視覺記憶能力比較研究[J].中國特殊教育,2001(4):32-34.

[4]陳琦.聽力障礙兒童聲母發音訓練分析 [J].當代教育實踐與教學研究,2015(3):98.

[5]陳汝琛,姚佳,高忠華.基于語音識別技術的聾啞人視覺輔助語音訓練系統[J].中國生物醫學工程學報,1996,15(4):360-364.

[6]黃海,陳祥獻.基于Hilbert-Huang變換的語音信號共振峰頻率估計 [J].浙江大學學報,2006,40(11):1926-1930.

[7]韓志艷,王健,倫淑嫻,等.基于小波包變換的語音信號魯棒特征提取 [C]//第29屆中國控制會議論文集,USA:IEEE,2010:2832-2837.

[8]Han Z Y,Wang J,Wang Xu et al.Robust feature extraction for speech recognition based on perceptually motivated MUSIC and CCBC[J].ChineseJournalofElectronics,2011,20(1):105-110.

[9]Hoang T,Tran H L,Huynh B H N.Proposed combination of PCA and MFCC feature extraction in speech recognition system:The International Conference on Advanced Technologies for Communications,2014[C]//USA:IEEE,2014:697-702.

[10]Wu Q,Zhang L Q,Shi G C et al.Robustmultifactor speech feature extraction based on Gabor Analysis[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):927-936.

[11]Bavkar S,Sahare S.PCA based signal channel speechenhancementmethodforhighlynoisyenvironment:The International Conference on Advances in Computing,Communications and Informatics,2013 [C]//Mysore:IEEE,2013:1103-1107.

[12]Mcloughlin I,Zhang H M,Xie Z P et al.Robust sound eventclassification using deep neural networks[J].IEEE Transactions on Audio,Speech, and Language Processing,2015,23(3):540-552.

[13]Malfait N,Fonlupt P,Centelles L et al.Different neural network are involved in audiovisual speech perception depending on the context[J].Journal of Cognitive Neuroscience,2014,26(7):1572-1586.

[14]韓志艷,倫淑嫻,王健.基于遺傳小波神經網絡的語音情感識別 [J].計算機技術與發展,2013,23(1):75-78.

[15]韓志艷,倫淑嫻,王健.語音信號魯棒特征提取及可視化技術研究[M].沈陽:東北大學出版社,2012.

Visualization method for Chinese vowel sound based on neural network

HAN Zhi-yan,WANG Jian
(Bohai University,Jinzhou 121000,China)

In order to overcome the limitation of speech visualization.This paper proposed a novel speech visualization method for Chinese vowel sound based on neural network.It created readable patterns by integrating different speech features into a single picture.It used wavelet neural network to map location information and color information.Because the wavelet neural network has the advantages of structure designability,convergence precision controllability and rapid convergence,that effectively improve the correct rate of Chinese vowel sound encoding.The image was divided into 12 different color display areas,the speech for each display area have similar pronunciation characteristics and the same pronunciation articulation.That make full use of the advantages of deaf people of visual identification ability and visual memory ability for color.Compared with the existing method,this method has good robustness and understandability.

speech visualization;neural network;speech signal;Chinese vowel sound;feature extraction;principal component analysis(PCA)

TN101

:A

:1674-6236(2017)05-0005-04

2016-05-19稿件編號:201605192

國家自然科學基金資助(61503038;61403042)

韓志艷(1982—),女,內蒙古赤峰人,博士,副教授。研究方向:情感識別、情感可視化。

猜你喜歡
可視化信號信息
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于LabVIEW的力加載信號采集與PID控制
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 五月婷婷亚洲综合| 黄色国产在线| 国内黄色精品| 国产精品久久久久鬼色| 久久大香伊蕉在人线观看热2| 午夜毛片免费看| 白浆视频在线观看| 一级毛片基地| 久久免费视频6| 欧美综合激情| a级毛片网| 亚洲午夜18| 高清色本在线www| 日本在线欧美在线| 中文字幕久久波多野结衣| 国产精品女人呻吟在线观看| 国产福利在线免费| 国产aⅴ无码专区亚洲av综合网 | 999在线免费视频| 狠狠综合久久| 欧美一级大片在线观看| 亚洲综合久久成人AV| 玩两个丰满老熟女久久网| 国产剧情伊人| 国产成人超碰无码| 青青网在线国产| 欧美视频在线不卡| 亚洲人成影视在线观看| 无码网站免费观看| 亚洲国产黄色| 亚洲第一成年网| 欧美激情视频一区| 五月六月伊人狠狠丁香网| 亚洲欧美一区二区三区麻豆| 片在线无码观看| 亚洲色图综合在线| 2020最新国产精品视频| 在线观看欧美国产| 国产十八禁在线观看免费| 亚洲免费毛片| 国产自无码视频在线观看| 人妻丝袜无码视频| 日韩精品毛片| 国产一区二区三区免费| 亚洲第一黄色网| 久久综合婷婷| 亚洲黄色片免费看| 中文字幕第1页在线播| 一级毛片在线播放| 在线国产欧美| 欧美日韩国产成人高清视频| 欧美精品在线免费| 毛片国产精品完整版| 狠狠操夜夜爽| 青青青视频91在线 | 亚洲精品欧美日本中文字幕| 国产99久久亚洲综合精品西瓜tv| 免费观看精品视频999| 亚洲精品人成网线在线| 欧美啪啪精品| 国产天天色| 第一页亚洲| 九九热精品免费视频| 亚洲美女AV免费一区| 国内精品久久久久久久久久影视| 久久国产黑丝袜视频| 国产美女自慰在线观看| 成人毛片免费在线观看| 亚洲第一极品精品无码| 国产男人天堂| 在线看片中文字幕| AV不卡国产在线观看| 熟妇丰满人妻| 天天综合网站| 99在线免费播放| 亚洲人成网18禁| 91亚瑟视频| 久久亚洲高清国产| 国产成人精品男人的天堂| 成人蜜桃网| 丝袜国产一区| 高清大学生毛片一级|