999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

南疆維吾爾語語音識別研究與實現

2012-08-08 07:10:22吐爾洪江
塔里木大學學報 2012年3期
關鍵詞:信號信息

吳 剛 吐爾洪江

(塔里木大學信息工程學院,新疆阿拉爾843300)

語音識別(Speech Recognition,簡稱SR)的根本目的是要讓機器聽懂人說的話,準確地識別出語音的內容,并根據其信息意圖生成相應的文本或是執行某種操作。對語音識別的研究始于20世紀50年代,其中特定說話人和非特定說話人連續語音識別技術研究比較成熟,部分技術已經在相關領域廣泛應用。

在新疆,少數民族尤其是維吾爾族人口占有很大的比例,維吾爾族有自己獨特的語言,且不同地域其語言發音差異非常大。隨著新疆信息化快速發展,維吾爾語語言文字信息技術的研究與應用也是新疆信息化建設進程中的重要組成部分。特別是在新疆大力發展旅游經濟的過程中,為加強民族文化交流,積極研究與開發維吾爾語人機對話系統意義重大。但當前對新疆維吾爾語語音識別的研究還處于初步階段,離實際應用還有很多問題需要解決。南疆維吾爾語語音識別研究以南疆區域維吾爾語發音為研究對象,對其語音進行特征分析并探討其識別方法。

1 維吾爾語發音特點

現代維吾爾語是現代維吾爾民族共同使用的語言,在漫長的歷史發展過程中,維吾爾語形成了明顯的方言差異?,F代維吾爾語主要分為中心方言、和田方言和羅布方言三大方言,三個方言的差別主要表現在語音上,其中又以中心方言為標準語、以烏魯木齊發音為標準語音[1,2]?,F代維吾爾語共有32個字母,其中元音8個,輔音24個,維吾爾語是一種拼音式文字,分別由這8個元音字母和24個輔音字母拼寫而成,在書寫時是從右向左書寫。

以發音音位來看,8個元音音位為閉展唇音2個,閉圓唇音2個,開展唇音2個,開圓唇音2個,在閉、開展唇和圓唇中以發音部位又可分為前、央、后三種音位。24個輔音的發音音位為雙唇音3個、唇齒音1個、齒音6個、齒齦音1個、齒齦后音4個、硬腭音1個、軟腭音2個、喉音4個及其他2個,在輔音的發音中細分有塞音、鼻音、擦音、塞擦音、閃音、半元音和邊音等。發音中存在元音和諧律,舌位合諧比較嚴整,唇狀和諧比較松弛,有元音弱化現象。

2 語音識別系統結構

語音識別系統結構圖如圖1所示,主要包括語音特征提取(包括語音預處理)、模型訓練、模式匹配及邏輯決策等三個主要模塊。

圖1 語音識別系統結構圖

在研究中根據語音識別過程,從兩個方面來進行處理:一是對語音語料庫中的語音進行預處理,提取特征,進行樣本訓練,建立識別樣本庫;二是對待識別語音進行預處理并提取其特征參數,應用一定的識別算法將所提取的特征參數與識別樣本庫進行匹配,得到識別的結果。

3 語音信號預處理

語音預處理指采用各種數字信號處理技術,運用軟、硬件手段對語音信號進行處理,包括采樣、去噪聲、信號預加重、加窗和端點檢測等規范化處理,獲得較標準的語音樣本,以進行后期特征提取及識別研究。語音預處理是語音識別過程中關鍵的一個環節,預處理的效果直接影響到識別結果。

3.1 語音采樣

Nyquist采樣定理表明[3]:如果模擬信號的頻譜帶寬是有限的,且假設其信號不包含高于fm的頻率成分,那么用等于或大于2fm的取樣頻率進行取樣,或者說用等于或小于1/(2 fm)的間隔取樣,所得到的等間隔離散時間取樣值或取樣信號就能夠完全唯一的代表原信號,就能夠由取樣信號恢復出原始模擬信號來。

語音識別時常用的采樣頻率為10 kHz或16 kHz。南疆維吾爾語語音信號是在實驗室環境下用PC機進行采集,語音信號以單聲道PCM格式,選擇采樣率為16 kHz,采樣精度是16 bit,采集到的語音以.wav格式文件存儲。實驗室條件下采集語音信號質量高,信號干擾小,便于預處理。

3.2 預加重處理

對語音信號進行分析要先進行預加重處理,按照語音能量損耗規律,語音信號高頻部分約以6dB/倍頻程下降。預加重處理一般采用6dB/oct來提升高頻部分,使語音信號的頻譜變得平坦,分布在低頻到高頻的整個頻帶中,以便于進行頻譜分析和聲道參數分析。

常用的預加重處理方法有以下兩種[4]:

(1)采用6dB/oct(20dB/dec)的高頻增強濾波器來實現,傳遞函數為

(2)采用一階的數字濾波器來實現,傳遞函數為H(z)=1-αz-1,其中α為預加重系數,可取1或比1稍小的值。

在對維吾爾語語音預加重處理時,采用軟件處理方法,預加重系數取α=0.94,圖2為南疆阿克蘇阿瓦提采集到的維語數字“0”語音在預加重處理后的時域波形圖。

圖2 數字“0”語音在預加重后的時域波形圖

3.3 端點檢測[5,6]

采集到的語音信息是一段時間內的連續信息,將要處理識別的信息稱為有效語音,采集信息中還包含有效語音前信息和有效信息后語音信息。在語音中,要準確獲得識別有效信息,就要對語音信號進行端點檢測。端點檢測的目的是確定語音信息中的有效語音起始位置和終止位置,獲取最終的識別有效信息,端點檢測的檢測精度將直接影響到識別精度。

通過對南疆維吾爾語語音波形特征進行分析,選擇從語音信號的時域短時參數、短時平均幅度和短時過零率三個方面來進行端點檢測,實驗效果較好。在處理時選擇信號在10ms到20ms之間,取幀長為20 ms(采樣率為16 KHz),每幀320(N)個信號樣值S(n),其中n=0,1,2…,N-1。

短時平均幅度處理函數為:

短時過零率處理函數為:

在MATLAB中,南疆阿克蘇阿瓦提采集的維語數字“0”語音信號進行短時平均幅度處理效果如圖3所示。

圖3 數字“0”語音短時幅值波形圖

進行短時過零率處理,結果如圖4所示。

圖4 數字“0”語音短時過零率處理圖

端點檢測后獲得有效語音信息,數字“0”語音有效信息波形圖如下圖5所示。

圖5 數字“0”語音端點檢測有效信息波形圖

4 特征提取與識別模型

語音信息特征的提取與選擇是語音識別的基礎、關鍵,特征參數的提取與選擇將直接關系到識別分類器的設計。語音信號中包含的信息非常豐富,通過對語音信號進行分析處理,去掉無關冗余信息,獲得能夠反映語音對象的狀態、本質及性質等影響語音識別的重要特征參數,并且特征要求對分類有效,具有較高的模式區分能力。

目前在語音識別中常用的特征提取參數有Mel倒譜系數(MFCC)、線性預測系數(LPCC)以及它們的變體。經過對南疆維吾爾語發音特點分析,語音的個性特征很大程度上體現在發音聲道變化上,及聲道頻率特征明顯,故采用計算Mel倒譜系數作為特征參數。

倒譜系數的計算方法[7]是將一幀中的語音信號表示為:s(n)=h(n)*i(n),其中h(n)為語音信號s(n)的音源激勵,i(n)為s(n)的聲道沖激相應。對乘積h(n)*i(n)取幅度對數,再對所得到聲道沖激響應和音源激勵的傅里葉變換的對數之和進行逆傅里葉變換,得到語音信號倒譜為:

即為聲道分量的倒譜h`(n)和音源激勵分量的倒譜之i`(n)和,其中h`(n)是非常有效的語音特征參數。

識別算法提供有效計算語音的特征矢量序列和每個發音樣本之間的距離。目前比較成熟的語音識別算法模型有模板匹配模型、向量量化模型、高斯混合模型、隱馬爾可夫模型、神經網絡模型以及多方法混合模型,在南疆維吾爾語音識別中采用成熟的模板匹配算法[8]來實現。

先對識別樣本進行訓練,提取MFCC系數存儲在訓練模板信息庫中。在識別時先提取輸入語音的特征參數(MFCC系數),將該特征參數與訓練模板信息庫中特征參數進行相似度比較,相似度最高的就作為識別結果。在實際過程中,語音信號具有較大的隨機性,這些時長的變化會影響測度的估計,因此在識別過程中需要對說話偏差率進行補償,常用的有效方法為動態時間規整(Dynamic Time Warping,DTW)方法[9]。DTW是一種非線性規整,它將時間規整和距離測度計算相結合,設參考樣本的特征矢量序列為X={x1,x2,A,xI},待識別語音特征矢量序列為Y={y1,y2,A,yJ}通常因為時間不完全一致,I和J并不相等,DTW算法就是通過局部優化的方法實現加權距離總和最小,即

其中f作為二者的匹配路徑。

5 實驗分析

MATLAB軟件中提供了強大的語音處理工具包,借助該軟件仿真實現了一個非特定人的南疆維吾爾語的語音識別系統。系統使用10個常用詞作為測試樣本,發音為和田方言,選擇在實驗室環境下每詞發音16次,錄音為單聲道PCM格式,采樣率為16 kHz,對應采樣精度為16 bit。將采用中的10個語音數據作為訓練樣本,對訓練樣本經預處理后分別提取特征參數,然后對同1個詞的10個樣本特征參數進行兩兩計算相似度,選擇匹配距離最小的3組,進行第2輪篩選。在第2輪篩選中,用第1次選出每詞3個樣本和其余9個樣本的10個樣本進行兩兩計算相似度,選擇匹配距離最大的2組作為模板樣本。對所有選出的模版樣本進行訓練,提取Mel倒譜系數作為特征參數,并將訓練樣本特征存儲。所有樣本模板訓練好后,用其他6個語音數據作為測試樣本對該系統進行試驗。

上述試驗對南疆和田方言發音的6名特定人進行測試,10個詞,每詞測試樣本7個,總測試樣本為420,識別正確樣本394,識別正確率為93.8%,識別效果較好。

6 結論與展望

實驗表明本研究方法對南疆維吾爾語語音(方言)非特定人語音識別效果較好,獲得了較理想的實驗效果。但由于維吾爾語音方言發音復雜,包含音素豐富[10],聲道頻率變化多樣,較難提取出穩定的特征參數,識別難度大,距離自由人機交互的應用更是還有很長的路要走。

本研究方法對維吾爾語語音實驗研究有一定的借鑒意義,后期該項工作還有待優化與完善,進一步分析其語音發音特點,優化特征選擇及提取方法,設計多分類器識別模型,提高識別魯棒性及識別效率。

[1] 姑麗加瑪麗·麥麥提艾力,艾斯卡爾·艾木都拉.多基元及韻律參數匹配的維吾爾語語音合成方法[J] .計算機工程與應用,2012,48(2):116-117.

[2] 艾斯卡爾·艾木都拉.從實驗語音學角度探析維吾爾語鼻音的聲學特征[J] .中文信息學報,2012(1):110-111.

[3] 高琨琦.淺談數字音頻處理中的關鍵問題[J] .電聲技術,2011(8):66.

[4] 吳朝暉,楊瑩春.說話人識別模型與方法[M] .北京:清華大學出版社,2009:20-21.

[5] 汪石農,許鋼等.多語音特征參數的端點檢測方法研究[J] .計算機工程與設計,2012(2):685-686.

[6] 韓立華,王博等.語音端點檢測技術研究進展[J] .計算機應用研究,2010(4):1222-1223.

[7] 趙力編著.語音信號處理[M] .北京:機械工業出版社,2009:51-52.

[8] 聶曉飛,趙禹,詹慶才.一種基于模板匹配的語音識別算法[J] .電子設計工程,2011(19):58-59.

[9] 胡金平;陳若珠;李戰明;語音識別中DTW改進算法的研究[J] .微型機與應用,2011(3):30-31.

[10] 木合塔爾·沙地克等.維吾爾語廣播新聞連續語音敏感詞檢索系統[J] .計算機系統應用,2012(3):29-31.

猜你喜歡
信號信息
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
孩子停止長個的信號
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
高處信號強
環球時報(2010-02-11)2010-02-11 13:34:15
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲成综合人影院在院播放| 亚洲国产一成久久精品国产成人综合| 国产 在线视频无码| 9cao视频精品| 她的性爱视频| 国产人成网线在线播放va| 欧美日本在线播放| 五月婷婷亚洲综合| 中文字幕中文字字幕码一二区| 亚洲成人播放| 欧美精品成人一区二区在线观看| 成人毛片在线播放| 欧美笫一页| 国产网站免费观看| 国产精品亚洲专区一区| 成人一级免费视频| 97视频精品全国免费观看| 国产成人AV综合久久| 欧美精品亚洲精品日韩专| 久久夜色撩人精品国产| 中文字幕色在线| 九九久久精品免费观看| 91综合色区亚洲熟妇p| 国产va在线| 中文字幕调教一区二区视频| 亚洲国产欧美国产综合久久| 97精品久久久大香线焦| 日本a∨在线观看| 免费在线一区| 久久精品人人做人人爽电影蜜月 | 欧美性精品不卡在线观看| 一级在线毛片| 国产一级一级毛片永久| 熟妇人妻无乱码中文字幕真矢织江| 无码一区中文字幕| 亚洲区一区| 国内精品视频在线| 亚洲AV成人一区国产精品| 国产三级a| 亚洲无码精品在线播放| 国产一级二级在线观看| 成人第一页| 99视频在线看| 国产成人亚洲无码淙合青草| 国产福利一区在线| 国产激情第一页| 国产超碰在线观看| 午夜福利免费视频| 亚洲经典在线中文字幕| 国产精品美乳| 欧美日韩激情| 午夜激情福利视频| 日韩精品专区免费无码aⅴ| 亚洲乱码视频| 高清无码手机在线观看| 国产麻豆精品久久一二三| 久久国语对白| 日韩高清在线观看不卡一区二区| 国产日韩欧美在线视频免费观看 | 成人福利在线观看| 亚洲中文字幕在线一区播放| 亚洲国产在一区二区三区| 国产精品一区二区不卡的视频| 国产在线观看一区精品| 青青青国产在线播放| 亚洲热线99精品视频| 天天婬欲婬香婬色婬视频播放| 国产成人AV大片大片在线播放 | 国产日本欧美在线观看| 狠狠色香婷婷久久亚洲精品| 免费欧美一级| 白丝美女办公室高潮喷水视频| 亚洲三级视频在线观看| 91精品专区国产盗摄| 日本三级欧美三级| 免费一级无码在线网站| 欧美日韩国产系列在线观看| 97在线观看视频免费| 久久综合丝袜长腿丝袜| 青青操视频在线| 在线综合亚洲欧美网站| 亚洲色图欧美|