999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語譜圖二次傅里葉變換特定人二字漢語詞匯識別

2017-06-13 10:43:55梁士利李廣巖許廷發(fā)王雙維
關(guān)鍵詞:詞匯

潘 迪,梁士利,魏 瑩,李廣巖,許廷發(fā),王雙維

(1.東北師范大學(xué)物理學(xué)院,吉林 長春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)

語譜圖二次傅里葉變換特定人二字漢語詞匯識別

潘 迪1,梁士利1,魏 瑩1,李廣巖1,許廷發(fā)2,王雙維1

(1.東北師范大學(xué)物理學(xué)院,吉林 長春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)

以語音信號的語譜圖作為處理對象,提出了基于語譜圖二次傅里葉變換對特定人二字詞匯識別的方法.首先對語譜圖二次傅里葉變換頻域圖的圖像意義以及相應(yīng)的語音特性表征進(jìn)行了詳細(xì)剖析;然后對語譜圖頻域圖像進(jìn)行二進(jìn)寬度行投影,將投影值作為語音識別特征值,以支持向量機(jī)為分類器,進(jìn)行特定人二字詞匯語音整體識別.采用1 000個語音樣本進(jìn)行了仿真實(shí)驗.結(jié)果表明,該方法正確識別率可達(dá)到92.4%,為漢語詞匯整體識別提供了新的思路.

語譜圖;二次傅里葉變換;支持向量機(jī);二進(jìn)寬度行投影

0 引言

無論語音識別還是語音增強(qiáng),常規(guī)語音處理技術(shù)通?;谡Z音信號屬于非平穩(wěn)隨機(jī)過程這一特性,以10~30 ms的短時語音幀為基本單位進(jìn)行處理.但這種分割方法破壞了音節(jié)承載信息的整體性,在一定程度上影響了語音處理的效果.

相比英語等其他語言,漢語音節(jié)信息最強(qiáng)的部分在前面和中間,結(jié)尾部分往往只是信息很弱且時間較長的拖尾音.漢語的信息為聲母、韻母及聲調(diào)的整體表現(xiàn),對漢語進(jìn)行處理時極易使語音信息丟失.因此,對于漢語語音處理而言,尋找能夠體現(xiàn)漢語語音整體化特征的處理方法顯得尤為重要.

語譜圖作為語音分析和語音學(xué)的有利工具,它將密切相關(guān)的時域與頻域特征及其相互關(guān)系同時展現(xiàn)出來.所以,語譜圖更加有利于表征語音信號的整體性.隨著圖像處理技術(shù)的發(fā)展,人們已將語譜圖本身作為研究對象,利用圖像處理技術(shù)提取語音識別的參數(shù)實(shí)現(xiàn)語音識別,并取得了一定效果.

20世紀(jì)70年代,文獻(xiàn)[1]做了若干關(guān)于語譜圖閱讀的實(shí)驗來嘗試用語譜圖進(jìn)行語音識別;文獻(xiàn)[2]嘗試通過可視語譜圖檢驗和機(jī)器幫助下的詞匯搜索對一組未知句子進(jìn)行識別,都取得了一定的成果;80年代末和90年代初,人們開始不直接使用語譜圖,而是從語譜圖中提取特征或使用處理過的語譜圖;[3-7]新世紀(jì)以來,文獻(xiàn)[8]提出一種新穎的基于譜模型適應(yīng)算法的語譜圖,并用于說話人識別.

1995年,潘凌云等人[9]將語譜圖應(yīng)用到語音識別中的語音音素分割中;2005年,馬義德等人[10]把PCNN引入到說話人識別中;2006年,陳向民等人[11]將語譜圖應(yīng)用到語音端點(diǎn)檢測算法中;2011年,姜洪臣等人[12]提出了一種基于音頻語譜圖像識別的廣告檢索方法;2014年,吳迪等人[13]對增強(qiáng)后語音的時頻語譜進(jìn)行二維增強(qiáng),提出PSSB參數(shù),并用于端點(diǎn)檢測;我們依據(jù)語譜圖紋理方位的數(shù)學(xué)形態(tài)學(xué)特征進(jìn)行了漢語韻母聲調(diào)識別研究[14].

以往基于語譜圖的語音識別僅在語譜圖本身的空域結(jié)構(gòu)中直接尋找特征,并沒有充分利用語譜圖作為可視化圖像的性質(zhì).考慮到語譜圖表征語音特性體現(xiàn)在紋絡(luò)結(jié)構(gòu)上,而圖像紋絡(luò)結(jié)構(gòu)更容易由圖像的頻域描述.因此,本文對語譜圖進(jìn)行二次傅里葉變換,將其圖像空域轉(zhuǎn)換至圖像頻域,并對語譜圖圖像頻域進(jìn)行二進(jìn)寬度分帶投影,借助于支持向量機(jī)實(shí)現(xiàn)特定人二字詞匯的識別.仿真實(shí)驗表明,選取對語譜圖進(jìn)行圖像二次傅里葉變換之后的二進(jìn)寬度分帶投影值作為語音識別特征量,對特定人二字詞匯語音的識別率可達(dá)到92.4%,為解決漢語詞匯整體語音識別提供了一種新的思路.

1 語譜圖二次傅里葉變換的意義

語譜圖(Spectrogram)[15]是表示語音頻譜隨時間變化的圖形,它采用二維平面來表達(dá)三維信息,任一給定頻率成分在給定時刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來表示.語譜圖中顯示了大量的與語音的特性有關(guān)的信息,它綜合了頻譜圖和時域波形的特性,顯示出語音頻譜隨時間的變化情況.所以,語譜圖所承載的信息量遠(yuǎn)遠(yuǎn)大于單純時域和單純頻域承載信息量的總和.

眾所周知,窄帶語譜圖有較高的頻率分辨率,在譜圖上能顯示出2個純音,但其時間分辨率較差,看不出2個純音所產(chǎn)生的拍音.[16]因此,作為詞匯的窄帶語譜圖,可以反映詞匯整體的基頻及各次諧波的時間變化.窄帶語譜圖中基頻及各次諧波體現(xiàn)為等間隔的橫杠,從圖像角度看,這些等間隔的橫杠反映了圖像豎直方向上的周期特征.如果將語譜圖進(jìn)行傅里葉變換,即由語譜圖的空域轉(zhuǎn)換到語譜圖的頻域,則上述橫杠的周期性表現(xiàn)為語譜圖頻域豎直方向上的基頻.

為了彰顯上述特性,我們給出漢語單韻母“a”的語譜圖(帶寬43 Hz)見圖1.為了突出重點(diǎn),圖1只顯示4 kHz以下部分.由圖1可以看出,當(dāng)持續(xù)發(fā)“a”時,基頻與各次諧波對應(yīng)的橫杠基本保持不變,而波動性反映發(fā)音時的聲音脈動.圖1的傅里葉變換圖(全頻域變換)見圖2,亦即語譜圖的頻域圖,圖2中心代表0頻率,向左右和上下指向高頻.語譜圖是非負(fù)的實(shí)數(shù)矩陣,所以,其傅里葉變換滿足共軛對稱性,我們只針對上半幅頻域圖進(jìn)行解讀.由于是單韻母“a”的持續(xù)發(fā)音,其基頻與各次諧波的相對關(guān)系保持不變,體現(xiàn)在頻域圖上,即是圖像的各頻率成分集中在坐標(biāo)軸上.

圖1 漢語單韻母“a”的窄帶語譜

語譜圖頻域圖像中心亮斑(可稱為0號亮斑)是語譜圖水平和豎直方向的0頻率分量,這是圖像傅里葉變換的特有標(biāo)志,因為圖像矩陣為非負(fù)實(shí)陣,數(shù)據(jù)沒有過零點(diǎn),因此任何圖像都包含“直流”成分,也正因為如此,圖像頻域的“直流”成分即中心亮斑不包含有用信息.

語譜圖頻域圖豎直方向1號亮斑的位置,反映了語音基頻及各次諧波間隔的大小,位置越高,說明基頻及各次諧波頻率間隔越小.2號及其以后的高頻亮斑反映語譜圖橫杠斷面邊緣特征,即邊緣梯度特征,高頻亮斑越少,邊緣下降越緩慢,反之亦然.從語音角度,高頻亮斑對應(yīng)著語音頻譜的精細(xì)結(jié)構(gòu),這一精細(xì)結(jié)構(gòu)除含有語音信息外,是否含有說話人的聲紋信息,值得進(jìn)一步研究.

圖3 詞匯“中國”的時域波形

與豎直方向類似,水平方向1號亮斑反映語音脈動的基本周期,高頻亮斑反映語音脈動過程的速率.由于圖1是窄帶語譜圖,時間分辨率不高,因此不能顯示語音“a”發(fā)音脈動的細(xì)節(jié)過程.

某發(fā)音人詞匯內(nèi)容為“中國”的時域波形圖見圖3.相應(yīng)的窄帶語譜圖(帶寬43 Hz)見圖4,為了突出重點(diǎn),圖4只顯示4 kHz以下部分.語譜圖傅里葉變換的頻域圖像(全頻域變換)見圖5.

圖4 詞匯“中國”的窄帶語譜

圖5 詞匯“中國”語譜圖二次傅里葉變換后的頻域

由圖5看出,“中國”語譜圖二次傅里葉變換所形成的頻域圖像,其成分不再局限于坐標(biāo)軸上,這是因為詞匯發(fā)音屬于非平穩(wěn)過程,語音基頻及其諧波的時域變化導(dǎo)致語譜圖紋理周期性在任意方向都有體現(xiàn).同時也說明,語譜圖有信息價值的部分是較粗的紋理成分.

2 語譜圖頻域圖像矩陣的特征提取

2.1 語譜圖樣本構(gòu)成

用Cool Edit Pro 2.0軟件進(jìn)行語音錄制,采樣頻率為44.1 kHz,使得語譜圖頻域表達(dá)范圍為0~22 kHz,單聲道,16 B進(jìn)行量化.采集10人(男、女各5人)的10個詞匯的讀音樣本,10個詞匯均為二字詞匯,重復(fù)10遍,即每個詞匯有10個樣本.一個詞匯的語音時長約為1.2 s,10人的10個詞匯共1 000個語音樣本文件.所有語音樣本文件轉(zhuǎn)化為Matlab數(shù)據(jù)文件,即語音樣本序列.

對每個樣本序列進(jìn)行分幀,幀長為1 024點(diǎn),為保持其連續(xù)性,采用重疊率為25%的幀移量,窗函數(shù)采用漢明窗(Hamming),漢明窗公式為[17]

每個樣本分為54幀,構(gòu)造出1 024行54列時域分幀矩陣.對時域分幀矩陣做FFT,生成1 024行54列時頻分析矩陣,頻域分辨率為43Hz.時頻分析矩陣的模矩陣即為樣本所對應(yīng)的語譜圖矩陣.由于傅里葉變換具有對稱性,取該矩陣的上半部或下半部作為語譜圖即可,因此,每一幅語譜圖的矩陣為512行54列,共1 000幅灰度圖像.以上過程本文形成了參數(shù)可調(diào)的Matlab語譜圖生成程序,以備隨時調(diào)用.

為了消除由于音量不同造成的各個樣本幅度差異,對每個圖像矩陣均進(jìn)行歸一化處理.

2.2 語譜圖特征提取

2.2.1 語譜圖二進(jìn)寬度分帶行投影

語譜圖矩陣的每一行代表著某一頻率通道幅度特性隨時間的變化,行投影則反映了某頻率通道在整個語音時長過程中的總體特征.如果簡單的對語譜圖矩陣進(jìn)行行投影,這種頻域上過于細(xì)化的投影方式,不僅對語音識別沒有益處,反而會降低識別系統(tǒng)的容錯能力.而且從語譜圖灰度圖像中也發(fā)現(xiàn)大量信息集中分布在圖像的中下部分,這一點(diǎn)符合人類語言信息主要分布在低頻段的特征.為了便于特定人的二字詞匯的語音識別更加準(zhǔn)確,同時又能將灰度圖像的中下部分的信息更清楚地顯示出來,我們采取了二進(jìn)寬度分帶方法,從第1行開始二進(jìn)分,即將每個語譜圖矩陣的1~256行(帶寬256行)、257~384行(帶寬128行)、385~448行(帶寬64行)、449~480行(帶寬32行)、481~496行(帶寬16行)、497~504行(帶寬8行)、505~512行(帶寬8行)分為7個帶,最后8行不再分帶,因為最后一個帶的頻率范圍在0~200Hz之間,而人類所能聽到的頻率在100Hz以上,所以最后8行相當(dāng)于只有4行是有效的,因此不用將8行再分.將這7個帶進(jìn)行行投影,構(gòu)造每個詞匯的7行10列二進(jìn)寬度分帶投影矩陣.通過對10個詞匯之間對應(yīng)帶投影矩陣值的各個行求平均值和方差,并對不同詞匯語譜圖矩陣對應(yīng)帶投影值進(jìn)行U檢驗,發(fā)現(xiàn)第3行到第7行5個帶投影值有顯著性差異,可以作為特征數(shù)據(jù)集合.

2.2.2 語譜圖二次傅里葉變換后的二進(jìn)寬度分帶行投影

語譜圖圖像中像素的灰度值代表了信號在相應(yīng)頻率、相應(yīng)時刻的幅度比重.基于圖像處理思路,對其進(jìn)行頻譜分析,將語譜圖圖像進(jìn)行再次傅里葉變換,形成512行54列語譜圖圖像頻域特性矩陣,并將頻譜低頻部分移到中心處.我們采用了二進(jìn)寬度分帶投影方法,考慮到語譜圖中顯示語音特性的條紋主體,從圖像角度看屬于低頻成分,而較低的頻率被移到中心位置處,所以采用從中心向上由細(xì)到寬進(jìn)行二進(jìn)倍增寬度分帶投影的方法.又因為圖像矩陣為實(shí)的非負(fù)矩陣,所以二次傅里葉變換的頻域矩陣滿足共軛對稱性,分析其幅頻特性,發(fā)現(xiàn)圖像的頻域矩陣既不滿足左右對稱,也不滿足上下對稱.因此,應(yīng)用圖像二次傅里葉變換所對應(yīng)的頻域矩陣進(jìn)行數(shù)據(jù)處理或分析時,不能只使用1個象限,要同時使用相鄰的2個象限.但也發(fā)現(xiàn)圖像的頻域矩陣是轉(zhuǎn)置對稱矩陣,可完全描述圖像幅頻特征的獨(dú)立子陣是上半子陣,或下半子陣,或左半子陣,或右半子陣.選擇上半子陣進(jìn)行二進(jìn)寬度分帶行投影,這種投影反映了詞匯發(fā)音全過程中語音基頻及其諧波關(guān)系的總體特性,同時還反映了語譜圖條紋邊緣梯度的整體特性.實(shí)驗表明,不同詞匯其相應(yīng)的上述總體特性具有顯著性差異.

因為上半子陣的左半部分和右半部分并不對稱,所以分別對上半子陣的左半部分和右半部分進(jìn)行分帶投影.首先將圖像的中心設(shè)置為坐標(biāo)(0,0),然后對上半子陣的左半部分和右半部分分別二進(jìn)倍增分帶投影,行數(shù)分別設(shè)置為128~255行(帶寬128行)、64~127行(帶寬64行)、32~63行(帶寬32行)、16~31行(帶寬16行)、8~15行(帶寬8行)、4~7行(帶寬4行)、0~3行(帶寬4行),分為7對計14個帶的投影值,形成14行列向量,作為語音識別的特征向量.又由于每個詞匯重復(fù)10遍,因此可以構(gòu)造每個詞匯14行10列二進(jìn)寬度分帶投影矩陣.最后,通過對10個詞匯之間對應(yīng)帶投影值U檢驗,發(fā)現(xiàn)采用上半子陣的左右部分二進(jìn)寬度分帶投影作為特征量對特定人二字詞匯的識別有顯著性差異,可以作為特征數(shù)據(jù)集合.由于每個人詞匯重復(fù)10遍,每遍有14個特征值構(gòu)成的向量,共得到140個U檢驗結(jié)果,給出樣本右側(cè)第一帶投影值間的U檢驗結(jié)果,如表1所示.

表1 樣本右側(cè)第一帶投影值間的U值檢驗結(jié)果

為了清楚地觀察到數(shù)據(jù)之間的識別差異,故在此規(guī)定當(dāng)U≥1.96時,設(shè)定值為1,說明可以作為識別詞匯的特征量,當(dāng)U<1.96時,設(shè)定值為0,說明不能作為識別詞匯的特征量,如表2所示.

表2 可作為識別詞匯特征量的結(jié)果

表2中數(shù)據(jù)表明,樣本右側(cè)第一帶投影值能夠作為識別詞匯特征量的比例為93.33%.由于篇幅所限,其他結(jié)果不再詳述.

3 實(shí)驗仿真與結(jié)果分析

3.1 系統(tǒng)設(shè)置

本次語音樣本采用10人對10個二字詞匯進(jìn)行錄制而成,采樣頻率為44.1 kHz,單聲道,16 B進(jìn)行量化,其中每個詞匯10段重復(fù)錄音,一共是1 000個語音數(shù)據(jù)樣本,為了采樣數(shù)據(jù)更加準(zhǔn)確,將每人的10個二字詞匯的每前5遍作為訓(xùn)練集,后5遍作為測試集,即前500個語音數(shù)據(jù)作為訓(xùn)練集,后500個語音數(shù)據(jù)作為測試集.在訓(xùn)練階段,為了后面的數(shù)據(jù)處理的方便和保證程序運(yùn)行時收斂加快,防止出現(xiàn)奇異樣本數(shù)據(jù)(指的是相對于其他輸入樣本特別大或特別小的樣本矢量)而進(jìn)行了歸一化處理.首先對特定人的各個特征量的語音樣本進(jìn)行歸一化的預(yù)處理,使所有數(shù)據(jù)得到相應(yīng)統(tǒng)一,然后將前500個語音訓(xùn)練樣本特征數(shù)據(jù)存入數(shù)據(jù)庫,作為支持向量機(jī)的訓(xùn)練模板,對其進(jìn)行訓(xùn)練.在檢測階段,將后500個語音樣本中提取出的特征數(shù)據(jù)放入到訓(xùn)練好的網(wǎng)絡(luò)中,對相應(yīng)的特定人的二字詞匯進(jìn)行語音檢測.

3.2 仿真結(jié)果

對語譜圖矩陣進(jìn)行二進(jìn)寬度行投影之后,構(gòu)造每個詞匯5行10列矩陣.同時對語譜圖矩陣進(jìn)行二次傅里葉變換之后,分別構(gòu)造每個詞匯的上半子陣的左半部分和右半部分各7行10列二進(jìn)寬度分帶投影矩陣.將上半子陣的左半部分小矩陣和上半子陣的右半部分小矩陣合在一起形成一個14行10列的大矩陣.1人的10個詞匯10遍得到10組數(shù)據(jù),10人即可得到100組數(shù)據(jù),分別相應(yīng)地將每人的10個詞匯前5遍作為訓(xùn)練樣本數(shù)據(jù),后5遍作為檢測樣本數(shù)據(jù).

支持向量機(jī)的參數(shù):采用LIBSVM支持向量機(jī)的一個軟件包實(shí)現(xiàn)10人的10個詞匯的語音識別,由于基于語譜圖特定人二字詞匯漢語識別特征向量的維數(shù)是5維,因此輸入維度是5維,中間層內(nèi)積核函數(shù)維度是5維,同時由于基于語譜圖二次傅里葉變換特定人二字詞匯漢語識別特征向量的維數(shù)是14維,因此輸入維度是14維,中間層內(nèi)積核函數(shù)維度是14維.本文是對10人的10個詞匯的語音進(jìn)行識別,采用基數(shù)詞第1到第10的編碼方式,即1維10進(jìn)制輸出.

將基于語譜圖與基于語譜圖二次傅里葉變換得到的特征量用于特定人二字漢語識別的結(jié)果進(jìn)行對比,如表3所示.通過前50組數(shù)據(jù)對支持向量機(jī)進(jìn)行反復(fù)訓(xùn)練,得到最佳適用模板,將后50組數(shù)據(jù)放入訓(xùn)練好的模板中,使用基于語譜圖對特定人的二字漢語詞匯的語音識別正確率達(dá)到85.2%.,而基于語譜圖二次傅里葉變換對特定人的二字漢語的語音識別正確率達(dá)到92.4%.

表3 用于特定人二字漢語詞匯識別的特征量仿真結(jié)果對比 %

4 結(jié)論

本文提出了基于語譜圖二次傅里葉變換對特定人二字詞匯識別的方法.對語譜圖頻域圖像進(jìn)行行二進(jìn)寬度分帶投影,將投影值作為語音識別特征值,以支持向量機(jī)為分類器,進(jìn)行特定人二字詞匯語音識別.實(shí)驗結(jié)果表明,該方法正確識別率可達(dá)92.4%.這是因為語譜圖頻域圖像的各行反映的恰是語音整體基頻與各次諧波的關(guān)系,同時高頻成分還反映了語譜圖橫向條紋邊緣梯度性質(zhì),這一性質(zhì)是語音頻率特征的精細(xì)結(jié)構(gòu),也許正是這些精細(xì)結(jié)構(gòu),可以更加精確識別特定人不同的語音.當(dāng)然,這一結(jié)論有待于進(jìn)一步研究確認(rèn).總之,本文方法為漢語詞匯整體識別提供了新的思路.

由于本文僅以窄帶語譜圖作為研究對象,語音的時間特征沒有得到深入體現(xiàn),所以,后續(xù)工作將考慮引入寬帶語譜圖,并細(xì)化研究語譜圖構(gòu)造時參數(shù)選擇以及語譜圖頻域圖像特征量提取方式等因素對語音識別的影響,以便尋求最優(yōu)方案,進(jìn)一步提高語音識別效果.

[1] ZUE VICTOR W,LAMEL LORI F.Expert spectrogram a knowledge-based approach to speech recognition[C]//IEEE-IECEJ-ASJ International Conference on Acoustics,Speech,and Signal Processing,Jpn:IEEE,1986:1197-1200.

[2] KLATT D H,STEVENS K N.On the automatic recognition of continuous speech implications from a spectrogram-reading experiment[J].IEEE Transactions on Audio and Electroacoustics,1973,21(3):210-217.

[3] PALAKAL,MATHEW J,ZORAN,et al.Feature extraction from speech spectrograms using multi-layered network models[C]//IEEE International Workshop on Tools for Artificial Intelligence:Architectures,Languages and Algorithms,USA:IEEE Piscataway NJ,1989:1197-1200.

[4] BEN PINKOWSKI.Principal component analysis of speech spectrogram images[J].Pattern Recognition,1997,30(5):777-787.

[5] BRIAN E D KINGSBURY,NELSON MORGAN,STEVEN GREENBERG.Robust speech recognition using the modulation spectrogram[J].Speech Communication,1998,25(1/2/3):117-132.

[6] PAWAN K AJMERA,DATTATRAY V JADHAV,RAGHUNATH S HOLAMBE.Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram[J].Pattern Recognition,2011,44(10/11):2749-2759.

[7] TAI-SHIH CHI,CHUNG CHIEN HAU.Multiband analysis and synthesis of spectro-temporal modulations of fourier spectrogram[J].The Journal of the Acoustical Society of America,2011,129(5):190-196.

[8] GURBUZ SABRI,GOWDYJOHN N,TUFEKCI ZEKERIYA.Speech spectrogram based model adaptation for speaker identification[C]//IEEE Southeastcon,United:IEEE Piscataway NJ,2000:110-115.

[9] 潘凌云,孫達(dá)傳,吳美朝.語音識別中基于語譜圖的語音音素分割方法[J].杭州大學(xué)學(xué)報(自然科學(xué)版),1995,22(1):42-46.

[10] 馬義德,袁敏,齊春亮,等.基于PCNN的語譜圖特征提取在說話人識別中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2005(20):81-84.

[11] 陳向民,張軍,韋崗.基于語譜圖的語音端點(diǎn)檢測算法[J].電聲技術(shù),2006(4):46-49.

[12] 姜洪臣,任曉磊,趙耀宏,等.基于音頻語譜圖像識別的廣告檢索[J].清華大學(xué)學(xué)報(自然科學(xué)版),2011,51(9):1249-1252.

[13] 吳迪,趙鶴鳴,陶智,等.低信噪比下采用感知語譜結(jié)構(gòu)邊界參數(shù)的語音端點(diǎn)檢測算法[J].聲學(xué)學(xué)報,2014,39(3):392-399.

[14] XU SHEN,LIANG SHI LI,WANG SHUANG WEI,et al.A mathematical morophological processing of spectrograms for the tone of chinese vowels recognition[C]//Applied Mechanics and Materials,Shanghai:Trans Tech,2014:665-671.

[15] 趙力.語音信號處理 [M].北京:機(jī)械工業(yè)出版社,2009:128-129.

[16] 張家騄.漢語人機(jī)語音通信基礎(chǔ)[M].上海:上海科技出版社,2010:328-331.

[17] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003:24-25.

(責(zé)任編輯:石紹慶)

Recognition of specific two-word Chinese vocabulary by applying Fourier transform twice to the spectrogram

PAN Di1,LIANG Shi-li1,WEI Ying1,LI Guang-yan,XU Ting-fa2,WANG Shuang-wei1

(1.School of Physics,Northeast Normal University,Changchun 130024,China;2.Institute of Photoelectric Imaging and Information Engineering,Beijing Institute of Technology,Beijing 100081,China)

This paper illustrates a method to recognize specific two-word Chinese vocabulary by analyzing speech signals using a spectrogram after Fourier transform is applied to it twice.First,we analyze the spectrogram in the frequency domain and its corresponding voice characteristics in detail after applying Fourier transform twice.Then,binary width zoning projection is carried out in the frequency domain.The projection value is treated as the characteristic value of semantic recognition feature and the support vector machine(SVM)is considered as the classifier for recognizing the semantics of specific two-word Chinese vocabulary.A total of 1000 voice samples were used in the simulation.The results using this method show a remarkable recognition rate of 92.4%.The proposed method provides a new way for vocabulary recognition.

spectrogram;fourier transform twice;support vector machine(SVM);binary width zoning projection

1000-1832(2017)02-0095-06

10.16163/j.cnki.22-1123/n.2017.02.018

2016-06-14

國家自然科學(xué)基金資助項目(61471111).

潘迪(1991—),女,碩士研究生;通訊作者:王雙維(1957—),男,教授,主要從事噪聲、聲音與振動信號處理研究.

TN 7 [學(xué)科代碼] 510·40

A

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
一些常用詞匯可直接用縮寫
詞匯小達(dá)人
一些常用詞匯可直接用縮寫
一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 青青国产在线| 性色生活片在线观看| 国产精品对白刺激| 国产精品女同一区三区五区| 中文字幕亚洲另类天堂| 青青青草国产| 亚洲国产欧美国产综合久久| 国产在线视频欧美亚综合| 国产精品专区第1页| 女人18毛片水真多国产| 一区二区欧美日韩高清免费 | 无码av免费不卡在线观看| 国产在线观看第二页| 国产精品污污在线观看网站| 毛片在线看网站| 国产AV无码专区亚洲A∨毛片| 日韩欧美国产中文| 在线观看精品国产入口| 免费亚洲成人| 中文天堂在线视频| 91精品国产91久久久久久三级| 秋霞国产在线| 一本大道AV人久久综合| 中文精品久久久久国产网址| 日韩精品亚洲人旧成在线| 东京热高清无码精品| 欧美无专区| 中国国产高清免费AV片| 国产精品自在线天天看片| 亚洲制服中文字幕一区二区| 日韩高清欧美| 欧洲成人免费视频| 四虎影视无码永久免费观看| 91色国产在线| 成人精品区| 欧美一区二区人人喊爽| 国产jizzjizz视频| 国产精品视屏| 婷婷在线网站| 国产精品美乳| 黄色网址手机国内免费在线观看| 性喷潮久久久久久久久| 國產尤物AV尤物在線觀看| 亚洲无码视频图片| 手机在线免费不卡一区二| 制服丝袜一区| 亚洲美女久久| 日本伊人色综合网| 精品久久综合1区2区3区激情| 99热这里只有精品5| 亚洲一区免费看| 国产主播一区二区三区| 白浆视频在线观看| 欧美成人手机在线观看网址| 国产色婷婷| 国产成人综合网在线观看| 中国一级特黄大片在线观看| 亚洲黄网在线| 播五月综合| 久久国产av麻豆| 蜜臀AV在线播放| 五月天久久综合国产一区二区| 国产高清在线观看91精品| 国产三级成人| 蝴蝶伊人久久中文娱乐网| 国产日韩AV高潮在线| 亚洲丝袜中文字幕| 国产福利小视频高清在线观看| 婷婷亚洲视频| 亚洲欧州色色免费AV| 国产亚洲欧美在线视频| 狠狠色丁婷婷综合久久| 亚洲精品在线观看91| 亚洲无码37.| 日韩欧美中文| 国内精品小视频福利网址| 久久国产乱子| 欧美精品v欧洲精品| 国产精品页| 亚洲色无码专线精品观看| 色欲色欲久久综合网| 99久久人妻精品免费二区|