999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合語音融合特征和隨機森林的構音障礙識別

2018-06-14 06:16:24張雪英段淑斐閆密密
西安電子科技大學學報 2018年3期
關鍵詞:數據庫特征

李 東, 張雪英, 段淑斐, 閆密密

(太原理工大學 信息工程學院,山西 太原 030024)

構音障礙是指由于中樞神經系統受損導致的發音運動不協調,從而產生語音混亂的現象[1].神經肌肉的器質性病變會造成發音器官的肌肉無力、肌張力異常或運動不協調,從而導致發聲、韻律以及共鳴等方面的異常.構音障礙的嚴重程度決定于神經肌肉受損的程度.腦癱是構音障礙的一種典型病例,于發育早期形成,病變部位在腦部,除肢體運動障礙之外,大部分患者存在呼吸道和聲道的中樞性神經運動異常[2].據世界衛生組織的數據統計,在腦癱患者中,有88%左右存在構音障礙問題.語音信號處理是檢測構音障礙的有效方式之一,通過提取語音中的特征參數并進行模式分類,可以有效地將正常人和構音障礙人進行區分,結合相關的病理學知識,可進一步對病情嚴重程度進行判斷[3].因此,進行基于聲學特征的病理語音識別研究具有十分重要的社會意義.在目前的病理語音研究中,使用最為廣泛的數據庫是麻省眼耳醫院(Massachusetts Eye and Ear Infirmary ,MEEI)開發的病理嗓音數據庫.此數據庫收集了正常人以及各種由神經、器官病變或外傷導致的發音障礙患者的語音數據.此外,還有由阿姆斯特丹大學開發的NKI-CCRT數據庫,記錄了頭頸部癌癥患者的語音數據,語言為荷蘭語;由多倫多大學開發的TORGO數據庫[4]記錄了腦癱或肌萎縮性脊髓側索硬化癥患者的語音數據,語言為英語.相比之下,漢語普通話的病理語音數據庫十分缺乏,很大程度上阻礙了相關研究的進展.

目前,進行病理語音識別的主要方法是: 先從語音中提取所需特征,再運用機器學習的方法進行識別和分類[5].文獻[6]選用了MEEI病理嗓音數據庫,并提取梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient, MFCC)作為特征參數,分別采取F檢驗和費雪判別比的方法進行降維,選取高斯混合模型(Gaussian Mixture Model, GMM)作為識別系統,對比了兩種特征選擇方法的優劣.在四川大學與四川大學華西口腔醫院的合作研究中,提取了MFCC作為特征,運用隱馬爾科夫模型(Hidden Markov Model,HMM)對腭裂語音輔音省略情況進行識別,達到了86.9%的識別正確率[7].文獻[8]對于MEEI數據庫中的語音數據提取了MFCC特征,使用高斯混合模型建立模型,在語音模型的相似性度量中,對KL距離和巴氏距離進行了改進,使用支持向量機(Support Vector Machine, SVM)進行識別,分別取得了96.5%和95.5%的識別正確率.文獻[9]使用高斯混合模型作為統計模型,從語音中提取出小波域能量譜系數的統計學特征后進行識別,對病理語音的識別率達到97.45%.文獻[10]基于聲音強度提取出一種新特征,即修改語音輪廓(Modified Voice Contour,MVC),并運用支持向量機進行識別,在使用作者自行采集數據庫作為實驗數據時,達到了100%的識別率.雖然目前已經有較多對于由不同疾病導致的構音障礙的研究,但是大多數都采用了經典的MFCC和共振峰等單一特征,缺少將多種類型的特征融合后進行識別的方法.此外,識別的模型也大多局限于支持向量機、隱馬爾科夫模型和高斯混合模型等.

韻律特征在表現語音的流暢程度、聲調和節奏等方面性能較好[11],能在很大程度上彌補MFCC在進行語音識別時性能上的不足.隨機森林(Random Forest,RF)作為一種集成學習算法,在處理大量數據和高維特征時具有良好的性能,訓練速度快、模型泛化能力強[12].因此,筆者提出了一種結合MFCC與韻律特征的融合特征(Fusion Feature of Prosody and MFCC, FFPM),并采用隨機森林算法,將兩者應用于腦癱導致的構音障礙識別中.

文中首先針對不同性別的被試,分別采用單一特征與融合特征進行對比研究,驗證融合特征對于單一特征的優化作用.在此基礎之上,去除性別差異,在整體數據上再次實驗,測試不同分類器下單一特征與融合特征的分類精度,從而匹配出最優特征與分類器組合.

1 基于MFCC和韻律特征的FFPM特征提取

1.1 韻律特征

韻律特征,又名超音段特征,體現了語音信號強度和語調的變化.韻律作為語音識別研究中常用的特征,已經取得了一些理想的識別結果.構音障礙說話人在表達較長語句時,其聲音強度和流暢度與正常說話人差別明顯.常用的韻律特征主要有:

(1) 語速(speed).即時長和發音音節數的比值.

(2) 過零率(zero crossing rate).一幀語音中語音信號波形穿過零電平的次數稱為過零率.定義語音信號x(m)的過零率為

(1)

(3) 能量(energy).設第n幀語音信號的短時能量用En表示,則

(2)

(4) 共振峰(formant).當元音激勵進入聲道時會引起共振特性,產生一組共振頻率,即共振峰.它反映了聲道諧振特征.

(5) 基頻(pitch).即發濁音時聲帶振動的頻率,人在發音過程中,由于聲門瞬時閉合,聲道被強烈激勵,表現在語音波形上就是此瞬間幅度劇增,產生突變.相鄰兩個聲門閉合之間的時間長度的倒數就是該處的基音頻率.

1.2 梅爾頻率倒譜系數

梅爾頻率是一種根據人耳聽覺特性構造的一種語音特征參數.由于人耳所聽到的聲高與頻率并不是線性對應關系,而是更接近于對數關系,因此梅爾頻率尺度更能準確地對應人耳的聽覺特性.它與頻率的關系可表示為

Fmel=2 595 lg(1+fHz/700) .(3)

提取MFCC時,步驟如下:

(1) 進行預加重.首先使信號通過一個高通濾波器:H(Z)=1-μz-1,其中μ取0.97.

(2) 進行分幀和加窗.幀長設定為256,幀移為128.每一幀都乘以Hamming窗,窗函數為

w(n)=0.54-0.46 cos[2πn/(N-1)] , 0≤n≤N.(4)

(3) 進行快速傅里葉變換,得到各幀的頻譜.設輸入信號為x(n),則語音信號的離散傅里葉變換(Discrete Fourier Transform,DFT)為

(5)

得到頻譜后再對頻譜取模平方得到功率譜.

(4) 將功率譜通過一組梅爾尺度的三角濾波器組,濾波器階數為24.再將結果取對數,即

(6)

(5) 經離散余弦變換后,可得到MFCC系數為

(7)

1.3 FFPM特征的構成

文中提取了語音的語速、過零率、能量、基頻以及第1、第2和第3共振峰(F1,F2,F3)作為韻律特征,然后計算其統計函數,并融合了MFCC的統計函數,組成最終的融合特征,即FFPM特征.特征集合表示為

Fu={s,z,E,P,F1,F2,F3,M1,M2,…,Mk} ,(8)

其中,s為語速;z為過零率;E表示由能量的統計參數構成的向量,即

(9)

其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;P表示由基頻的統計參數構成的向量,即

(10)

其各量依次為最大值、最小值、均值以及一階差分的最大值、最小值和均值;F1、F2和F3表示由第1、第2和第3共振峰的統計參數構成的向量,即

其各量依次為最大值、最小值、均值、方差以及一階差分的最大值、最小值、均值和方差;Mk表示第k階MFCC的統計參數構成的向量,即

(14)

其各量依次為偏度、峰度、均值、方差和中值;式(14)中,偏度計算公式為

S(Mk)=E(Mk-μ)σ3.(15)

峰度計算公式為K(Mk)=E(Mk-μ)σ4-3 .(16)

在文中,k值取12,最終構成98維的FFPM融合特征.

2 隨機森林分類器

隨機森林是一種集成學習方法,其基本思想是每次從訓練樣本中隨機選取部分特征來構建獨立的決策樹,然后重復這個過程,且保證每次都是等概率地抽取特征,直到構建了足夠多且相互獨立的樹,分類結果由這些樹通過特定的規則共同決定[8].隨機森林以K棵決策樹{h(X,θk),k=1,2,…,K}作為基分類器進行集成學習,其中{θk,k=1,2,…,K}是一個隨機變量序列, 其構成方式遵循以下思想:

(1) Bagging: 從原始樣本集X有放回地隨機抽取K個與原始樣本集同樣大小的訓練樣本集{Tk,k=1,2,…,K},并且由每個訓練樣本集Tk構造一棵決策樹.

圖1 第k棵決策樹生成過程

(2) 特征子空間:對決策樹的每個節點進行分裂時,從全部屬性中等概率抽取一個子集,再從此子集中選取一個最優屬性來分裂節點.

在構建每棵決策樹時,抽取訓練樣本集和屬性子集的過程各自獨立,且總體相同,所以{θk,k=1,2,…,K}為獨立同分布的隨機變量序列.第k棵決策樹的訓練過程如圖1所示.

把以同樣的方式訓練得到的k棵決策樹組合起來,就可以得到一個隨機森林.當輸入待分類的樣本時,由每個決策樹的輸出結果進行投票(取眾數),就會得到隨機森林的最終分類結果.相比于單個決策樹,隨機森林具有更強的分類能力,且有效地避免了過擬合.此外,隨機森林作為分類器時,不需要對特征進行降維,且在處理大量數據時也比支持向量機識別率更高,速度更快.文中,不限制隨機森林的決策樹深度,樹的數量選擇為100.

3 TORGO數據庫

3.1 數據庫概況

選用由加拿大多倫多大學計算機科學與語音病理學系聯合Holland-Bloorview Kids Rehab hospital共同開發的TORGO腦癱病人數據庫[9],此數據庫包含了總時長為 23 h 左右的英文語音數據,同時含有與聲音數據同步的發音動作數據.構音障礙患者類型為腦癱或肌萎縮性脊髓側索硬化癥(Amyotrophic Lateral Sclerosis,ALS).數據庫基本構成情況如表1所示.

表1 TORGO數據庫概況

3.2 數據庫篩選

從數據庫中選擇了短語和限制句作為語料來源,兩者的構成情況如表2所示.

其中,對于不需要探究詞界的語音聲學研究來說,短語是非常有用的,它可體現出說話人對單個詞匯的發音能力.選用限制句是為了評判說話人利用詞匯、語法和進行語義處理時的能力,構音障礙人在這方面的能力與正常人存在較大差距.

表2 短語及限制句來源

表3 篩選后數據構成情況

文中選擇來自全部15位被試的限制句和短語語音數據.在原有數據中,有一小部分數據存在被試發音錯誤,錄制設備發出噪音和治療師發出聲音的問題,此類情況在構音障礙患者的音頻數據中尤為突出.為避免因音頻數據的質量影響實驗,在進行實驗之前對原始數據庫進行了篩選,以求將客觀因素影響減到最小.同時使用了改進的相位補償語音增強算法[14]對篩選后的語音數據進行了處理,目的是最大限度地減少噪聲干擾.表3中顯示了篩選后的數據構成情況.

4 實 驗

進行了單一類型特征以及FFPM特征在不同分類器下的識別率對比實驗,共有9種組合形式,分類器選取了支持向量機,C4.5決策樹和隨機森林.其中,支持向量機使用線性核函數,C4.5決策樹置信因子設置為0.25,每個葉的最小實例數量設置為2.然后,從篩選后的數據中,選取66%作為訓練集,34%作為測試集,并采用10折交叉驗證法來檢驗特征和識別網絡的性能.

4.1 基于性別的融合特征性能測試

為測試所提FFPM融合特征針對不同性別的識別性能,設計了2組試驗,分別測試在使用限制句和短語作為語料時,單一特征和FFPM特征的識別率.

從圖2可以得出,在語料為限制句時,無論是對于男性還是女性,提出的FFPM識別準確率都比單獨使用MFCC和韻律特征時更高; 無論使用何種分類器,FFPM的識別正確率都高于另外兩個單一特征;在僅使用韻律特征時,對女性聲音的識別率明顯低于男性,韻律特征在表現女性語音特征時性能不佳.在女性聲音的識別上,FFPM相比于單一的韻律特征和MFCC特征都有顯著提升,使用隨機森林分類器后識別率達到99.62%.說明相較于單一特征,融合特征在識別性能上確實有優化作用.此項實驗為后續分類器選擇的實驗奠定了基礎.

圖2 限制句特征識別率男女對比圖3 短語特征識別率男女對比

從圖3可以看出,與限制句的識別率相比,短語的識別率整體偏低.這個現象反映出,相比于句子,構音障礙患者能夠較為正確地對短語進行發聲,因此在進行識別時,其語音特征與正常說話人之間差異較小,一定程度上會影響分類結果.同樣,韻律特征在進行女性語音的識別時表現不佳,但FFPM將女性聲音的識別率提升到了98.31%.上述兩個實驗中,對于男性聲音的平均識別率達到99.21%,對女性聲音的平均識別率達到98.97%.

4.2 綜合對比測試

設計了兩組對比實驗,去除性別因素,只針對兩種語料類型分開實驗,目的為測試不同分類器下單一特征與融合特征的分類精度,從而匹配出最優特征與分類器組合.

從圖4可以看出,在語料為限制句時,韻律特征和隨機森林的組合達到了96.49%的識別率,比MFCC和隨機森林的組合高出了3.57%,但是考慮到在4.1節的實驗中,韻律特征在女性聲音的識別中表現不佳,若增加實驗中女性被試的人數,識別率必定會明顯下降;使用FFPM特征和隨機森林算法的組合所達到的識別準確率最高,比MFCC和C4.5的組合高出12.16%,比韻律特征和支持向量機的組合高出11.71%.從分類器的角度出發進行對比,隨機森林比另外兩個分類器的識別率高出約6%,優勢較為顯著.

圖4 限制句特征識別率對比圖5 短語特征識別率對比

從圖5可以看出,短語的特征識別率類似于限制句,但是整體略低.其中,支持向量機作為識別網絡、MFCC作為特征時識別率都相對較低,相比之下,當FFPM和隨機森林組合時,識別率達到了97.95%,體現了將頻譜特征和時域特征結合后的性能優勢,以及隨機森林分類器對高維特征向量的良好識別率.上述兩個實驗的平均識別率達到98.00%.

綜上所述,文中提出的包含韻律特征和MFCC的FFPM與隨機森林算法組合的方式所表現出的性能最優.由此可以說明,FFPM特征可以更好地詮釋患者與正常人之間的差異,同時選用隨機森林算法進行分類識別,可以取得理想的效果.

5 結 束 語

基于語音數據和機器學習進行的構音障礙評估和診斷日益重要,但傳統的單一聲學特征往往并不能很好地表現患者與正常人之間的差異,同時,傳統的支持向量機在處理大數據量時表現不佳,并且運算速度慢;決策樹極易發生過擬合的現象.鑒于此類情況,文中對語音數據提取了包括MFCC和韻律特征在內的FFPM特征;并引入隨機森林作為分類器,實現了對樣本的集成學習.在實驗中,首先通過針對不同性別的被試,分別采用單一特征與融合特征進行對比研究,驗證了融合特征對于單一特征的優化作用.在此基礎之上,去除性別差異,在整體數據上再次實驗,測試不同分類器下單一特征與融合特征的分類精度,從而發現了FFPM和隨機森林為性能最優的組合.同時經過實驗發現,相比于句子,構音障礙患者對短語的發音能力更強,發音較為準確.在今后的研究中,將考慮尋找更好的特征融合方式,以期實現更高的識別率.除此之外,建立普通話說話人的數據庫,用現有方法進行訓練和識別,也是未來的研究方向.

[1] DOYLE P, LEEPER H, KOTLER A L, et al. Dysarthric Speech: a Comparison of Computerized Speech Recognition and Listener Intelligibility[J]. Journal of Rehabilitation Research and Development, 1997, 34(3): 309-316.

[2] 劉偉, 陳剛, 遲廣明. 腦癱治療的現狀[J]. 中國康復理論與實踐, 2007, 13(12): 1118-1120.

LIU Wei , CHEN Gang , CHI Guangming. Current Treatment of Cerebral Palsy [J]. Chinese Journal of Rehabilitation Theory and Practice, 2007, 13(12): 1118-1120.

[3] BAGHAI-RAVARY L, BEET S W. Automatic Speech Signal Analysis for Clinical Diagnosis and Assessment of Speech Disorders[M]. Springerbriefs in Electrical and Computer Engineering. Berlin: Springer, 2013.

[4] RUDZICZ F, NAMASIVAYAM A K, WOLFF T. The TORGO Database of Acoustic and Articulatory Speech from Speakers with Dysarthria [J]. Language Resources and Evaluation, 2012, 46(4): 523-541.

[5] GUPTA R, CHASPARI T, KIM J, et al. Pathological Speech Processing: State-of-the-art, Current Challenges, and Future Directions[C]//Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 6470-6474.

[6] GODINO-LLORENTE J I, GOMEZ-VILDA P, BLANCO-VELASCO M. Dimensionality Reduction of a Pathological Voice Quality Assessment System Based on Gaussian Mixture Models and Short-term Cepstral Parameters[J]. IEEE Transactions on Biomedical Engineering, 2006, 53(10): 1943-1953.

[7] 袁亞南, 何凌, 龔曉峰, 等. 基于MFCC和HMM的腭裂語音輔音省略識別算法[J]. 計算機工程與設計, 2014, 35(2): 615-619.

YUAN Ya’nan, HE Ling, GONG Xiaofeng, et al. Recognition Algorithm of Consonants Omission for People with Cleft Palate Based on MFCC and HMM [J]. Computer Engineering and Design, 2014, 35(2): 615-619.

[8] AMARA F, FEZARI M, BOUROUBA H. An Improved GMM-SVM System Based on Distance Metric for Voice Pathology Detection[J]. Applied Mathematics and Information Sciences, 2016, 10(3): 1061-1070.

[9] 常靜雅, 張曉俊, 顧玲玲, 等. 小波域能量譜和非線性降維的病理嗓音識別[J]. 計算機工程與應用, 2017, 53(2): 166-171.

CHANG Jingya, ZHANG Xiaojun, GU Lingling, et al. Wavelet Domain Energy Spectrum and Nonlinear Dimensionality Reduction in Pathological Voice Recognition[J]. Computer Engineering and Applications, 2017, 53(2): 166-171.

[10] ALI Z, ALSULAIMAN M, ELAMVAZUTHI I, et al. Voice Pathology Detection Based on the Modified Voice Contour and SVM[J]. Biologically Inspired Cognitive Architectures, 2016, 15: 10-18.

[11] 姚慧, 孫穎, 張雪英. 情感語音的非線性動力學特征[J]. 西安電子科技大學學報, 2016, 43(5): 167-172.

YAO Hui, SUN Ying, ZHANG Xueying. Research on Nonlinear Dynamics Features of Emotional Speech[J]. Journal of Xidian University, 2016, 43(5): 167-172.

[12] BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

[13] WRENCH A. The MOCHA-TIMIT Articulatory Database [DB/OL]. [2017-05-06]. http://www. cstr. ed. ac. uk/artic/mocha. html.

[14] 王棟,賈海蓉. 改進相位譜補償的語音增強算法[J]. 西安電子科技大學學報, 2017, 44(3): 83-88.

WANG Dong, JIA Hairong. Speech Enhancement Using Improved Phase Spectrum Compensation[J]. Journal of Xidian University, 2017, 44(3): 83-88.

猜你喜歡
數據庫特征
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产精品第5页| 永久免费无码日韩视频| 国产成人1024精品| 免费a在线观看播放| 精品国产成人av免费| 无码aⅴ精品一区二区三区| 99re经典视频在线| 免费在线不卡视频| 国产成人8x视频一区二区| 国产成人久久综合777777麻豆| 高清色本在线www| 中文纯内无码H| 亚洲欧美在线精品一区二区| 免费jizz在线播放| 丰满人妻久久中文字幕| 欧美全免费aaaaaa特黄在线| 精品三级网站| 亚洲美女一级毛片| 日本午夜影院| 亚洲码一区二区三区| 看你懂的巨臀中文字幕一区二区 | 亚洲国产亚洲综合在线尤物| 九九热这里只有国产精品| 97se亚洲综合在线韩国专区福利| 亚洲精品国产自在现线最新| 国产成人调教在线视频| 无码粉嫩虎白一线天在线观看| 日韩欧美国产精品| 97亚洲色综久久精品| 国产高清色视频免费看的网址| 国产特级毛片| 亚洲天堂网在线观看视频| 99热这里只有精品国产99| 成人一级免费视频| 91av国产在线| 亚洲一区二区无码视频| 国产主播在线观看| 亚洲国产精品日韩av专区| 国产午夜无码专区喷水| 亚洲综合色区在线播放2019| 日本精品影院| 日韩东京热无码人妻| 亚洲精品久综合蜜| 国产乱子伦视频三区| 亚洲天堂高清| 国产精品久久久久久影院| 亚洲69视频| 美女被操黄色视频网站| 美女啪啪无遮挡| 国产成人禁片在线观看| 亚洲中文精品人人永久免费| 成年免费在线观看| 欧美色视频日本| 国产成人啪视频一区二区三区| 曰韩人妻一区二区三区| 日韩av无码DVD| 三级视频中文字幕| 国产一区二区三区视频| 亚洲乱码精品久久久久..| 亚洲婷婷丁香| 国产永久无码观看在线| 国产偷倩视频| 四虎永久免费网站| 亚洲无卡视频| 91无码网站| 国产三级成人| 亚洲国产精品一区二区高清无码久久| 欧洲欧美人成免费全部视频| 四虎影视国产精品| 欧美日韩国产一级| 亚洲视频四区| 精品一区二区三区水蜜桃| 国产真实乱子伦精品视手机观看 | 国产精品女在线观看| 波多野结衣一二三| 91精品久久久久久无码人妻| 啪啪免费视频一区二区| 中文毛片无遮挡播放免费| 欧美精品成人一区二区视频一| 欧美黄网站免费观看| 亚洲色图综合在线| 久久亚洲国产一区二区|