姜子星 葉武劍 呂友成 劉怡俊


摘要:病理語音是患者神經系統受損導致發音運動不協調所產生的語音。現有病理語音分析方法大多數采用頻域語音特征如梅爾倒譜系數,并且識別模型也大多采用支持向量機模型。因此,提出一種時頻特征短時傅里葉變換系數與梯度提升決策樹的病理語音識別模型。首先,使用自建的腦卒中構音障礙數據集,提取語音的時頻特征短時傅里葉變換系數。隨后,結合梯度提升決策樹算法進行分類識別。實驗結果表明,提出的聲學特征能夠勝任腦卒中構音障礙識別任務。與梯度提升決策樹分類器結合后,音節級別的準確率為68.5%,上升到說話人級別后準確率達到88.2%。
關鍵詞:梯度提升決策樹;構音障礙識別;時頻特征
中圖分類號:TN912.34 ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)35-0131-03
Pathological Voice Recognition Based on Gradient Boosting Decision Tree
JIANG Zi-xing1, YE Wu-jian1, LV You-cheng2, LIU Yi-jun1
(Guangdong University of Technology, Guangzhou 510006, China; 2.Guangzhou Xinghai Integrated Circuit Center Co., Ltd., Guangzhou 510006, China)
Abstract: Pathological voice is the speech produced by uncoordinated pronunciation and movement caused by damage to the patient's nervous system. Most of the existing pathological voice analysis methods use frequency domain voice features such as Mel cepstrum coefficients, and most of the recognition models use support vector machine models. Therefore, proposed a pathological voice recognition model with time-frequency feature and gradient boosting decision tree. Firstly, using the self-built stroke dysarthria dataset to extract the short-time fourier transform coefficients of the time-frequency features of speech. Subsequently, the classification and recognition are carried out by the gradient boosting decision tree model. The experimental results show that the proposed feature can be competent for the recognition task of stroke dysarthria. After combining with the gradient boosting decision tree classifier, the accuracy rate of the syllable level is 68.5%, and the accuracy rate reaches 88.2% after rising to the speaker level.
Key words: gradient boosting decision tree; dysarthria recognition; time-frequency feature
1 引言
構音障礙是指由于患者中樞神經系統受損導致的發音運動不協調,從而導致患者發音混亂的現象,其嚴重程度決定于神經肌肉受損的程度[1]。研究調查發現,我國每年腦卒中新發病例超過250萬人,已成為主要死亡原因之一[2]。因此能否有效診斷構音障礙對患者的預防及治療起至關重要作用。
傳統的構音障礙診斷方法主要是通過外科手術的方式。傳統方法耗時且依賴于臨床醫生的主觀判斷,因此,研究人員和從業者一直在努力尋找這些手術的替代方法,基于語音樣本的診斷就是其中之一[3]。語音信號的聲學分析能夠實現語音病理學的非入侵性、經濟性、無偏見性和快速評估的優點[4]。
基于機器學習的方法能夠快速將患者與正常人進行區分,易于理解和解釋。O. Lachhab 利用異方差線性判別分析(HLDA)方法對聲矢量進行線性變換,在自建數據庫FPSD(French pathological speech database)使用HMM/GMM模型進行評估[5]。Xun對MEEI數據進行RAE優化后,應用GMM-EM模型進行識別,準確率可達98%[6]。Gao等提取Hurst參數、時延、二階Renyi熵、Shannon熵、關聯維數等7維非線性病理語音特征,對病態語音進行定量分析。然后采用高斯混合模型(GMM)和支持向量機(SVM)進行建模,識別率分別為97.22%和97.30%[7]。Fang等將聲像信號與病歷相結合,構建多模態病理語音識別框架,該框架可提高2.48%-17.31%的準確率[8]。Muhammad等采用MPEG-7音頻低層特征,對MEEI數據庫中健康人和患者的持續元音,采用支持向量機(SVM)進行10次交叉驗證,準確率達到99.994±0.0105%[9]。Gan等對傳統聲學特征與非線性特征進行比較,并用SVM進行識別,得到非線性特征參數能較好地區分健康和病理性的聲音[10]。
時頻STFT特征對在表現語音的平穩程度性能較好,能在很大程度上表現出語音的特征。梯度提升決策樹作為一種集成學習算法,在處理低維數據效果很好,且泛化能力與預測精度高。因此,本文提出了基于STFT特征,并采用梯度提升決策樹算法,將兩者應用于腦卒中構音障礙識別中。
2 方法
2.1 STFT特征
短時傅里葉變換(Short-Time Fourier Transform,簡稱STFT):也稱為滑窗式或分時傅里葉變換,是一種簡單有效的時頻分析方法。其特征系數的實質是加窗的傅里葉變換。在語音信號做傅里葉變換之前乘上一個窗函數h(t),并假定非平穩信號在分析窗的短時間隔內是平穩的,通過窗函數在時間軸上的移動,對信號進行逐段分析,從而得到語音信號的STFT特征。信號x(t)的短時傅里葉變換定義為:
式中,為分析窗函數。
2.2 梯度提升決策樹分類器
梯度提升決策樹(GBDT)是集成學習算法的一種,其基本思想是采用串行的方式,每一次建立模型是在之前建立模型損失函數的梯度下降方向,即利用了損失函數的負梯度在當前模型的值作為回歸問題提升樹算法的殘差近似值,去擬合一個回歸樹。損失函數用來評價模型性能,損失函數越小,性能越好。而讓損失函數持續下降,其最好的方法就是使損失函數沿著梯度方向下降,其構成方式遵循以下思想:
Boosting思想:先從初始訓練集訓練出一個基學習器,再根據及學習器的表現對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續受到更多關注,然后基于調整后的樣本分布來訓練下一個基學習器。如此重復進行,直至基學習器的數目達到事先指定的值t,最終將這t個基學習器進行加權結合。
通過多輪迭代,每輪在上一輪分類器殘差基礎上進行訓練,最終將每輪得到的分類器加權求和得到最后的總分類器。相比于單個決策樹,梯度提升決策樹具有更強的泛化能力和表達能力。此外,梯度提升決策樹作為分類器時,可以處理非線性數據,且對于低維數據效果很好,預測精度高。文中不限制隨機森林的決策樹深度,樹的數量選擇100。
3 數據集與評價標準
3.1 數據集
本文使用自建的腦卒中構音障礙數據集。參與數據收集的人員均為說普通話的成年人,所有參與數據采集的說話人都進行了體格檢查、在構音障礙發生之前,所有的病人都可以順利地用普通話交流,正常人沒有任何語音方面的障礙。為了方便后續處理,語音數據以.wav格式進行存儲。
語音數據分為A和B兩部分。A部分由15位腦卒中構音障礙患者與22位正常人的語音組成,每人錄取82段不同的音節發音,部分參與者由于個體差異存在個別語音的缺損。B部分包括后來收集的20名卒中后構音障礙患者,每名患者包含28段不同的音節片段。
3.2 評價標準
在病理語音分析中,正常人無疾病表現為陰性,而患者為陽性。識別模型的輸出結果可分為真陽性、真陰性、假陽性和假陰性四種情況。并以準確度(Accuracy)、精密度(Precision)、召回率(Recall)、F1-score作為評價各模型性能的指標。
4 實驗結果與分析
利用Keras APIs在tensorflow平臺上搭建了相關網絡模型。為了判別已知說話人的任務,所構建的識別模型在音節水平和說話人水平進行驗證,通過將表1中的所有音節發音以7:3的比例隨機劃分為訓練集和測試集進行訓練,實驗結果如圖2所示。
圖2為GBDT、SVM、極端隨機樹(EXTree)和KNN的對比分析。從音節級別結果可以看出,STFT特征在GBDT模型中取得了較好的結果,僅有Precision略遜色于SVM與EXTree。從KNN在四種分類模型中分類結果較差,說明我們提取的STFT特征相似性不強。也從側面說明GBDT能夠更好地勝任STFT特征的分類工作。
從說話人實驗結果表明,GBDT分類效果遠勝于其他三種分類模型。相比音節實驗,上升到說話者階段后,GBDT、KNN與EXTree都取得了較大的提升,說明部分音節識別錯誤并不會影響整體判斷的結果。傳統的SVM模型,并不能很好地對病理語音進行識別任務。
5 結論
本文提出了一種基于STFT特征的腦卒中構音障礙預測方法,通過使用專業的錄音設備獲得腦卒中病人和正常人的特定語音片段;然后對語音信號進行相關預處理,再進行相應的語音特征提取。實驗結果表明,STFT特征能夠較好地對說話人級別進行識別,但是對于音節級別的識別還有待改善。但本研究仍有不少局限性。
1)數據集較少,可嘗試對語音數據進行數據增強,從而擴充語音數據集,減少因數據集稀缺問題帶來的影響。
2)對于特征提取而言,還可進一步探討特征的維度對準確率的影響。
3)針對本文特征而言,可以探討其他類型的語音特征,從而提升語音特征的全面性。
參考文獻:
[1] 李東,張雪英,段淑斐,等.結合語音融合特征和隨機森林的構音障礙識別[J].西安電子科技大學學報,2018,45(3):149-155.
[2] 史慧玲,張敏,汪夢月,等.腦卒中后認知障礙病人篩查與管理最佳證據總結[J].護理研究,2021,35(8):1346-1352.
[3] Islam R,Tarique M,Abdel-Raheem E.A survey on signal processing based pathological voice detection techniques[J].IEEE Access,2020,8:66749-66776.
[4] Gidaye G,Nirmal J,Ezzine K,et al.Wavelet sub-band features for voice disorder detection and classification[J].Multimedia Tools and Applications,2020,79(39/40):28499-28523.
[5] Lachhab O,Di Martino J,Ibn Elhaj E H,et al.Improving the recognition of pathological voice using the discriminant HLDA transformation[C]//2014 Third IEEE International Colloquium in Information Science and Technology (CIST).October 20-22,2014,Tetouan,Morocco.IEEE,2014:370-373.
[6] Xun, LU, Yi, CAO, Su-yao., and WANG, Pathological Voice Recognition Research by GMM-EM. Control and Automation Engineering(ECAE 2013) .
[7] Gao J F,Hu W P.Recognition and study of pathological voice based on nonlinear dynamics using Gaussian mixture model/support vector machine[J].Sheng Wu Yi Xue Gong Cheng Xue Za Zhi,2012,29(4):750-753,759.
[8] Fang S H,Wang C T,Chen J Y,et al.Combining acoustic signals and medical records to improve pathological voice classification[J].APSIPA Transactions on Signal and Information Processing,2019,8:e14. DOI:10.1017/atsip.2019.7.
[9] Muhammad G,Melhem M.Voice pathology detection and classification using MPEG-7 audio low-level features[C]//Interspeech 2013.ISCA:ISCA,2013:3627-3631.
[10] Gan D Y,Hu W P,Zhao B X.A comparative study of pathological voice based on traditional acoustic characteristics and nonlinear features[J].Sheng Wu Yi Xue Gong Cheng Xue Za Zhi,2014,31(5):1149-1154.
【通聯編輯:梁書】