朱春媚,黎 萍
(1.電子科技大學中山學院 機電工程學院,廣東 中山 528403;2.華南理工大學 自動化科學與工程學院,廣東 廣州 510641)
基于幀間PCA特征降維的咳嗽識別
朱春媚1,2,黎 萍1
(1.電子科技大學中山學院 機電工程學院,廣東 中山 528403;2.華南理工大學 自動化科學與工程學院,廣東 廣州 510641)
咳嗽是呼吸系統疾病常見的癥狀,咳嗽的自動監測在臨床上具有重要的輔助診斷意義。作為便攜式咳嗽監測儀的軟件算法,咳嗽識別具有小樣本、粗分類和運算速度要求高的特點,這使得特征降維在咳嗽識別中具有重要意義。咳嗽識別一般采用39維的Mel倒譜系數作為特征量,特征維數不高導致幀內特征降維效果不顯著。針對這個問題,文中對咳嗽的聲學特點進行分析,在得出咳嗽特征集中體現在爆發相的結論基礎上,提出了一種基于主元分析法(PCA)的幀間特征降維方法。采用主元分析得到映射矩陣和主元個數后,以每6幀為一組進行分組降維,然后組合降維后的特征作為總特征,將咳嗽識別的特征數量降維至原來的23.9%。采用隱馬爾可夫模型作為分類器,多組錄音樣本的咳嗽識別實驗結果表明,該降維方法能在改善識別準確率的同時,有效減少算法的運行時間、提高咳嗽識別的效率。
咳嗽監測;咳嗽識別;主元分析法;特征降維
咳嗽是呼吸系統疾病常見的癥狀,咳嗽的自動監測在臨床上具有重要的輔助診斷意義。目前已有多種類型的便攜式咳嗽監測儀,能有效實現對咳嗽的長時間記錄[1-5]。作為便攜式咳嗽監測儀的軟件算法,咳嗽識別的主要目標是實現長時間監測結果中咳嗽的自動識別和分類,以幫助醫生進行快速、準確的診斷。咳嗽識別的應用要求和分類特點使得特征降維對咳嗽識別具有重要的意義,主要體現在:
(1)便攜式咳嗽監測儀需對咳嗽進行連續、長時間(一般為24小時)的監測,并對包含幾萬個聲音樣本的監測結果進行分析,所以對其配套的咳嗽識別算法的運行速度要求較高。特征降維有利于提高算法的運行速度。
(2)目前咳嗽還沒有公共的大型數據庫,而且符合一定呼吸疾病類型的咳嗽樣本采集范圍較小,與語音識別相比屬于小樣本的情況,特征數量過多容易出現過擬合現象,不利于提高識別率。
(3)咳嗽識別一般只需要區分咳嗽與非咳嗽,與語音識別相比分類要求低。傳統的語音識別特征用于咳嗽識別存在冗余,存在降維的空間。
目前關于咳嗽特征降維的研究不多,文獻[6]利用中位頻率和頻譜能量過濾無語音片段,有效壓縮了需要處理的數據量,但不屬于特征降維;文獻[7]采用信息論準則對咳嗽識別中由Mel倒譜系數(MFCC)、響度、譜質心、譜變化等組成的220維混合參數降維至50維,屬于幀內特征降維。對于咳嗽識別系統廣泛使用的線性預測系數(LPC)、MFCC等特征,由于幀內降維的空間不大,直接進行幀內降維難以獲得好的效果。
針對這個問題,文中結合咳嗽的聲學特點,提出了一種基于主元分析法(PCA)的幀間特征降維方法,并采用隱馬爾可夫模型(HMM)實現咳嗽識別。
實驗樣本來自醫院病房,使用DELL原裝機的聲卡信號采集設備進行單聲道采樣,采樣頻率為8 000 Hz,每個錄音保存為16位數字量化的WAV文件。選取不同性別、年齡和呼吸感染情況的病人進行連續、長時間的日常錄音。人工分割成單個咳嗽信號作為咳嗽樣本,并隨機截取時長為0.2~3 s的非咳嗽信號作為非咳嗽樣本。
PCA是一種通過降維技術把多個變量化為少數幾個主成分(即綜合變量)的統計分析方法[8]。文中采用PCA來實現幀間特征降維。由于處理對象是時間長度不確定的聲音信號,幀間特征降維需要解決的主要問題是信號幀數不同導致的特征維數不同。文中根據咳嗽的聲學特點采用分組的方法來實現。
2.1 咳嗽的聲學特點
研究發現,一個完整的咳嗽時域波形由爆發相(第一聲)、平穩過渡期和第二聲三相組成,如圖1所示。
其中第二聲是可選的,有的咳嗽沒有第二聲[9]。

圖1 一個典型咳嗽的時域波形圖
咳嗽特征集中體現在爆發相(第一聲),其持續時間一般在60 ms以內[9]。按幀長240(30 ms),幀移80(10 ms)分幀時,對應信號的前6幀。因此,主元分析時,每個咳嗽信號可以取最具咳嗽特征的前6幀作為樣本;得到映射矩陣后,把每個輸入信號的原始特征按每6幀分組,則每組的特征維數與映射矩陣對應,然后分組進行降維。
由于第二聲咳嗽可選,而平穩過渡期沒有包含很多的特征信息,分組若出現小于6幀的維數,可以直接舍棄。
2.2 咳嗽特征PCA分析
文中采用12階MFCC參數和對數能量,并求其一階差分和二階差分,得到共39維參數作為一幀咳嗽信號的原始特征參數。
得到39維的MFCC參數之后,對咳嗽樣本的前6幀進行主元分析,步驟如下:
(1)構造原始的特征數據矩陣A。

(1)
其中:n是每個樣本前6幀的特征總數,文中采用39維MFCC作為一幀信號的特征參數,則前6幀的特征總數為234維,即n=234;m是咳嗽樣本數;xij是第i(i∈{1,2,…,m})個樣本的第j(j∈{1,2,…,234})維特征。
(2)對A進行標準化,得到矩陣B:
(2)

(3)
(4)
(3)計算協方差矩陣BTB,得到n*n的方陣。
(4)計算BTB的特征值λ和特征向量P,滿足
PTBTBP=Λ
(5)
(6)
其中,λ1,λ2,…,λn按從大到小排序,對應的特征向量P即為降維的映射矩陣。
(5)計算累計貢獻率:
(7)
一般取累計貢獻率達85%~95%時,對應的L即為主元個數。
文中采用m=536個咳嗽樣本,得到原始數據矩陣A為536*234的矩陣,按以上步驟計算得到特征值及其累計貢獻率,如圖2所示。

圖2 主元分析得到的特征值及其累計貢獻率
為了盡可能保留原有的特征信息,文中取累計貢獻率達到95%,得到的主元個數L=56。
因此可見,通常用于咳嗽識別的MFCC特征存在大量的冗余。
2.3 分組特征降維
主元分析得到映射矩陣和主元個數后,每個輸入信號的特征以每6幀為一組進行分組降維,然后組合各組降維后的特征作為總特征。
記第i組的原始特征參數為:
Fi=[ai1,ai2,…,ain]
(8)
其中,n=234。
(9)
其中:pij為主元分析映射矩陣P的第i行第j列元素;L=56。
降維后每組的特征維數等于主元個數,即56維。把降維后的各組特征參數按分幀順序組合在一起,得到最終特征為F=[F1,F2,…,FK]T。
其中,K為分組的組數。
分組特征降維流程如圖3所示。

圖3 咳嗽特征降維流程圖
3.1 識別模型
咳嗽識別采用含3個隱含狀態的自左向右HMM來實現,每個狀態為包含3個高斯元的混合模型。采用K-均值的方法初始化高斯混合模型參數,訓練過程采用Baum-Welch[10]算法,識別采用Viterbi算法[10],HMM訓練的迭代次數為40。
3.2 實驗樣本
HMM訓練樣本分別取150個咳嗽和150個非咳嗽信號。其中,非咳嗽樣本包含了各種類似咳嗽的信號,如清嗓聲、笑聲、說話聲、呼嚕聲和撞擊性聲音。咳嗽樣本包含了不同類型的咳嗽,如輕度咳嗽和重度咳嗽,有痰咳嗽和無痰咳嗽,無噪聲環境下的咳嗽和有噪聲環境下的咳嗽。
咳嗽識別時,測試樣本選取4組來自不同性別、年齡和呼吸感染情況的病人的錄音,每個錄音中的所有咳嗽和從該錄音中隨機截取的160個非咳嗽信號作為一組測試樣本,共4組測試樣本。每組測試樣本中人工分割得到的咳嗽信號分別為231個,78個,201個和126個。
3.3 實驗結果
降維前每組MFCC的維數為234維,降維后為56維,是原始特征數量的23.9%。降維前后算法的識別結果如表1所示。由于降維減少了特征冗余和過擬合現象,相當于擴大了HMM的訓練樣本集,從而改善了HMM的識別效果。降維后4組樣本的平均識別率為92.61%,相對降維前提高了2.34%。

表1 咳嗽識別率對比
在Windows XP系統下,采用Matlab 2012開發軟件,降維前后算法的運行時間如表2所示。降維后HMM的訓練時間由原來的770 s降至96 s,相對下降了87.53%;4組樣本的平均識別時間由降維前的27.32 s降至7.66 s,相對下降了71.96%。

表2 算法運行時間對比 s
可見,特征量的大幅度降維使得HMM所需的訓練時間和識別時間都明顯減小,這對于包含高達幾萬個聲音樣本的長時間咳嗽監測結果的分析來說,將極大提高其咳嗽識別的效率。
咳嗽識別的應用要求和分類特點使得咳嗽特征降維具有重要的意義。文中針對幀內特征降維效果不佳的問題,結合咳嗽的聲學特點,提出一種基于主元分析法的幀間特征降維方法。該方法采用分組降維的方式,把每組234維的特征降至56維,特征數量為原始數據的23.9%,并采用隱馬爾可夫模型為分類器實現了咳嗽的自動識別。實驗結果表明,與現有的直接采用傳統的MFCC作為特征的咳嗽識別方法,如文獻[11-14]相比,文中方法能在提高識別率的同時,大大減少分類模型訓練和識別的計算量,有效減少了算法的運行時間、提高了咳嗽識別效率,對于連續、長時間的咳嗽監測結果的自動分析具有實用價值。
文中的降維映射矩陣和主元個數是對咳嗽樣本進行主元分析得到的,因此咳嗽樣本的選取對降維效果有直接的影響,樣本的性質與待識別的咳嗽相近則降維后的識別效果較好。后續研究中將探討如何更加合理地選擇咳嗽樣本的類型、數量以及減少噪聲的影響。
[1] McGuiness K,Kelsall A,Lowe J,et al.Automated cough detection:a novel approach[J].American Journal of Respiratory and Critical Care Medicine,2007,175:381-381.
[2] Vizel E,Yigla M,Goryacheyv Y,et al.Validation of an ambulatory cough detection and counting application using voluntary cough under different conditions[J].Cough,2010,6(1):1-3.
[3] Barry S J,Dane A D,Morice A H,et al.The automatic recognition and counting of cough[J].Cough,2006,2(1):8-9.
[4] Matos S,Birring S S,Pavord I D,et al.An automated system for 24-h monitoring of cough frequency:the leicester cough monitor[J].IEEE Transactions on Biomedical Engineering,2007,54(8):1472-1479.
[5] Wilhelm F H,Toth W T,Sackner M A.The lifeshirt an advanced system for ambulatory measurement of respiratory and cardiac function[J].Behavior Modification,2003,27(5):671-691.
[6] Barton A,Gaydecki P,Holt K,et al.Data reduction for cough studies using distribution of audio frequency content[J].Cough,2012,8(1):8-12.
[7] Drugman T,Urbain J,Bauwens N,et al.Audio and contact microphones for cough detection[C]//Proc of 13th annual conference of the international speech communication association.Oregon:ISCA,2012.
[8] Mackiewicz A, Ratajczak W. Principal components analysis (PCA)[J].Computers and Geosciences,1993,19:303-342.
[9] Korpá? J, Sadloňová J,Vrabec M.能性Analysis of the cough sound:an overview[J].Pulmonary Pharmacology,1996,9(5):261-268.
[10] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[11] Hollier C A,Harmer A R,Maxwell L J,et al.Validation of respiratory inductive plethysmography (LifeShirt) in obesity hypoventilation syndrome[J].Respiratory Physiology & Neurobiology,2014,194(1):15-22.
[12] 石 銳,王 博,何慶華.基于高斯混合模型的咳嗽音檢測方法[J].計算機工程與應用,2011,47(32):151-154.
[13] Swarnkar V,Abeyratne U R,Amrulloh Y,et al.Neural network based algorithm for automatic identification of cough sounds[C]//Proc of 35th annual international conference of the IEEE on engineering in medicine and biology society.Osaka,Japan:IEEE,2013:1764-1767.
[14] Drugman T.Using mutual information in supervised temporal event detection:application to cough detection[J].Biomedical Signal Processing and Control,2014,10(1):50-57.
Cough Recognition Based on Inter-frame PCA Feature Dimension Reduction
ZHU Chun-mei1,2,LI Ping1
(1.Mechanical and Electrical Engineering College,Zhongshan Institute of University of Electronic Science and Technology,Zhongshan 528403,China;2.College of Automation Science and Engineering,South China University of Technology,Guangzhou 510641,China)
Cough is a common symptom of respiratory diseases and automatic cough monitoring has important significance in clinical diagnosis.As a software algorithm of portable devices used in computer-aided diagnosis,cough recognition has the characteristics of small sample,rough classification and requirement for high computing speed,which makes feature dimension reduction necessary.Cough recognition commonly adopts 39-dimention MFCC as feature which results to the poor performance of dimension reduction within frame.To dress this problem,acoustic characteristics of cough is analyzed.Based on the finding that feature of cough is mainly reflected in explosive phase,a method of inter-frame feature dimension reduction based on Principal Component Analysis (PCA) is proposed.This method reduces dimension in each group of six frames,and combines each group of reduced feature as the general feature,in which only 23.9% of the original features are adopted.Automatic recognitions of cough using hidden Markov model are carried out,and the results of various groups of samples show that this method can both improve the recognition rate and reduce the running time of the recognition algorithm to increase the recognition efficiency.
cough monitoring;cough recognition;PCA;feature dimension reduction
2015-06-30
2015-09-30
時間:2016-02-18
廣東省高等學校學科與專業建設專項資金(2013LYM0103);中山市科技計劃項目(2014A2FC383)
朱春媚(1981-),女,在職博士研究生,講師,研究方向為生物醫學信號處理、智能控制。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.080.html
TP391.42
A
1673-629X(2016)03-0040-04
10.3969/j.issn.1673-629X.2016.03.010