周 強,張曉俊,顧濟華,趙鶴鳴,朱俊杰,陶 智*
(1.蘇州大學物理科學與技術學院,江蘇蘇州215006;2.蘇州大學電子信息學院,江蘇蘇州215006)
隨著人們生活改善和節奏加速,語言交流活動日益頻繁,嗓音疾病的發生率呈明顯上升趨勢。嗓音疾病是發聲言語器官的功能性或器質性損害而導致的發聲言語功能障礙,其中由于聲帶疾病導致的病理嗓音占有很大的比例。早期對于病理嗓音的檢測主要是醫學專家進行主觀的判別,其誤判率較大。電子儀器診查方法的缺點是,肉眼很難捕捉發音瞬間,且會給病人帶來不便,導致不準確的診斷結果[1]。因此采用嗓音聲學評估方法與信號處理手段去識別病態嗓音的研究已逐漸成為一個多學科交叉領域。
由于嗓音的聲學參數與聲帶振動的生物力學密切相關,計算機嗓音測試可作為研究聲帶振動的理想工具。目前使用較多的客觀參數可分為3大類,包括基頻衍生類:基頻微擾百分比(Jitter)、相對平均擾動(RAP)和基頻擾動商(PPQ)等;強度衍生類:振幅微擾(Shim)、振幅擾動商(APQ)及峰值幅度變化(VAm)等;含噪成分衍生類:諧噪比(HNR)、嗓音擾動指數(VTI)及軟發音指數(SPI)等。由黃昭鳴博士、萬萍[2]指出,上述參數與嗓音的音質主觀評估里的多個指標均有很強的相關性,是能有效反應嗓音音質的客觀聲學參數。上述參數被用來進行病理嗓音的診斷[3-5]。
但同類型參數之間會存在著相關性,如果用這些參數來表征聲帶類疾病嗓音的特性,必然存在著很大的冗余。而且各參數在描述不同類別嗓音疾病時會有不同的效果。本文對參數之間的相關性進行了研究,并對正常嗓音與聲帶疾病嗓音、聲帶疾病嗓音與非聲帶疾病嗓音各參數的差異度進行了研究,并提出了基于差異度的多參數聲帶疾病嗓音識別方法。并以TMS320VC5502為核心實現聲帶疾病嗓音識別系統。
基頻表征著聲帶每秒振動的次數,它與聲帶的本身的生理狀態有關,當聲帶發聲病變會在基頻上有所反應。基頻類參數主要反映聲帶振動的周期性間頻率的差異,可以衡量基頻總體穩定程度。Jitter為基頻變化百分比,其定義為:

為了滿足不同時長觀察基頻擾動的需要,微擾函數階數定義為平滑因子fsmo,與此相關的參數為sPPQ(Smoothed Pitch Period Perfarbetion),表達式為:

其中T(i)表示為i幀的基音周期,當微擾階數為3時即為RAP,階數為5時即為PPQ。
嗓音強度是指單位時間內,通過垂直于聲波傳播方向單位面積的聲學能量。嗓音強度受聲門面積大小、聲帶張力程度及聲門下壓的影響,反映聲帶振動的強度、聲門開放程度和聲門面積大小。sAPQ描述短時嗓音信號峰峰值的振幅變化,定義為:

其中A(i)為i幀的峰峰值,當平滑因子fsmo(Smoothed Factor)為1時等同為Shim,fsmo為11時等同為APQ。同時還有表征峰峰值標準差的VAM。
NHR計算的是頻率帶寬1 500 Hz~4 500 Hz中非諧波成分能量與70 Hz~4 500 Hz中諧波成分能量的比值,表征嗓音信號的全局噪聲程度;VTI計算的是頻率帶寬2 800 Hz~5 800 Hz中非諧波成分能量與70 Hz~4 500 Hz中諧波成分能量的比值,即信號能量中、高頻噪聲信號的水平,它與聲帶的不完全振動相關;SPI為頻率帶寬70 Hz~1 600 Hz中諧波成分能量與1 600 Hz~4 500 Hz中諧波成分能量的比值[6]。
同類別參數之間會存在著相關性,采用相關系數表示參數之間相關性程度:

其中E(x)和D(x)為求期望與方差。ρ范圍為0~1,當為0.6~1認為兩變量有強相關性,當為0.3~0.6時認為有弱相關性,0~0.3認為不存在相關性。相關性越大表明兩參數在表征同一類嗓音特性時存在越多的冗余;相反則表明參數之間具有越好的互補性。
特征參數可以表現兩類嗓音的差異性,同一參數表征不同類型嗓音的特性時會有不同的效果,所以不同兩種嗓音的差異性會不同。定義兩種參數差異度為:

其中ˉ、S2(x)和n(x)分別對應x樣本均值、方差和樣本容量ˉ、S2(y)和n(y)分別對應y樣本的均值方差和樣本容量。可以看出Df越大表明差異性越顯著。
由于不同類型的參數從不同的角度表現了聲帶振動的情況,所以將各類型參數組合起來表征信號的特性。具體算法如下:
(1)求取參數對兩類嗓音信號的差異度,然后在此類參數中選出最大所對應的作為主參數;
(2)根據參數間的相關系數,去除與主參數強相關的參數;
(3)根據區分度Df采用ω=[exp(-1/Df)]/Z來對每種參數進行權重分配;
(4)同一類型參數加權求和得到一個新參數,將所有類型的新參數組合為最終特征向量。

圖1 系統框圖
系統由MIC嗓音輸入模塊、音頻模塊和處理模塊組成,系統框圖如圖1所示。嗓音信號由麥克風輸入至TLV320AIC23對嗓音信號進行AD轉換和濾波后,再通過DSP芯片TMS320VC5502對信號進行預處理、特征參數提取、建模及識別構成。
DSP芯片TMS320VC5502最高可在300 MHz主頻下工作,具有16 kbyte的緩存和17×17 bit雙乘法器,并帶有32 k×16 bit的RAM和16 k×16 bit的ROM。其片上外設主要包括時鐘發生器、DMA控制器、外部存儲器接口(EMIF)、主機接口(HPI)、I2C總線、通用輸入輸出GPIO口、3個多通道緩沖串行端口(McBSP)、兩個64 bit通用定時器(GPT)和一個可編程看門狗定時器、通用異步收發器(UART),外部尋址空間達8 Mbyte,可擴展大容量SDRAM。音頻編解碼芯片TLV320AIC23是可編程芯片,內置耳機輸出放大器,內部有11個16 bit寄存器,編程設置這些寄存器可得到所需的采樣頻率、輸入輸出增益和傳輸數據格式等。AIC23通過外圍器件對其內部寄存器進行編程配置,其配置接口支持SPI總線和I2C總線接口數據傳輸格式支持右判斷模式、左判斷模式、I2S模式和DSP模式,其中DSP模式專門針對TI公司的DSP設計。
系統中所有對DSP的控制和調試都是在CCS3.3境下進行的,利用CCS3.3強大的片級支持庫(CSL)與API接口,可以輕松地對DSP上的寄存器進行查詢和賦值。系統軟件設計包括DSP系統運行主程序和信號的數據處理、采樣、傳輸控制、訓練、識別等部分。采樣、傳輸控制等子程序用C語言完成,信號的數據處理利用Matlab7.0軟件來完成。系統軟件流程如圖2所示。

圖2 軟件流程圖
本實驗采用MEEI數據庫[7]中的嗓音,該數據庫包含了1384例病理嗓音/ɑ/,給出了患者的年齡、性別、是否抽煙等信息,并給出了專家診斷結果。其具體統計數據見表1。

表1 嗓音信號統計
受試者工作特征曲線ROC(Receiver Operating Characteristic Curves)被用來形象地描述識別的效果。ROC曲線[8]的橫坐標是假陽性率,縱坐標為真陽性率。而且ROC曲線下的面積AUC(the Area Under the ROC Curve)也被用來表征識別的效果的優劣。Kappa也被用來對識別效果進行評價[9],它用來表征識別效果和隨機識別的差別,越接近1表明識別結果越好,其定義為:
其中P0為觀測一致性,Pc為期望一致性。
對3類特征參數之間的相關性進行了統計,統計情況如表2所示。從表中可以看出基頻衍生類參數之間具有較強的相關性,強度衍生類中VAM參數與其他兩參數存在弱相關性,而含噪成分衍生類參數間相關性較弱。

表2 參數間相關系數統計
分別進行了聲帶疾病嗓音與正常嗓音(a)和聲帶疾病嗓音與非聲帶疾病嗓音(b)的識別實驗,采用傳統的9個參數與本文方法進行對比,分類器為RBFNetwork。識別結果如表3所示。

表3 識別實驗結果
從表3得到:本文方法的識別率比原來9個參數都有提高。聲帶疾病嗓音和正常嗓音的識別實驗中,識別率提高了4.35%;聲帶疾病嗓音和非聲帶疾病嗓音的識別試驗中,識別率提高了9.27%。
圖3給出了聲帶疾病嗓音與正常嗓音和聲帶疾病嗓音與非聲帶疾病嗓音的識別ROC曲線。ROC曲線也表明本文算法在識別中的優越性。

圖3 識別ROC曲線
聲學參數之間存在著相關性,且在描述不同類型的嗓音時有不同的差異性。針對上述問題,提出了一種基于差異度的多參數聲帶疾病嗓音識別算法,并以DSP芯片TMS320VC5502為核心實現識別系統。提出的算法比傳統的9個參數在聲帶疾病嗓音和正常嗓音的識別實驗中有4.35%的識別率提升,在聲帶疾病嗓音和非聲帶疾病嗓音的識別實驗中有9.27%的識別率提升。本文只是研究了傳統的聲學參數,未來將研究其他參數;識別系統缺少顯示部分,系統完善也是未來的工作內容。
[1]Gavidia-Ceballos L,Hansen J,Kaiser J.Vocal Fold Pathology Assessment Using AM Autocorrelation Analysis of the Teager Energy Operator[C]//ICSLP,1996:757-760.
[2]黃昭鳴,萬萍.嗓音聲學參數與嗓音音質的相關研究等的研究[J].臨床耳鼻喉頭頸外科雜志,2008,22(6):251-254.
[3]Parsa V,Jamieson D.Identification of Pathological Voices Using Glottal Noise Measures[J].Speech,Lang,Hear,Res,2000,43(2):469-485.
[4]Uloza V,Verikas A,Bacauskiene M.Categorizing Normal and Pathological Voices:Automated and Perceptual Categorization[J].Journal of Voice,2011,25(6):700-708
[5]Boyanov B,Hadjitodorov S.Acoustic Analysis of Pathological Voices,A Voice Analysis.Systerm for the Screening of Laryngeal Diseases[J].IEEE Eng Med Biol Mag,1997,16(4):74-82.
[6]Multi-Dimensional Voice Program Help files[R].http://www.kayelemetrics.com.htm,2012.
[7]Massachusetts Eye,Ear Infirmary.Voice Disorders Database,Version 1.03[R].Kay Elemetrics Corp,Lincoln Park,NJ,1994.
[8]Fawcett T.ROC Graphs:Notes and Practical Considerations for Researches[R].HP Laboratories,Palo Alto,CA,2004.
[9]Siegel S,Castellan N J.Non-Parametric Statistics for the Behavioral Sciences[M].2nd ed.McGraw-Hill,New York,N.Y,1988.