侯麗敏,張偉濤,施 丹,劉煥成
(上海大學通信與信息工程學院, 上海200444)
睡眠呼吸暫停低通氣綜合征(sleep apnea hypopnea syndrome, SAHS)是一種睡眠呼吸疾病. 在成年人中, 大約有2%的女性患者和4%的男性患者患有SAHS[1-2]. 事實上有高達80%的中度或重度SAHS 患者仍未就診[3]. 隨著大數據和互聯網的發展, 居家醫療成為可能, 發展便攜式SAHS 診斷儀變得越來越迫切[4].
近十年來, 利用鼾聲信號的聲學特征分析睡眠呼吸疾病的研究受到醫療界和信號處理學者的聯合關注[5]. 鼾聲是SAHS 最主要的癥狀之一, 且易于采集[6], 鼾聲信號中豐富的聲學特征與病理是有關聯的[7-9]. 最常用的聲學參數來自語音信號分析中的特征, 如基頻和共振峰等[10-11]. Dafna等[12]提取時頻特征對整夜鼾聲的錄音自動檢測鼾聲和非鼾聲.Karunajeewa等[13]計算鼾聲的基頻、子帶能量比和聲道響應等特征, 用來劃分SAHS 患者和簡單打鼾者. Ben-Israel等[14]考慮鼾聲及鼾聲間的動態特征, 計算了鼾聲間的動態方差、鼾聲的基頻密度等參數, 用多元回歸法估計整夜鼾聲的睡眠呼吸暫停低通氣指數(apnea hypopnea index, AHI). Herath等[15]提取了鼾聲的美頻率倒譜系數(Mel-frequency cepstral coefficients,MFCC), 用統計模型建模, 分別以AHI 值15 和30 為界線將患者分成3 類. 文獻[16]分析了簡單鼾聲與SAHS 鼾聲的時頻特性, 對打鼾者整夜鼾聲的錄音進行了AHI 值的估計.
盡管有些研究者提取了鼾聲信號的MFCC 向量, 但只使用了MFCC 中部分分量. 本工作提出用MFCC 完整向量對整夜錄音的鼾聲分類, 并對SAHS 嚴重程度進行估計. 提取鼾聲的13 維MFCC 特征, 并對不同類型的鼾聲建立高斯混合模型; 然后用所得高斯混合模型對整夜鼾聲進行分類, 計算打鼾者AHI 值, 以對打鼾者的嚴重程度進行預測. 與多導睡眠儀(polysomnography, PSG)診斷結果比較, 本方法對打鼾者SAHS 嚴重程度估計的正確率為80.00%, 估計所得的AHI 值與PSG 所得的AHI 值有較好的相關性和一致性, 區分SAHS 患者與單純打鼾者的敏感度(特異度)為94.44%(100.00%), 說明MFCC 參數是診斷SAHS 及其嚴重程度較為有效的聲學特征.
本工作中的實驗數據采集于上海交通大學附屬第六人民醫院耳鼻喉科睡眠監測病房. 錄音采用非接觸式麥克風Sony EM-C10, 懸掛在床頭, 距離測試者的口鼻大約30 cm. 錄音聲卡為Creative Audigy 4 Value, 臺式電腦為Dell Inspiration 570, 錄音軟件為Adobe Audition 3.0, 采樣頻率為8 kHz, 16 bit 量化, 保存為WAV 音頻文件. 錄制患者鼾聲信號的同時也進行PSG 監測(PSG 型號為偉康Alice 5). 錄音持續時間為晚上10 時30 分至第二天早上5 時30 分, 共7 h. 測試實驗中去掉開始和結束前的半小時, 采用其中6 h 的錄音.
根據臨床上PSG 整夜睡眠監測記錄和呼吸事件的標定, 由呼吸暫停或低通氣導致的鼾聲記為SAHS 鼾聲, 其余的鼾聲為簡單鼾聲(simple snore, SIMP). 患者睡眠時間內平均每小時發生呼吸暫停低通氣事件的次數記為診斷的睡眠呼吸暫停低通氣指數(AHI)值(單位為事件/h). 根據AHI 值劃分3 種不同嚴重程度的級別和無病共四類: AHI>30 事件/h 為重度SAHS(severe-SAHS, S); 15 事件/h<AHI≤30 事件/h 為中度SAHS(moderate-SAHS, M);5 事件/h≤AHI≤15 事件/h 為輕度SAHS(mild-SAHS, L); AHI<5 事件/h 為單純打鼾型(non-SAHS, N)[17].
本實驗共選取93 名打鼾者的錄音作為訓練組數據, 訓練組中不同嚴重程度打鼾者的年齡、AHIPSG(PSG 檢測的AHI 值統計數據)、打鼾者人數等如表1 所示. 訓練組包含單純打鼾者10 人, 輕度SAHS 患者23 人, 中度SAHS 患者24 人, 重度SAHS 患者36 人. 表1 最后兩行是從對應每類打鼾者的整夜鼾聲錄音中人工切割出的簡單鼾聲(SIMP)片段和SAHS 鼾聲片段. 這里的SIMP 是指不伴隨呼吸暫停或低通氣出現的鼾聲; 而SAHS 鼾聲則前后出現呼吸暫停或低通氣事件, 且同時出現血氧飽和度下降. 每位患者整夜鼾聲中均包含這兩種鼾聲.

表1 訓練組打鼾者數據Table 1 Data of snores in training group
人類聽覺對聲音頻率范圍的感知在1 000 Hz 以下近似遵循線性關系, 而在1 000 Hz 以上不再遵循線性關系, 而是遵循在對數頻率坐標上的近似線性關系[18]. MFCC 充分考慮了人耳的聽覺特性, 將線性頻率轉化為非線性Mel 尺度, 在倒頻域形成了MFCC 向量. 線性頻率(Hz)和音調(Mel)的關系如下:

式中, TMel代表音調的Mel 度量, fHz代表線性頻率以Hz 度量.
鼾聲的產生機理與語音類似[19-20]. 鼾聲是由于氣流撞擊上氣道阻塞部位導致阻塞部位振動, 通過上氣道共鳴系統后產生的聲音, 與聲帶激勵源振動和聲道響應后產生語音的過程有相似之處. MFCC 是在語音相關識別中應用最成功的特征描述之一[21-22], 因此本工作提取鼾聲信號的MFCC 特征, 對不同類型的鼾聲進行分析, 用來篩查SAHS 嚴重程度. 鼾聲信號的MFCC 提取流程如圖1 所示, 圖中FFT 為快遞傅里葉變換(fast Fourier transform),DCT 為離散余弦變換(discrete cosine transform), Mk(f)代表第k 個Mel 濾波器頻響.

圖1 MFCC 提取流程圖Fig.1 Flow chart of computing MFCC
在MFCC 參數提取過程中, 首先對鼾聲信號進行預處理, 包括分幀和加窗. 本工作中幀長為32 ms, 幀移為16 ms, 加哈明窗, 得到短時幀信號x(n), 然后對x(n)進行FFT, 得到頻域信號X(f), 計算能量譜|X(f)|2. 圖2 給出了24 個Mel 濾波器組在線性頻率刻度上的頻響分布.Mel 刻度濾波器頻響加權能量譜的和得到Yk,

式中, K 表示Mel 濾波器組的數量, fkl和fkh分別表示第k 個Mel 濾波器對應的最低頻率和最高頻率, Mk(f)代表第k 個Mel 濾波器頻響. 對Yk作對數運算, 最后作DCT, 得到MFCC參數,

式中, I 表示MFCC 的維數.

圖2 Mel 濾波器組分布Fig.2 Distribution of Mel filters
本工作采用高斯混合模型(Gaussian mixture model, GMM)[23-24]對不同的鼾聲建模.基于上述四類AHI 值, 再對每類中的SIMP 和SAHS 鼾聲各自建模, 得到8 種類型的鼾聲模型, 即N-SIMP, N-SAHS, L-SIMP, L-SAHS, M-SIMP, M-SAHS, S-SIMP 和S-SAHS,即4 個SIMP 和4 個SAHS 鼾聲的GMM.
鼾聲檢測的流程如圖3 所示, 圖中的訓練階段由1.1 節訓練組中的鼾聲提取MFCC 特征后, 得到不同嚴重程度的8 種鼾聲各自的GMM. 測試階段則用其他患者整夜鼾聲的錄音信號進行測試. 對整夜錄音的鼾聲信號作端點檢測, 檢出鼾聲事件; 用鼾聲特有的節律作進一步約束, 得到候選的呼吸事件[25]; 提取這些候選呼吸事件中鼾聲的MFCC 向量, 計算與8 個GMM 匹配的概率; 根據貝葉斯的最大后驗準則, 最大后驗概率獲得者就是這個鼾聲的歸屬類別.
交叉驗證(cross-validation)主要用于對建模的預報[26-27]. K 折交叉驗證是指將初始采樣分割成K 個子樣本, 一個單獨的子樣本被保留作為驗證模型的數據, 其他K-1 個樣本用來訓練. 交叉驗證重復K 次, 每個子樣本驗證一次, 平均K 次的結果或者使用其他結合方式, 最終得到一個單一估測. 二折交叉驗證是常用的方法之一. 對訓練組數據對半劃分進行二折交叉驗證. MFCC 作為特征矢量, 以不同混合個數分別建立GMM, 通過對比二折交叉驗證結果, 確定最優的混合個數為12 個. 圖4 給出了混合個數為12 時的二折交叉驗證結果.

圖3 GMM 訓練建模與測試流程圖Fig.3 Flow chart of training and testing GMM

圖4 二折交叉驗證檢驗結果Fig.4 Results of 2-fold cross validation method
圖4 表示的是8 類鼾聲模型二折交叉驗證的混淆矩陣, 對角線加粗的數據表示的是各類鼾聲判定為自身類型的正確率. 從圖中可以看出, 判定為自身的概率大于判為其他的概率, 其中S-SAHS 類型鼾聲的正確率較高, 說明該模型對鼾聲的分類是較為有效的, 可用于整夜鼾聲的測試.
與訓練的93 人不重疊, 測試組120 人. 測試數據中每種類型的人數均為30 人. 測試組的年齡和PSG 診斷的AHI 值以及性別如表2 所示.

表2 測試數據和實驗結果Table 2 Testing data and experimental results
用120 人整晚6 h 的錄音, 按圖2 給出的測試階段流程, 自動檢測出鼾聲片段, 計算其MFCC 特征, 用GMM 按最大似然概率匹配出所屬類型; 凡是候選呼吸事件中的鼾聲有判為SAHS 鼾聲的, 就確定為呼吸事件. 按臨床定義, AHI 值為平均每小時呼吸事件的個數, 先計算出AHI 值, 再根據SAHS 鼾聲統計出呼吸事件的次數, 估算出每人的AHIMFCC值,

本方法獲得的AHIMFCC值結果如表3 所示. 與PSG 診斷結果AHIPSG對比, 單純打鼾者30 人全部正確; 輕度SAHS 患者中錯了12 人, 其中5 人被判成了單純打鼾者, 還有7 人被判成了中度SAHS 患者; 中度SAHS 患者中錯了11 人, 其中10 人被判成了輕度SAHS 患者, 還有1 人被判成了重度SAHS 患者; 重度SAHS 患者錯了1 人, 被判成了中度SAHS 患者. 打鼾者嚴重程度診斷的正確率為80.00%.

表3 不同SAHS 嚴重程度類型的正確率Table 3 Accuracy of subjects with different SAHS severities
(1) 本方法計算的AHIMFCC與臨床AHIPSG值的相關性.
AHIMFCC與AHIPSG值對比如圖5 所示, 圖(a)中黑色星號代表PSG 診斷結果, 紫紅圓號代表本方法, 紅色虛線表示不同嚴重程度的分界, Pearson 相關系數r = 0.956 3(P <0.001).AHIMFCC與AHIPSG的線性相關性對比如圖(b)所示, 中心綠色實線代表同一性, 綠色虛線指出95%置信區間. 圖(c)是Bland-Altman 分析散點圖, SD 代表標準差(standard deviation),AHIPSG與AHIMFCC差的平均值為1.02 事件/h, 即黃色實線, 黃色虛線表示方差的1.96 倍, 方差為7.45.
(2) 本方法計算的AHIMFCC與臨床AHIPSG值診斷一致性.
診斷一致性的定義為若AHIPSG和AHIMFCC均大于40 事件/h, 為一致; 若AHIPSG小于40 事件/h, 二者的差即AHIPSG-AHIMFCC的絕對值小于10 事件/h, 為一致;若二者的差大于10 事件/h, 為欠估; 二者的差小于-10 事件/h, 為過估[12]. 本方法與黃金標準PSG 一致性對比的結果為83.33%(106/120)落在一致性界限內, 欠估率為6.7%, 過估率為5.0%.

圖5 AHIMFCC 與AHIPSG 對比分析Fig.5 Comparisons and analysis of AHIMFCC and AHIPSG
Cohen’s kappa 系數也是度量兩個測量結果一致程度的統計量. AHI 值按照四類劃分(見表3), 其Cohen’s kappa 系數為0.733 3, 說明與臨床黃金標準具有良好的一致性.
(3) 以不同AHI 值為分界的敏感度和特異度.
圖6(圖中TP(true positive rate)為正樣本被判為正樣本的比例,FP(false positive rate)為負樣本被判為正樣本的比例)表示的是以AHI≥5, AHI≥15 以及AHI≥30 為分界條件下診斷結果AHI 值的接收者操作特征(receiver operating characteristic, ROC)曲線, 曲線下面積(area under curve, AUC)分別為0.992 96, 0.955 00 和0.988 78. 區分SAHS 患者與單純打鼾者的敏感度(特異度)為94.44%(100.00%).
(4) 與其他方法的對比結果.
本方法與其他方法結果相近. Ben-Israel等[14]計算了Mel 倒譜穩定度作為鼾聲的參數特征之一, 并結合其他參數, 利用貝葉斯分類器將打鼾者分成非SAHS 和SAHS 患者,當AHI>10 時的敏感度(特異度)為87%(80%), 當AHI>20 時的敏感度(特異度)為89%(78%).并利用多元回歸法估計打鼾者AHI 值, 與PSG 診斷得到的AHI 值對比的一致性達到83%.Herath 等[15]提取鼾聲片段的MFCC, 并用HMM 建模, 正確率為86%. 本方法與其他方法的錄音數據不同, 其他研究對象大多是西方人種, 因此不能完全根據正確率說明方法的優劣. 但本方法和文獻[14-15]結果一致說明了MFCC 能夠作為SAHS 輔助診斷的有效特征.

圖6 AHI 值為不同閾值下ROC 曲線Fig.6 ROC curves of different AHI thresholds
(5) 從表3 各類型的正確率可以看出, MFCC 特征對單純打鼾者和重度SAHS 患者診斷的正確率較高, 但對輕度SAHS 患者和中度SAHS 患者診斷的正確率較低, 輕度SAHS 患者和中度SAHS 患者互判的情況較多, 這可能是由于這兩類患者之間的鼾聲在頻譜特征上存在較大的相似性, 因此MFCC 特征不能很好地描述這兩類患者鼾聲之間的差異. 本工作數據量大, 實驗分類細, 說明經典MFCC 特征描述鼾聲信號仍有不足之處. 由于上氣道阻塞部分的阻塞方式不同導致鼾聲信號攜帶的類噪聲分量比語音多, 而MFCC 對聲道形狀的變化較為敏感, 聲源信息平均化了, 這樣可能減弱了輕度與中度之間的差異性. 因此, 還需探尋更加精細的特征以適合或更加突出鼾聲信號特點而不是語音信號的描述. 在分類器層面也可考慮應用深度學習進行聚類和分類.
MFCC 是音頻信號分析中常用的參數之一, 本工作主要從MFCC 對SIMP 和SAHS 鼾聲的分類角度進行研究, 提出了利用鼾聲的MFCC 特征對打鼾者的AHI 值進行估計, 以對打鼾者SAHS 嚴重程度進行預測的方法. 實驗結果表明, 本方法對打鼾者SAHS 嚴重程度估計的正確率為80.00%, 估計所得的AHI 值與PSG 診斷所得的AHI 值有較好的相關性和一致性, 區分SAHS 患者與單純打鼾者的敏感度(特異度)為94.44%(100.00%). 本實驗所用的整夜錄音是經過人工挑選的, 選取錄音質量較好的, 以保證鼾聲的有聲片段能夠被有效檢測出. 本工作的研究結果對醫療輔助診斷和居家醫療的發展有積極的促進作用.
致謝感謝上海交通大學附屬上海第六人民醫院耳鼻喉科的支持.