













摘 要:為了突破傳統咳嗽診斷方法的限制,得到更具有說服力和參考價值的客觀監測手段,以咳嗽作為呼吸道疾病監測的關鍵指標,設計并實現了一款基于壓電和麥克風雙傳感器數據融合的咳嗽監測儀。監測儀通過壓電和麥克風傳感器采集信號,經信號調理電路處理后由WiFi模塊傳輸至上位機進行預處理,之后提取MFCC+ΔMFCC+En的特征組合,使用DBO-BiLSTM對咳嗽音、清嗓子、強呼吸以及說話進行識別。由于雙傳感器融合了咳嗽音信號的振動和音頻信息,且振動信號和音頻信號可互補,因此雙傳感器對咳嗽音的識別率較單麥克風和單壓電傳感器分別提高了14.1個百分點和3.04個百分點,驗證了雙傳感器系統在咳嗽監測方面的有效性和可行性,為慢性咳嗽管理系統的發展提供了參考。
關鍵詞:咳嗽監測;壓電傳感器;麥克風傳感器;信號調理電路;雙傳感器數據融合;特征提取
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2025)04-00-06
0 引 言
咳嗽是多種呼吸道疾病的常見癥狀。據國內專科醫院調查,我國慢性咳嗽患病率為2.0%~28.3%,且多發于30~40歲年齡段人群[1]。國際上將一些與胸部影像學異常相關的疾病咳嗽也納入慢性咳嗽研究的范疇,包括慢性阻塞性肺病、典型支氣管哮喘、肺癌,以及間質性肺炎等[1-4]。目前,傳統的咳嗽疾病診斷主要依賴于臨床醫生的面診或者患者的主觀描述,但這些方法存在局限性。
為了突破傳統診斷方法的限制,需要更具有說服力和參考價值的客觀監測手段[5]。文獻[6]通過研究咳嗽的發聲機理,設計并開發了一款基于TMS320VC5509A DSP芯片的便攜式大容量咳嗽記錄儀。然而,由于在嘈雜環境中錄音,該系統存在被噪聲干擾的問題,會影響咳嗽音的準確識別,因此需要在抗噪性能方面進行改進。文獻[7]采用床墊式和腰帶式生理信號檢測系統,對腹部呼吸運動信號和體動進行了多方位的分析,以實現對咳嗽信號的準確識別。但是,該系統僅適用于臥床患者,對患者活動范圍有一定限制,需要在便攜性方面進行改進。
本文設計了一款基于壓電傳感器和麥克風傳感器的雙傳感器數據融合咳嗽監測儀,旨在通過開發一種便攜、適用于嘈雜環境的電子設備,長時間準確記錄患者的咳嗽信號。該咳嗽監測儀適用于患有呼吸道疾病的患者。通過該系統,患者可以在家中進行自我監測。同時,該咳嗽監測儀也有助于醫生通過遠程方式更全面地了解患者的身體狀況,從而更精準地制定治療方案。
1 系統方案
咳嗽監測系統的佩戴方式如圖1(a)所示;運作流程如圖1(b)所示;設計框架如圖1(c)所示,其由4個部分組成:電源模塊、信號調理模塊、單片機控制模塊以及MATLAB上位機信號處理模塊。在實驗中,被監測對象需將儀器佩戴于頸部,并將壓電傳感器貼附于下顎,在正常說話過程中,可能會觸發咳嗽事件以及其他生理信號事件(例如強呼吸或清嗓子等)。被測對象發出的聲音信號由雙傳感器采集,然后經信號調理電路進行放大、濾波以及模數轉換。轉換后的信號由單片機通過WiFi模塊發送給MATLAB上位機。上位機接收信號后進行預處理、特征提取,并對咳嗽信號進行識別。
2 系統硬件設計
信號調理電路模塊如圖2所示。該模塊主要分為2個部分:語音信號調理電路(處理麥克風采集的信號)和振動信號調理電路(處理壓電傳感器采集的信號)。語音信號調理電路通過電壓放大電路、帶通濾波電路和A/D采樣電路進行音頻信號的調理,以提取出清晰且準確的音頻信息。振動信號調理電路則包括電荷放大電路、高通濾波電路、電壓放大電路、低通濾波電路以及A/D采樣電路,用于處理由壓電傳感器轉換得到的微弱電信號。
具體來說,電壓放大電路將采集的語音信號電壓幅值放大了90倍,以確保信號強度滿足后續處理的要求。帶通濾波電路則專門保留了音頻信號中300~4 000 Hz頻段內的信息,而將其他頻段內的信號幅度縮小,從而去除不必要的噪聲干擾。高通濾波電路濾除了發聲過程中由于口型變化動作產生的低頻干擾信號,進一步提高了信號的質量。
經過兩級處理后,信號被發送至單片機控制模塊,并通過WiFi將采樣后的信號發送至上位機,以進行下一步處理。這一設計旨在確保對語音和振動信號進行有效調理,為后續處理提供清晰而準確的數據支持。
3 系統軟件設計
3.1 信號預處理
圖3展示了咳嗽的發聲機制。咳嗽感受器分布于呼吸器官黏膜,受刺激后產生信號并將信號轉為神經沖動。這些沖動通過傳入神經傳遞至中樞神經系統,經分析后發出指令,通過傳出神經刺激呼吸肌群引發咳嗽。這一過程是呼吸系統對外界刺激的生理性反應[8]。典型的咳嗽可分為吸氣、加壓和沖出3個階段[9]。圖4展示了2組咳嗽音采集信號:
圖4(a)為麥克風采集的咳嗽音音頻信號,含有明顯的吸氣、加壓和沖出3個階段,劃分如圖4(a)中虛線所示;圖4(b)為壓電傳感器采集的咳嗽音振動信號,也包含3個階段,劃分如圖4(b)中虛線所示。
圖5展示了信號預處理流程,其中振動信號和音頻信號的預處理流程相同,包括分幀、加窗、端點檢測。由于咳嗽音由聲門激勵脈沖通過聲道形成,且聲道和口腔肌肉運動較為緩慢,因此在10~30 ms范圍內,咳嗽音信號可被認為是“準穩態”信號。
設輸入的文件數據為y,采樣頻率為fs,每幀長為wlen。為了實現分幀后聲音信號的平滑過渡,在相鄰2幀之間需要插入1幀或幾幀信號,以確保相鄰2幀之間存在重疊部分,即inc,避免出現跳變。對于長度為N的聲音信號,按式(1)進行分幀:
(1)
將數據分為fn幀。為了使信號更加平滑,選用漢明窗對分幀后的信號進行平滑處理,繼而對信號進行端點檢測。
端點檢測用于確定咳嗽音信號的有效起始點和結束點。本系統采用能零比進行端點檢測,以短時能量和過零率作為判斷和檢測的參數。
圖6所示為能零比端點檢測的基本流程:首先,設置初始狀態,默認第一幀信號標識為靜音段。之后對于每一幀輸入信號計算其能零比。
由式(2)計算得到每一幀能量:
(2)
能量計算完成之后需要計算信號的過零率,如式(3)所示:
(3)
由能量和過零率的比值計算得到能零比,如式(4)所示:
(4)
如果當前幀的能零比小于最小閾值,則判定為靜音段;若介于最小閾值和最大閾值之間,則判定為靜音段到有效聲音段的過渡段;若大于最大閾值,則判定為有效聲音段,并標記為起始位置。對于處于過渡段的信號,其對下一幀信號的判別流程與處于靜音段信號的判別流程相同。對于處于有效聲音段的信號,其對下一幀信號的判別相對復雜一些。若能零比小于最小閾值并且有效聲音長度小于最小聲音長度要求(通常為7幀),則被認定為噪聲,劃分到靜音段;若能零比大于最小閾值但小于最大閾值,或者當前幀能零比小于最小閾值但靜音段持續時間不夠長(最大靜音段通常為4幀),則當前聲音尚未結束,仍處于有效聲音段中;若當前幀能零比小于最小閾值且靜音段幀數足夠長(大于最大靜音段幀數),則一段聲音信號結束,并標記終點。
端點檢測結果如圖7所示。圖7(a)表示只有咳嗽數據的端點檢測結果,其中矩形圈出的數據為有效數據。圖7(a)正確標識了2段有效數據;圖7(b)初步將部分語音信號和咳嗽信號做出區分,但存在一些偏差,后續通過識別算法更精確地定位咳嗽音信號。
3.2 特征提取
咳嗽音信號的特征向量主要分為2大類:時域特征和頻域特征。由于咳嗽的突發性和爆破性,其短時間內的幅值普遍較高[10],因此可以利用短時能量來有效區分咳嗽信號和非咳嗽信號。在頻域上,咳嗽音遍布整個頻帶,包含更豐富的有用信息。因此在頻域上提取梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficient, MFCC)特征向量作為咳嗽音在頻域的特征。
MFCC的分析基于人耳的聽覺機理[11]。每幀信號的MFCC為:
(5)
咳嗽音的MFCC可描繪其靜態特征,然而為了更好地反映其動態特性,需要添加MFCC的一階差分系數作為特征。計算見式(6):
(6)
式中:Δci為第i幀的差分系數。實驗表明:在原特征的基礎上加入一階差分MFCC能夠顯著提高咳嗽音的識別率。
3.3 DBO-BiLSTM算法模型的建立
3.3.1 BiLSTM模型的建立
咳嗽音識別是一項處理時間序列數據的任務,其中序列中的上下文信息對于準確辨識咳嗽音至關重要。雙向長短時記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM)通過其雙向結構,能夠同時兼顧信號的上下文信息。由于咳嗽音輸入長度呈動態變化,而BiLSTM對動態輸入長度的適應性更為靈活,使得模型能夠適應不同長度的咳嗽音片段。其次,BiLSTM在處理時間序列數據時能夠有效地建立時間依賴關系,有助于捕捉咳嗽音信號中的動態變化,從而提高對咳嗽音特征的建模效果。這些特性使BiLSTM成為咳嗽音識別任務中一種有效且有前景的模型。BiLSTM由前向LSTM和后向LSTM組成,相比只能編碼前向或后向的單向LSTM[12-13],能更好地捕捉前后信息。其輸出表達式為:
(7)
3.3.2 蜣螂優化算法模型的建立
蜣螂優化算法(Dung Beetle Optimization, DBO)是根據蜣螂的滾球、跳舞、繁殖、覓食和偷竊行為建立的數學模
型[14-15],其建模流程如圖8所示。光照強度對蜣螂滾球的運動方向會產生影響。當蜣螂在行進途中遭遇障礙物時,其通過跳舞的方式確定新的方向,繼而尋找最適合產卵的地點,為繁殖做好準備。此外,成年蜣螂會精心選擇最理想的覓食區域,但在覓食途中會面臨小偷蜣螂的潛在威脅。為防止其糞球被搶奪,蜣螂需要選擇最佳的競爭位置,以確保安全覓食。
DBO算法通過模擬蜣螂的一系列行為,不斷地更新蜣螂全局和局部最優位置以實現對BiLSTM隱藏層個數、學習率以及正則化參數的優化。
4 實 驗
4.1 實驗樣本
本實驗的樣本信號主要分為2類:咳嗽音信號和非咳嗽音信號。其可以進一步劃分為清嗓子、強呼吸和說話3類。實驗對象涵蓋了3名女生和4名男生,其中每位實驗對象的數據包括60條咳嗽數據、60條清嗓子數據、60條強呼吸數據以及100條說話數據,共計1 960條數據,見表1。實驗在安靜的環境中進行。
表1中,由于每條數據并非單音節數據,經過端點檢測后,能夠成功分割為4 293條數據,包含1 541條咳嗽數據、940條清嗓子數據、771條強呼吸數據和1 041條說話數據。
4.2 實驗結果
本實驗將數據集按照7∶3的比例劃分為訓練集和測試集,對比提取4類音頻數據的MFCC+ΔMFCC+En的特征組合和MFCC+En的特征組合,以觀察咳嗽音的動態特征和靜態特征對識別結果的影響。在識別算法方面,使用LSTM、BiLSTM、DBO-BiLSTM對數據集的不同特征組合進行訓練和識別,通過比較不同算法下的識別結果,選擇最優的識別算法。
不同特征組合的算法識別率比較如圖9所示。由于加入了咳嗽音的動態特征,其識別率與采用特征組合為MFCC+En的識別率相比提高了約6個百分點。考慮到咳嗽音識別為一種處理時間序列數據的任務,所以BiLSTM的識別率與單向LSTM的識別率相比提高了8.87個百分點。由于DBO對BiLSTM參數的動態優化,DBO-BiLSTM的識別率與BiLSTM的識別率相比提高了10.87個百分點。本系統采用的DBO-BiLSTM算法對特征組合為MFCC+ΔMFCC+En的識別率高達94.44%。
圖10展示了不同類型的傳感器對不同類別信號的識別結果。對于雙傳感器和壓電傳感器而言,咳嗽音信號的識別率優于非咳嗽音信號。此外,由于雙傳感器融合了振動和音頻信息,其對咳嗽音信號的識別率達到了97.23%,比麥克風傳感器高14.1個百分點,比壓電傳感器高3.04個百分點;其對非咳嗽信號的識別率也表現最佳,其對說話信號的識別結果僅次于咳嗽信號,識別率為94.40%,而對強呼吸信號識別結果欠佳,識別率僅有92.5%。這表明基于雙傳感器的慢性咳嗽監測系統具有更好的識別效果。
5 結 語
本研究采用壓電和麥克風傳感器雙重設備對咳嗽音信號進行采集,通過WiFi傳送至上位機進行信號預處理,之后提取咳嗽音信號MFCC+ΔMFCC+En的特征組合,使用DBO-BiLSTM算法對咳嗽音進行識別。實驗結果顯示,增加表示咳嗽音動態特征的ΔMFCC后識別率提高約6個百分點;使用DBO優化算法,通過動態更新全局和局部最優位置來優化BiLSTM的參數,使得其識別率較BiLSTM提高了10.87個百分點;且本系統使用的MFCC+ΔMFCC+En特征組合配合DBO-BiLSTM算法的識別率最高,為94.44%;另外,雙傳感器融合了咳嗽音的振動信號和音頻信號,且振動信號與音頻信號互補,使得雙傳感器對咳嗽音信號的識別率達到97.23%,比麥克風和壓電傳感器分別高14.1個百分點和3.04個百分點。這表明雙傳感器在慢性咳嗽監測領域具有更敏銳和更穩定的識別效果。
本研究的實驗結果將為雙傳感器系統在咳嗽監測中的應用提供重要的參考和指導,對該領域的進一步研究和發展具有借鑒意義。
注:本文通訊作者為陳向東。
參考文獻
[1]中華醫學會呼吸病學分會哮喘學組,賴克方.咳嗽的診斷與治療指南(2021)[J].中華結核和呼吸雜志,2022(1):13-46.
[2] PARKER C M, VODUC N, AARON S D, et al. Physiological changes during symptom recovery from moderate exacerbations of COPD [J]. European respiratory journal, 2005, 26(3): 420-428.
[3] OLIVEIRA A, MARQUES A. Understanding symptoms variability in outpatients with AECOPD [J]. Pulmonology, 2018, 24(6): 357-360.
[4] CROOKS M G, DEN BRINKER A, HAYMAN Y, et al. Continuous cough monitoring using ambient sound recording during convalescence from a COPD exacerbation [J]. Lung, 2017, 195: 289-294.
[5] DEN BRINKER A C, COMAN M, OUWELTJES O, et al. Performance requirements for cough classifiers in real-world applications [C]// 2020 28th European Signal Processing Conference (EUSIPCO). Amsterdam, Netherlands: IEEE, 2021: 96-100.
[6]黃健鵬.基于DSP的咳嗽記錄儀的設計與實現[D].廣州:華南理工大學,2013.
[7]裴曉娟.利用床墊式和腰帶式生理信號監測系統進行咳嗽的監測與識別[D].濟南:山東大學,2014.
[8]章臻.基于咳嗽音的呼吸功能分類算法及軟件開發[D].廣州:華南理工大學,2021.
[9] KORPá? J, SADLO?OVá J, VRABEC M. Analysis of the cough sound: an overview [J]. Pulmonary pharmacology, 1996, 9(5/6): 261-268.
[10]俞一奇.基于咳嗽音的兒童肺炎院外診斷識別研究[D].杭州:中國計量大學,2018.
[11] TIWARI V. MFCC and its applications in speaker recognition [J]. International journal on emerging technologies, 2010, 1(1): 19-22.
[12] SUNDERMEYER M, SCHLüTER R, NEY H. LSTM neural networks for language modeling [C]// Conference of the International Speech Communication Association. Portland, Oregon, USA: ISCA, 2012.
[13] SIAMI-NAMINI S, TAVAKOLI N, NAMIN A S. The performance of LSTM and BiLSTM in forecasting time series [C]// 2019 IEEE International Conference on Big Data (Big Data). Los Angeles, CA, USA: IEEE, 2019: 3285-3292.
[14] XUE J, SHEN B. Dung beetle optimizer: A new meta-heuristic algorithm for global optimization [J]. The journal of supercomputing, 2023, 79(7): 7305-7336.
[15]潘勁成,李少波,周鵬,等.改進正弦算法引導的蜣螂優化算
法[J].計算機工程與應用,2023,59(22):92-110.