米月琴 王新懷 徐茵



摘要:提出了一種基于梅爾頻率倒譜系數(Mel frequency cepstrum coefficients,MFCC)的聲音檢測裝置及 算法實現。通過采集聲音的波形,結合特征提取和分類算法,實現對不同聲音的智能判斷。從嵌入式系統 硬件設計、聲音波形特征提取、聲音分類算法等方面進行了詳細的研究,并對實驗結果進行了分析。結果 表明,該設計方案在聲音檢測方面具有較高的準確性和可行性。
關鍵詞:MFCC;特征提取;嵌入式系統;檢測裝置
中圖分類號:TN912.3;TP277文獻標識碼:A
0 引言
近年來,信號處理技術和語音識別技術都取得 了飛速的發展。研究人員越來越多地采用信號處理 和語音識別方法來分析聲音。數字信號處理技術的 進步,使得研究人員能夠借助計算機高效分析聲 音,時域分析、頻域分析和頻譜分析等信號處理手 段為研究人員提供了豐富的工具。在語音識別領 域,信號經過預處理后,再經過模式識別技術進行 分類判斷,這些分類判斷后的信號對于聲音的分析 至關重要。
嬰兒啼哭聲中包含豐富的信息,如饑餓、疼 痛、不適或疾病等。基于嵌入式系統的嬰兒啼哭智 能檢測設計可以實時分析和識別啼哭聲,及時發現 嬰兒的健康問題,為醫護人員提供重要參考,從而 采取相應的護理和治療措施。嬰兒啼哭聲識別可以 作為一種輔助工具,幫助父母或照顧者更好地了解 嬰兒的需求 [1]。嬰兒啼哭檢測裝置通過分析啼哭聲 的特征和模式,可以快速判斷嬰兒的狀態,是否饑 餓、是否需要換尿布、是否感到不適等 [2]。
基于嵌入式系統的智能嬰兒啼哭檢測設計是一 項前沿研究,旨在利用先進的硬件和軟件技術,實 現對嬰兒啼哭聲的實時分析和識別。本文通過探討 該設計方案的主要內容,包括系統設計、軟件設 計、算法設計和測試結果,以期為智能嬰兒護理和 健康監測領域提供有益的參考和指導。
1 系統設計
本裝置基于嵌入式系統,通過各種傳感器來檢 測嬰兒是否啼哭、是否發燒、是否尿床,從而及時 安撫嬰兒。系統采用了高性能的嵌入式處理器作為主控單元,用于控制和管理整個系統的運行 [3]。聲 音傳感器負責實時采集嬰兒的啼哭聲信號,并將 其轉化為數字信號用于后續處理。濕度傳感器可 檢測嬰兒尿床情況,及時發現濕度變化并進行記 錄。溫度傳感器用于監測嬰兒的體溫,確保嬰兒的 身體狀態得到及時關注。這些傳感器與嵌入式處 理器通過適當的接口和通信方式進行連接和數據傳 輸。系統由硬件和軟件兩個部分組成,通過精心設 計的算法和可靠的報警機制,使得系統能夠高效 工作并提供準確的嬰兒護理服務。系統組成如圖 1 所示。
2 軟件設計
系統采用了梅爾頻率倒譜系數(Mel frequency cepstrum coefficients,MFCC)算法和軟件設計,實 現對傳感器數據的處理、分析和報警。通過聲音信 號處理算法,系統能夠提取嬰兒啼哭聲的特征和模 式,以判斷嬰兒的情緒狀態和需求。濕度數據和溫 度數據經過處理和分析,用于檢測尿床和體溫異常 情況。基于這些數據和算法,系統能夠及時發出警 報信號,通過聲音提示、LED 指示燈等方式提醒看 護者嬰兒的情況,以便及時采取相應的護理和照顧 措施。軟件流程如圖 2 所示。
3 算法設計
算法設計主要包括聲音信號預處理、特征提取 算法。聲音信號預處理主要負責對采集到的信號降 噪,并進行濾波、歸一化等處理,以便于后續特征 提取 [4]。特征提取算法需要將聲音信號轉化為可以 用于分類的特征向量,本文采用上述提到的基于時 域、頻域和小波變換的特征提取方法,算法設計內 容如下。
(1)嬰兒啼哭聲音信號的采集與預處理。首先 需要通過麥克風等設備采集嬰兒啼哭聲音信號。為 了確保信號質量,可對采集到的聲音信號進行預處 理,包括去除背景噪聲、預加重濾波以補償信號中 高頻部分的能量損失等。預處理后的信號是后續 MFCC 算法提取特征的基礎。
(2)特征提取算法。MFCC 算法通過應用離 散余弦變換的方式將梅爾頻譜轉換為頻率系數。然 后,選擇一部分系數作為特征向量,將高維度的頻 譜數據降低為較低維度的特征向量。該方式有助于 減少特征向量的冗余性,提高分類器模型的效率和 準確性。
(3)特征表示和分類。通過將選定的一部分系 數組合成一個特征向量,可以將嬰兒啼哭聲表示為 一個數值向量。該向量包含了聲學特征,可作為輸 入向量提供給分類器模型。分類器模型根據訓練數 據中不同類型的啼哭聲模式進行學習,對輸入的特 征向量進行分類預測,判斷啼哭聲是否屬于特定類 型。圖 3 和圖 4 分別為嬰兒哭聲 MFCC 提取結果、 嬰兒哭聲維數與幅值的關系;圖 5 和圖 6 分別為成 人聲音 MFCC 提取結果、成人聲音維數與幅值的 關系。
由此可見,嬰兒哭聲在各方面都與成人聲音有 所區別。在頻率特征上,嬰兒哭聲通常具有較高的 頻率,主要集中在高頻段;常見噪聲則在頻率上均 勻分布,包含各種頻率。在時域特征上,嬰兒哭聲 的時域特征通常表現為連續且有規律的振蕩,具有 一定的周期性;常見噪聲則在時域上表現為隨機的 波動,缺乏明顯的周期性。在動態特性上,嬰兒哭 聲具有較明顯的動態變化,包括音高、音量和音 色的變化,且隨著嬰兒情緒的變化而變化;常見 噪聲通常是固定的、穩定的,不具備明顯的動態 變化 [5]。
4 測試結果
4.1 數據收集
為了訓練一個有效的模型,需要收集大量的正 類(嬰兒哭聲)和負類(其他背景聲音)樣本。針 對已有的嬰兒哭聲音頻,可以將其切分成多個較短 的片段以增加樣本數量。然而,僅依靠這一個音頻 是不夠的,還需要收集更多音頻文件。 本文的測試收集了 50 個正類和 50 個負類音頻文 件,每個文件時長為 2 s。總樣本量為 100 個。
4.2 數據預處理
確保所有音頻文件具有相同的采樣率、比特率 和聲道數,保證特征提取過程具有一致性。因此, 所有轉換后的音頻文件采樣率為 44 100 Hz、比特 率為 16 bit/s 且為單聲道。
4.3 MFCC 算法處理
為了測試該裝置對信號的降噪作用,將各種 不同程度噪聲信號與嬰兒哭聲音頻疊加后參與識 別,測試結果可反映出本產品中采用的算法是否完備且有效。對嬰兒哭聲樣本分別疊加 5 dB、10 dB、 15 dB 的噪聲,基于 MFCC 算法提取的特征參數, 最后統計識別數量,并與之前未加噪聲時的樣本數 量比較,得到疊加噪聲后識別率比較(表 1)。
由此可見,系統在不同噪聲環境下都能保持識 別率不會低于 83%,具有較強的抗干擾能力。這意 味著在現實生活中,如家庭、醫院等各種環境中, 系統都能有效地識別嬰兒哭聲。
5 結論
本文通過嵌入式系統設計和各個傳感器采集 數據實現了硬件系統的設計,采用 MFCC 算法進 行特征提取并在微控制單元(microcontroller unit, MCU)上編程實現。實驗結果表明,本文提出的 嵌入式系統檢測嬰兒哭聲的設計具有較高的準確率 和抗干擾能力。本設計在實際應用中具有重要意 義,有助于家長及時了解嬰兒的需求和狀況,為醫 護人員提供有力的輔助手段。
參考文獻
[1] 羅聰,李輝,彭旺,等 . 基于 STM32 的智能安全監 護系統設計 [J]. 儀表技術,2022(5):18-20.
[2] 楊振雷 . 智能嬰兒監護系統設計 [J]. 電子世界,2012 (22):127-128.
[3] 王赫楠,燕燕,王甜宇,等 . DTW 算法在嵌入式語 音識別系統中的應用研究 [J]. 科技創新導報,2014, 11(8):71.
[4] 許愛功 . 基于 ARM 和 FPGA 的語音識別系統的研究 [D]. 北京:北方工業大學,2014.
[5] 崔戰士 . 復雜背景噪聲中的嬰兒啼哭聲檢測研究 [D]. 哈爾濱:哈爾濱工業大學,2019.