屈曉靜,林佳聰,彭東城,鐘其麟
(廣東工業大學華立學院,廣東 廣州 511325)
隨著中國人口老齡化現象的加重以及二胎政策的開放,老人與兒童群體的看護問題已經逐漸成為影響社會安定的重要因素之一。與此同時,老人、兒童獨自在家發生意外的事件仍然一再發生,這當中因無法及時求救而造成無法挽回的后果的事件不在少數。空巢老人與留守兒童的安全一直以來都是社會重點關注的問題,傳統的報警方式如電話、手機、智能手表等,能滿足一般的報警需求,但當老人、兒童獨自在家發生意外時,例如重摔無法起身、身體不適行動不便而無法到達報警設備旁時,傳統的通信設備報警方式作用有限。
基于此,本項目設計了一種基于卷積神經網絡的聲音識別報警系統,該系統基于卷積神經網絡算法,在一定程度上提高了語音識別的正確率。老人或兒童獨自在家發生意外時,在身邊無通信設備的情況下,只需通過呼叫即可向特定聯系人求救,無需移動即可緊急通知聯系人。例如,重摔無法起身或身體不適,行動不便無法到達電話旁時,只需在原地呼救,待系統識別后可即時通過GSM模塊以短信方式通知設定的聯系人。
系統主要由Raspberry Pi 3 Model B、GSM模塊、麥克風陣列、語音識別模塊等組成。由于卷積神經網絡在時間與空間上具有平移不變的卷積特點,所以可以對外界環境以及說話者的多樣性進行克服性處理,提高語音識別率。圖1所示為聲音識別報警系統的整體框架。在特殊情況發生時,當事人可以通過發出特定語音信號向現場指定聯系人發送短信。該系統以Raspberry Pi 3 Model B作為主控制器,通過串口向GSM模塊發送AT指令,即可實現向住戶發送短信的功能。

圖1 系統整體框架
該項目中使用的Raspberry Pi 3 Model B配備了64位ARM Cortex-A53 1.2 GHz四核處理器、藍牙和WiFi。同時,還具有1 GB的RAM內存,以及以太網端口和40個GPIO引腳,并搭載有DSI顯示連接器、微型USB電源接口、攝像頭接口、HDMI接口、RCA影音端口。Raspberry Pi 3 Model B具有較小的體積、強大的系統功能、較強的兼容性且支持多種計算機語言,適合作為本系統的開發平臺。樹莓派GPIO引腳定義如圖2所示。

圖2 樹莓派GPIO引腳定義
本設計采用的A6 Mini GSM模塊體積小,尺寸為22.8 mm×16.8 mm×2.2 mm,工作電壓為3.5~5 V,睡眠模式下電流為0.9 mA,功耗低,工作溫度范圍廣,支持GSM850、EGSM900等頻段,支持短消息傳輸功能。GSM模塊和Raspberry Pi 3 Model B通過TTL線路連接,連接時需重新分配串口。GSM和樹莓派之間的連接如圖3所示。

圖3 GSM模塊與樹莓派連接圖
系統使用AT命令完成發送短消息的操作。操作開始時,需要初始化串行端口以獲得GSM模塊的波特率。其次,短信模式設置為文本模式,首先發送“AT+CMGF=1”,然后發送“AT+CSMP”設置文本模式的參數,通過發送“AT+CSCS=UCS2”設置UCS2編碼字符集,然后設置緊急聯系人的手機號碼,編輯短信內容后發送“0x1A”,GSM模塊即可實現短信通知緊急聯系人的功能。GSM模塊發送短信流程如圖4所示。

圖4 GSM模塊發送短信流程
麥克風陣列依據一定的幾何結構,將一組麥克風進行排列放置,每個麥克風同時采集和處理聲音信號。獲得信號的時域和頻域信息后,可以獲得聲音的位置信息。麥克風收集的聲音信號質量與環境有關。當聲源遠離麥克風且周圍環境有噪音時,麥克風采集的聲音信號質量受到很大影響,語音識別的效果會嚴重降低。為實現聲音的降噪與抑制功能,以便達到對語音信息的優化處理和提高對環境中語音的識別率,本系統需要對已采集的聲音進行麥克風陣列優化。
ReSpeaker 6-Mic圓形麥克風陣列具有2個ADC(X-Power AC108 ADC)芯片和1個DAC(X-Power AC101 DAC)芯片,包括6個高性能貼片模擬麥克風,兼容樹莓派接口,靈敏度高。ReSpeaker 6-Mic支持多通道輸入和輸出,并可以捕獲3~5 m半徑內的語音,從而實現更強大的語音功能。
語音識別即經過時頻分析后的語音頻譜。與此同時,還需要考慮語音輸入的干擾因素,如揚聲器和環境的多樣性。為此,解決語音信號的多樣性問題是提高語音識別率的關鍵。在空間和時間上,進行語音識別的聲學建模時可以通過卷積神經網絡具備的卷積平移不變特性,完成對語音信號多樣性的處理。
該系統基于卷積神經網絡處理用戶的語音信號,其核心實現步驟包括卷積神經網絡的Mel頻率倒譜系數特征提取、數據歸一化、數據分類等。
梅爾頻率倒譜系數特征提取流程如圖5所示。

圖5 梅爾頻率倒譜系數特征提取流程
結合語音信號的靜態和動態特征,可以提高系統的語音識別能力。因此,系統采用由靜態梅爾頻率倒譜系數、動態差分參數和幀能量組成的梅爾頻率倒譜系數方法。
3.1.1 靜態MFCC特征的提取
為實現對所采集的語音高頻部分的優化處理,需要進行預加重操作,從而提高語音的高頻分辨率,以便后續的優化操作。依據相同的信噪比從而對查找頻譜進行精準定位。預加重一般通過高通濾波器實現。框架劃分完成后,每個框架都乘以漢明窗口,以增加框架左右兩端的連續性。然后對每幀進行FFT變換獲得每幀的頻譜,并對頻譜模式進行平方處理獲得語音信號的功率。
對頻譜的平滑處理操作可以減少特征數據量和計算機量,從而消除諧波帶來的影響。三角濾波器的頻率響應如下:

式中,f(m)為中心頻率,m=1, 2, ..., n。
計算每個濾波器組輸出的對數能量:

通過DTC變換對Mel頻譜進行倒譜分析即可得到相應的MFCC系數:

式中:L表示Mel倒譜系數的階數;M表示濾波器的總數。
3.1.2 動態差分參數的提取
獲得的Mel頻率倒譜系數參數僅反映了語音的靜態特性,為了更好地反映語音信號的時域連續性,采用一階差分參數和二階差分參數來描述語音的動態特性。差分參數的計算公式如下:

式中:d表示第t個一階差分;C表示倒譜系數;Q表示倒譜系數的階數;K表示一階導數的時間差,系統值K為1。
為提高精度,必須在梯度下降的條件下尋找最優速度。
Mel頻率倒譜系數特征提取完成后,利用語音信號特征的標準差歸一化,達到加速梯度下降尋找最優解速度的目的,轉換公式如下:

式中:σ表示原始數據標準差;μ表示原始數據的均值。
典型的卷積神經網絡主要由卷積層、最大池化層和全連接層組成。在通過標準差歸一化處理后,所得數據需要做進一步的分類處理。
卷積層由若干卷積核組成,具有信號特征提取功能。卷積內核在輸出層計算能力的實現方式是對在該層獲得的滑動卷積數據的結果求和,然后將各層的偏差數據進行累加求和。
池化層極大地簡化了卷積層輸出的復雜性,減少了網絡層的參數,該系統通過使用最大池化方法極大地優化了流程。池化層所在區域后的值由圖像區域的最大值定義。池化層后的數據通過結合非線性操作線性整流函數(remu)提高模型的識別性能。
全連接層將使用非線性運算獲得的數據與向量和權重矩陣的乘積及偏差相結合。
該系統的卷積神經網絡模型主要由輸入層、卷積層和池化層等組成,如圖6所示。輸入層、池化層和輸出均為一層,卷積層為兩層。本系統中,卷積神經網絡輸入層的初始設計尺寸為11×39×3,激活函數使用remu函數。卷積層的輸入是前一個池化層的輸出,并且與系統每個完全連接的層緊密相關,每個層的輸入是前一個層的輸出。

圖6 卷積神經網絡模型
語音識別效果與系統所處環境有關。在該實驗中,選擇3個人分別在安靜的環境和少量噪聲的環境中進行測試。在每個環境中測試200次,測試數據由系統輸出識別結果得到,測試結果見表1所列。

表1 語音識別測試結果
從表中可以看出,語音識別的準確率平均為95.5%,準確率較高,能夠滿足預期的語音識別效果,證明了語音識別報警系統的可行性。
在聲音識別原理和GSM技術的基礎上,設計并實現了基于卷積神經網絡的聲音識別報警系統。系統實時監控家庭環境中的語音報警信號。實驗測試表明,該系統工作穩定,具有良好的語音識別效果,有效保障了人們獨自在家的安全,具有廣闊的市場前景和應用價值。