文開妍,郭芷妍,彭業誠,周小茜,蘇辰昊
(天津理工大學 天津 300384)
哭是嬰兒特殊的語言表達方式,在嬰兒的哭聲中可以傳達出其心理和生理上不同的需求,研究其哭聲能夠幫助人們更好地理解嬰兒想要傳達的意思,在一定程度上實現了對嬰兒更好看護的目的。本文首先收集大量的嬰兒在不同情況和時間的哭聲數據,分析嬰兒哭聲。但是在采集嬰兒哭聲的時候會伴隨著成人的說話聲,所以就啟動基于LSTM網絡、GMM模型和基于LSTM-GMM-RNN模型的語音檢測研究,該研究分別基于LSTM網絡、GMM模型和LSTM-GMMRNN模型從音頻流中識別出成人語音,能夠有效剔除成人的部分,進而消除研究阻礙[1]。
鼻咽部、口咽部、喉咽部、肺部組成了人類基本的發聲系統。發聲系統中肺部可以為發聲提供氣流動力,通過肺的擴張和壓縮來產生氣流,并將這些氣流和外界的氧氣進行交換,就此產生動力。發聲的最主要部位是喉咽部,喉咽部包括咽喉、聲帶。聲帶有兩片韌帶褶,兩片聲帶之間會有一個很小的空隙,稱之為聲門??谘什颗c鼻咽部在人類整個發聲系統中所起的作用就是共鳴腔體,聲道就是聲門到嘴唇的整個呼吸通道。說話或者發出聲音的時候,聲門處交換的氣流會導致聲帶發生振動,最后這種振動通過聲道產生共鳴進而發出聲音。在人模仿不同聲音的同時,是因為聲道會隨之產生形狀上的變化。口咽部又能夠控制聲道的形狀是否發生變化,鼻子等其他器官組成了鼻咽部,能否發出鼻音的關鍵就在于鼻咽部。在嬰兒出生的時候,與發聲相關的系統都已經發育完全,但相比較于成年人,還是不夠成熟,所以,嬰兒與成年人的發聲系統會有一定的差異。也就是結構的差異導致了嬰兒相較于成年人的發出的聲音不一樣[2]。相對于成年人連續的發聲來講,嬰兒的發聲是不連貫的,而且一般突發性比較大,在嬰兒的哭聲中的信息量不是持續不斷的,而是開始最強而后隨著時間的延長慢慢減少的。當成年人想要發出聲音的時候,會先由大腦將發聲信號傳輸到相對應的發聲部位,隨后發聲。嬰兒的發聲的原理也是一樣的,只是相較于成年人來說,具有不穩定性。
韻律特征以及譜相關特征,這兩者都是把時域和頻域分開提取特征。但是語譜圖的相關特征不同于韻律特征,語譜圖就可以把時域和頻域關聯在一起,語譜圖的紋理、方向等其他表現方式,能夠表示用語音表達情感的方式。聲學特征包含在語譜圖中,這些聲學特征可以用靜音段以及濁音橫杠等,音頻率、第一共振峰、第二共振峰以及第三共振峰都可以通過語譜圖估計出來。語譜圖中包含了豐富的語音聲學特性,所以可以用語譜圖中的聲學特征作為語音識別的最基本條件,手機上的語音鎖的原理也是如此。圖1是嬰兒在不同情況、不同情緒以及不同需求下所產生的聲波圖像。

圖1 嬰兒在不同情況、不同情緒以及不同需求下所產生的聲波圖像
根據上述的圖片,不難發現嬰兒在表達不同需求、不同情緒時,聲波特征表現出的形式有很大的差異,根據這種方式計算出嬰兒在不同時刻所出現的聲波的不同,就可以在一定程度上幫助新手媽媽更好地了解嬰兒的需求,為家長及嬰兒帶來更好的感受體驗[3]。
嬰兒所處的環境并不是絕對安靜的,所以在數據上也會出現一些偏差,也會影響聲音的識別率,利用SVM算法進行計算,將原本采集到的聲音材料中添加高斯白噪聲、空調噪聲與下雨噪聲所計算出來的識別率都會有下降的幅度,但是這三種噪聲添加后,識別率的下降幅度大致相同。所以,在不同信噪比下,利用 SVM算法算出的嬰兒在不同需求、不同情緒所計算出來的魯棒性較好,但是利用SVM算法算出的在噪聲條件下的識別率都在62%左右,識別率不高,需要進一步的研究計算。基于多尺度卷積核與多池化方法的改進CNN網絡嬰兒哭聲中不同情感需求信息識別算法的魯棒性。表1是根據不同噪聲、不同分貝條件下的測試結果,嬰兒的房間一般都比較安靜,所以本次實驗只采用了高斯白噪音、嬰兒哭鬧時成年人哄孩子的聲音以及外面的下雨聲音,以實驗的形式為計算提供相應的數據。利用Softmax回歸算法,高斯白噪音、哼唱噪音以及雨天噪音在25 db、20 Xdb、10 db,平均的識別率分別為63.1%、59.2%、57.3%。這種算法雖然有一定的魯棒性,但是其性能還有待提高。

表1 不同噪聲和不同分貝條件下嬰兒哭聲測試結果
由實驗可知,相對于傳統CNN網絡,Softmax 回歸算法、ANN 算法與SVM算法所呈現的嬰兒哭聲在各種噪音里的抗噪音能力是截然不同的,改進CNN網絡算法,嬰兒在不同情緒、不同需求時的哭聲的識別能力會變的更強。這四種計算方式在同樣的噪音環境中進行對比,其中改進過后的CNN網絡計算出來的嬰兒哭聲識別率仍然有待提高。SVM模型可以通過聲學特征MB-LBP反復練習得到,利用在主音頻中添加不同的噪音,就能通過計算方式來提高嬰兒哭在其中的識別率,通過添加不同的噪音類型,對嬰兒哭聲的識別能力也在不斷增加。利用SVM算法作為分類型算法,就MB-LBP特征來講,其中嬰兒哭聲在不同情緒、不同需求的情況下的魯棒性更強,這就代表這種方式的抗噪能力變得更強[4]。
也可以利用LBP特征的原理計算嬰兒在不同需求、不同情感的時候所計算出來結果。通常生物醫學會利用到LBP特征,它屬于遙感圖像等圖像的相關領域,LBP的原理及LBP的等價模式主要可以運用局部二值模式進行主要解釋,其中Gabor小波原理將二維Gabor小波的相關理論知識做出了基本解釋。收集到的嬰兒哭聲大多伴隨著成年人說話的聲音,由于嬰兒哭聲和成人語音的持續時間都會超過100 ms,所以需要在計算后再進行處理將神經網絡的預測結果進行后續處理,用這種方式能夠消除計算結果中短暫的嬰兒哭聲以及成人語音,用這種方法可以最大可能減少因為誤差產生的錯誤判斷,由此提高檢測的準確性。其中后續處理所采用的就是中值濾波,利用中值濾波器處理神經網絡的輸出序列,由此就能夠得到新的序列。利用序列準確區分出來成年人語音的部分,就可以將成年人的語音片段準確剔除,這樣就能夠提取出純凈的嬰兒哭聲,可以將嬰兒哭聲的片段進行保存,用于后續數據計算,不僅可以使得計算出來的數據更加準確,還可以保護成年人的隱私。這些研究主要進行了提取嬰兒在不同情緒下的哭聲、嬰兒在不同情緒時的行為表現,利用這些基本信息研究嬰兒在不同情緒下的主要聲波變動情況。這些研究主要針對嬰兒在家庭中的需求得不到及時滿足,而要求成年人用“猜”的方式進行對嬰兒的照顧,研究結果就可以利用一定的技術造出某種儀器進行探測,從而省去了很大的麻煩。雖然以上的方式能在一定程度上判斷到嬰兒在大部分情況下的需求,但是由于技術的不完善,會產生一些偏差,還有待研究[5]。
綜上所述,嬰兒的哭聲對每一個家庭都非常重要,嬰兒的哭聲代表著許多不同的情緒,比如饑餓、困倦、不舒服以及疾病,家長們能夠及時了解這些哭聲的意義尤為重要,通過一些專業的渠道計算出大致的聲音波動,雖然不能很準確判斷嬰兒哭聲的情緒,但還是有一定參考價值,結果所得在噪聲環境下判斷嬰兒準確性高達75%,絕對安靜的環境下準確性則達到了86%左右[6]。