左夢婷 溫朝暉





摘要:針對嬰幼兒語音分析的問題,運(yùn)用了快速傅里葉變換、多元統(tǒng)計(jì)分析、平均十二音律法、短時(shí)平均能量、馬氏距離等方法,構(gòu)建了男女聲鑒別模型、聲音譜曲模型、嬰幼兒聲音語義分析等模型,綜合運(yùn)用了MATLAB、EXCEL等軟件編程求解.結(jié)果表明,基因頻率可以準(zhǔn)確判別男女聲,通過短時(shí)平均能量可以識別嬰幼兒所要表達(dá)的情感.
關(guān)鍵詞:嬰幼兒;語音分析;傅里葉變換;平均十二音律法;短時(shí)平均能量
中圖分類號:TP391.42? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1673-260X(2019)07-0058-05
嬰幼兒的大腦發(fā)育與語音之間存在一定的關(guān)聯(lián),嬰兒出生時(shí),便會伴隨“哇哇”的哭聲降臨這個(gè)世界,他會自發(fā)的掃視周圍環(huán)境,對自身的需求產(chǎn)生不同的情緒信息[1].而由于語言功能尚未完全發(fā)育,剛出生的嬰兒不能通過清晰的文字語言表達(dá)自己的情緒,只能通過簡單的哭、笑等本能反應(yīng)來體現(xiàn)自己的需求,因此對嬰幼兒語義分析的研究就顯得尤為重要.
就目前而言,國內(nèi)許多專家學(xué)者對語音信息識別進(jìn)行了諸多研究,并取得了一定的成果.麻旻等[2]將基因頻率作為鑒別男女聲音的標(biāo)準(zhǔn),分別采取傅里葉變換和自相關(guān)的方法進(jìn)行了語音的基因提取,通過分析比較得出基因頻率可以有效進(jìn)行男女聲的識別.趙清陽[3]通過將KNN算法與情感特征參數(shù)相結(jié)合的方法,對嬰兒的情感模式進(jìn)行識別,通過識別率的高低判斷嬰兒的需求.顧國良等[4]運(yùn)用動態(tài)時(shí)間規(guī)整算法,建立了一套實(shí)時(shí)嬰兒哭聲識別系統(tǒng),提高了嬰兒監(jiān)護(hù)的質(zhì)量.
1 模型假設(shè)
為了便于解決問題,本文提出以下假設(shè):(1)假設(shè)所采集的音頻無雜音及其他干擾.(2)假設(shè)音的頻率只與弦長有關(guān),其他變量固定.(3)假設(shè)曲譜不存在無效的音符,即所有的樂譜均能唱出.(4)假設(shè)對音頻的處理在允許的誤差范圍.(5)一切數(shù)據(jù)來源真實(shí)、準(zhǔn)確.
2 基于傅里葉變換對男女聲音的分析
2.1 研究思路
首先,運(yùn)用GOLDWAVE軟件,采集多名男女聲演唱同一首歌的音頻,通過MATLAB軟件繪制出時(shí)域圖;其次,通過傅里葉變換,得到聲音信號的頻譜圖,找出男女聲音的區(qū)別;最終,選取合適的聲音信號指標(biāo)建立判別模型,得到鑒別男女聲音的判別函數(shù).
2.2 研究方法
2.2.1 傅里葉變換
指將時(shí)間域上的信號轉(zhuǎn)化為頻率域上的信號,使數(shù)據(jù)得以簡單的處理[5].它認(rèn)為一個(gè)周期函數(shù)包含多個(gè)頻率分量,任意函數(shù)f(t)可通過多個(gè)周期函數(shù)相加而合成.
2.2.2 判別分析
又稱“分辨法”,是一種判斷個(gè)體所屬類別的統(tǒng)計(jì)方法.其原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),根據(jù)某一研究對象的各種特征值確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo),據(jù)此確定某一樣本屬于何類.
2.3 模型的準(zhǔn)備
2.3.1 聲音信號的采集與預(yù)處理
選擇一間空曠安靜的教室,將男女生分隔開,通過GOLDWAVE軟件進(jìn)行現(xiàn)場錄音.保存類型為mp3,屬性顯示Layer,44100Hz,128kbps,立體聲.將采集成功的音頻文件按照要求進(jìn)行重命名,并將其格式修改為WAV,以便MATLAB軟件的讀取.
2.3.2 繪制時(shí)域圖與頻譜圖
在MATLAB軟件中,通過Audioread函數(shù)從對應(yīng)的音頻文件中讀取所需要的聲音信息,繪制出時(shí)域圖.并通過FFT函數(shù)對時(shí)域信號數(shù)據(jù)進(jìn)行傅里葉變換,得到頻譜圖.男女聲結(jié)果分別如下圖1、2所示:
通過上圖可以看出,女生的聲音頻率主要分布在200Hz-2000Hz,男生的聲音頻率主要分布在200Hz-900Hz.由此可以得出初步結(jié)論:女聲的聲音高頻成分較多,男生的聲音低頻成分較多.
2.4 模型的建立與結(jié)果分析
聲音是由物體的機(jī)械振動產(chǎn)生,以波的形式在介質(zhì)中傳播[6].因此,聲音具有頻率、波長等共同特性.生活中人們常通過每個(gè)人的音色不同來區(qū)分聲音.基于此,我們選擇時(shí)域和頻域作為指標(biāo)來建立判別函數(shù).對于時(shí)域,選擇波的半寬度作為指標(biāo);對于頻率,選擇頻率集中區(qū)域的中位數(shù)來反映頻率的差異,結(jié)果如下表1所示:
通過判別函數(shù)W(X),可以將待判樣本的時(shí)域和頻域信息帶入此函數(shù),若函數(shù)值大于0,則屬于男生;若函數(shù)值小于0,則屬于女生.
3 基于十二音律法對嬰兒聲音制譜的研究
3.1 研究思路
首先,用MATLAB軟件將音頻轉(zhuǎn)化為數(shù)字串,選取500個(gè)樣本值,并補(bǔ)零至1000個(gè),進(jìn)行快速傅里葉變化,結(jié)合坑函數(shù)進(jìn)行峰值判斷;其次,對音樂要素進(jìn)行量化,由主音頻率存在的關(guān)系確定主音為A,由平均十二音律法確定一節(jié)基本為3拍,整個(gè)音頻為3/4拍,進(jìn)而對距離比值進(jìn)行轉(zhuǎn)化,得出頻率范圍在10-4000Hz的結(jié)論;最后,進(jìn)行樂譜合成.
3.2 模型的準(zhǔn)備
數(shù)字變化引起聲音變化,數(shù)字變化的頻率與整個(gè)樂譜的頻率緊密相連[7],因此需要估計(jì)出每一時(shí)刻的振動頻率,利用MATLAB軟件將音頻轉(zhuǎn)化為數(shù)字串,得到此段音頻的頻率為44100Hz.通過查閱相關(guān)資料知,“坑函數(shù)”匹配技術(shù)在各種基音估計(jì)技術(shù)中誤差較小,效果較好.而任何樂聲的圖像都是有規(guī)則的周期性圖像,根據(jù)傅里葉定理知,任何一個(gè)周期函數(shù)都可以表示成三角級數(shù)的形式,即
由公式知,所有泛音的頻率都是基本音頻率的整數(shù)倍,稱為基本音的諧波,所以傅里葉研究說明任何樂聲都是一些簡單聲音的復(fù)合.
3.3 模型的建立
由MATLAB軟件知附件中音頻的頻率為44100Hz.為了獲取這一時(shí)刻的基頻,現(xiàn)需要在該時(shí)刻的附近截取一小段樣本.因?yàn)樾枰蟪鏊矔r(shí)頻率且需要保證最低的基頻也有可能進(jìn)行幾周震蕩,所以這一小段樣本的長度不能太長,也不能太短.根據(jù)MATLAB軟件的運(yùn)行結(jié)果,取500個(gè)樣本值,總樣本數(shù)目為5000,周期為0.1秒.這樣,低至100Hz的周期信號,也有可能振蕩10周.
因?yàn)轭l點(diǎn)越密,精度越高,所以在這500個(gè)采樣值后補(bǔ)零至1000個(gè)點(diǎn)的長度,做1000個(gè)點(diǎn)的快速傅里葉變換,得到這1000個(gè)點(diǎn)的復(fù)數(shù)值.而前面500個(gè)點(diǎn)就代表了全部的頻率信息,第500個(gè)點(diǎn)對應(yīng)頻率22050Hz.因?yàn)榍?00個(gè)點(diǎn)覆蓋了從0Hz到2691Hz的語音信號,對識別音頻來說是足夠的.變化后頻率點(diǎn)的間隔變?yōu)?.7Hz,為此模型的量化誤差.
3.4.2 音符的確定
首先,對10000個(gè)的穩(wěn)定性進(jìn)行單位根的檢驗(yàn),判斷出穩(wěn)定.
其次,在穩(wěn)定的基礎(chǔ)上,得到的平均值為9.49.
接著,在的平均值接近10的情況下,定比值10的音為B,頻率為982Hz.
最后,其他音根據(jù)與B音頻的倍數(shù),確定頻率,由頻率轉(zhuǎn)化成對應(yīng)音符.其中,轉(zhuǎn)化后頻率范圍在10至4000Hz.
3.4.3 樂譜的生成
綜上,可以得到:主音節(jié)拍為A調(diào);節(jié)拍為3/4拍,以1/4分音符為一拍,一節(jié)三拍.根據(jù)樂理知識,可繪制樂譜如下圖5所示:
4 基于短時(shí)平均能量對嬰兒聲音語義的分析
4.1 研究思路
首先,運(yùn)用MATLAB軟件計(jì)算出嬰兒聲音的短時(shí)平均能量;其次,與情緒參照表的中的指標(biāo)值進(jìn)行對比,觀察與哪一數(shù)值更為接近;最終,通過對比分析得到該嬰兒聲音的語義.
4.2 模型的準(zhǔn)備
語音信號是一個(gè)非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號的數(shù)字信號處理技術(shù)對其進(jìn)行分析處理[8].但是,由于不同語音在短時(shí)間范圍內(nèi)(一般認(rèn)為在10~30ms),其特性基本保持不變,即相對穩(wěn)定[9].因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程,對語音信號進(jìn)行分幀技術(shù)處理,如下圖6所示.
接著,對這段嬰兒語音進(jìn)行加漢明窗處理,如下圖7所示:
4.3 模型的建立與結(jié)果分析
語音的能量振幅會隨著時(shí)間的變化而變化,語音信號的振幅特征和情感信息有著較強(qiáng)的相關(guān)性.對于嬰兒來說,當(dāng)他們高興、憤怒、饑餓時(shí),他們的音量會伴隨著這些情緒而變大,而類似依戀、困倦這些情緒發(fā)生時(shí),往往音量會低于前者[10].一般這些情感的平均振幅越大或者越小,它們的情感表現(xiàn)特性就越強(qiáng)[11].所以,在嬰兒的語音情感信息研究中,這個(gè)振幅的構(gòu)造特性會作為重要的特征來研究.短時(shí)能量為一傾采樣點(diǎn)值的加權(quán)平方和,定義短時(shí)能量公式如下:
式中w(n)為漢明窗函數(shù),n為窗長,在計(jì)算能量參數(shù)之前,先將輸入的語音信號進(jìn)行預(yù)處理、分幀,然后對每一幀運(yùn)用上述公式計(jì)算能量值,即可得到短時(shí)能量構(gòu)成的時(shí)間序列.
通過MATLAB軟件,成功得到了該嬰幼兒音頻的短時(shí)能量圖.進(jìn)一步地,需要求出平均短時(shí)能量,這里,采用求定積分的方法來大致求出平均短時(shí)能量.
即最終得到的平均短時(shí)能量為0.145.由情感特征參數(shù)貢獻(xiàn)度表可知,嬰幼兒在不同平均短時(shí)能量對應(yīng)的不同情感,可以發(fā)現(xiàn)該數(shù)值最接近0.1401,即為高興狀態(tài)下的平均短時(shí)能量,故依據(jù)此判別方法,判定該嬰兒在此語義下的情感為高興.
5 結(jié)語
本文基于傅里葉變換,對嬰幼兒語音分析問題進(jìn)行了探究,運(yùn)用了MATLAB、EXCEL等軟件編程,繪制出相關(guān)圖表,簡潔直觀.巧妙地利用了聲音頻率與弦長之間的關(guān)系,充分應(yīng)用了統(tǒng)計(jì)分析技術(shù),得到了可以反映音樂要素的規(guī)律和統(tǒng)計(jì)量,通過仿真驗(yàn)證能夠以較高的準(zhǔn)確率進(jìn)行男女聲音識別,較為清晰地知道嬰兒所要表達(dá)的含義,對日后嬰兒護(hù)理等方面有一定的參考價(jià)值.
參考文獻(xiàn):
〔1〕魏麗娜.嬰兒情緒信息的模式識別技術(shù)研究與實(shí)現(xiàn)[D].復(fù)旦大學(xué),2012.
〔2〕麻旻,李祥.一種基于MATLAB實(shí)現(xiàn)的男女聲識別算法[J].儀表技術(shù),2018(07):21-23.
〔3〕趙清揚(yáng).嬰兒需求表達(dá)語音信息的智能識別技術(shù)研究[D].復(fù)旦大學(xué),2014.
〔4〕顧國良,許鵬,沈曉燕.基于數(shù)字信號處理器的嬰兒聲音識別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].生物醫(yī)學(xué)工程研究,2018,37(03):276-280.
〔5〕李嘉亮.基于matlab的聲音信號簡單分析與處理[J].中國科技信息,2013(08):49-50.
〔6〕陳家焱,陳冬嬌,張達(dá)響.基于Matlab的聲音信號采集與分析處理[J].計(jì)算機(jī)與現(xiàn)代化,2005(06):91-92+96.
〔7〕袁鳳玲.嬰兒啼哭聲的特征分析與識別[D].西華大學(xué),2011.
〔8〕宮瑾,沈小鍵,賈磊,李鴻鑫,楊子康,金建設(shè),趙帥.嬰兒欲望與狀態(tài)識別系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2018,8(02):7-12.
〔9〕陶冶,徐琴美.12個(gè)月中國嬰兒熟悉詞表征中聲調(diào)的語義特性[J].心理學(xué)報(bào),2013,45(10):1111-1118.
〔10〕張榮剛.嬰兒智能看護(hù)系統(tǒng)的語音識別模塊設(shè)計(jì)[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,11(02):64-67.