唐 偉 張二華 張麗娜
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
在某些多于一人說話的單聲道混合語音分離場(chǎng)景,僅依靠將單人的語音信號(hào)從背景噪聲中分離出來的技術(shù)是不能滿足現(xiàn)實(shí)需求的,還需要研究準(zhǔn)確將單人語音從多人說話的混合語音中提取出來的方法,本文嘗試?yán)脝稳思儍粽Z音各次諧波的頻率采樣點(diǎn)位置從雙人語音的頻譜中分離單人語音,為之后研究從單聲道雙人語音中分離清晰單人語音的方式提供分離效果對(duì)比的標(biāo)準(zhǔn)。
將單人語音從單聲道的含噪語音中分離出來,主要依靠語音信號(hào)的特征是隨時(shí)間變化的,但在一段較短的時(shí)間間隔內(nèi),語音信號(hào)保持平穩(wěn):在濁音段表現(xiàn)出周期信號(hào)的特征,在清音段表現(xiàn)出隨機(jī)噪聲的特征。由于濁音具有顯著的諧波結(jié)構(gòu),同時(shí)在漢語中,僅依靠濁音就能辨別大多數(shù)漢語語音的語義,故本文只研究濁音的分離。
如何進(jìn)行準(zhǔn)確的單聲道語音分離[1]是一個(gè)相當(dāng)復(fù)雜的問題,在嘈雜的環(huán)境中,人能夠有效地傾聽感興趣的聲音,甚至只用一只耳朵也能很好地辨別并專注于某個(gè)人的聲音,排除噪聲的干擾[2]。1953年,英國(guó)科學(xué)家E.Cherry將該現(xiàn)象稱為“雞尾酒會(huì)”問題[3]。盡管目前人們對(duì)雞尾酒會(huì)問題的機(jī)理還沒有完全了解清楚,但通過一些聽覺實(shí)驗(yàn)[4],揭示了聽覺感知的一些線索。1990年,加拿大麥吉爾大學(xué)的Bregman提出了聽覺場(chǎng)景分析(auditory scene analysis,ASA)理論[5],ASA理論將聽覺感知聲音的過程分為兩個(gè)階段,第一階段是分段,將混合語音分解為一系列的聽覺片段,每個(gè)聽覺片段來自于同一個(gè)聲源,每一個(gè)聽覺片段都代表了一個(gè)重要的聽覺事件。第二階段是組合,通過組合把來自同一聲源的各個(gè)聽覺片段組合在一起,形成聽覺感知流,人對(duì)聲音的感知過程是對(duì)聲音分量的組合過程。
該理論沿用了視覺場(chǎng)景分析的概念,并對(duì)聽覺場(chǎng)景分析的一系列準(zhǔn)則進(jìn)行了歸納,ASA理論組合原則如圖1所示。

圖1 語音段的同時(shí)組合和時(shí)序組合示意圖
ASA組合原則主要包括兩點(diǎn):時(shí)序組合原則與同時(shí)組合原則。
時(shí)序組合是指將來自同一個(gè)聲源在不同時(shí)間產(chǎn)生的聽覺片段按時(shí)間的先后順序組合到一個(gè)聲音流中,表現(xiàn)為圖1中的A與B兩組信號(hào)應(yīng)該屬于同一聲源,其依據(jù)為
1)在時(shí)頻平面上,距離越近的聽覺片段越可能被組合為同一聲源;
2)能夠形成連續(xù)或平滑時(shí)間軌跡的成分傾向于組合成同一聲源。
同時(shí)組合是將同一個(gè)聲源在同一時(shí)間產(chǎn)生的不同頻率的聲音分量組合在一起,表現(xiàn)為圖1中的B與C兩組信號(hào)應(yīng)該屬于同一聲源,其依據(jù)為
1)一組具有諧波關(guān)系的聲音成分傾向于被組合在一起;
2)“同步開始”的頻率成分傾向于組合在一起,“同步結(jié)束”的頻率成分也被看作來自同一聲源。
2006年美國(guó)俄亥俄州立大學(xué)的DeLiang Wang提出基于計(jì)算聽覺場(chǎng)景分析(Computational Auditory Scene Analysis,CASA)[6~8]的語音分離已成為該領(lǐng)域的主流方法。
通常,分離單人語音信號(hào)主要依據(jù)為根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,可將語音信號(hào)劃分為一系列的時(shí)窗進(jìn)行分析,在一個(gè)短時(shí)窗內(nèi)語音信號(hào)是平穩(wěn)的,一個(gè)時(shí)窗稱為一幀。將語音信號(hào)采樣序列劃分為一系列長(zhǎng)度為10ms~32ms的幀,分幀提取語音信號(hào)的短時(shí)特征。為了使幀與幀之間平滑過渡,保持其連續(xù)性,相鄰幀之間需重合一部分,幀移即前一幀與后一幀的交疊部分。
與Hu和Wang檢測(cè)基音的方法不同[9],考慮到語音的濁音部分具有準(zhǔn)周期性,其頻譜分布有規(guī)律,體現(xiàn)在倒譜域存在明顯的峰值,本文利用倒譜域的峰值信息獲取基音周期,再通過基音周期獲取基音頻率,之后依據(jù)濁音信號(hào)的諧波頻率為基音頻率的整數(shù)倍這一規(guī)律進(jìn)行諧波拾取。重構(gòu)時(shí),對(duì)所得的頻率信息進(jìn)行反傅里葉變換,由于幀移的存在,還將同一基音周期軌跡段內(nèi)的所有幀按語音幀的起始位置對(duì)齊后進(jìn)行疊加,并按參與疊加的語音幀個(gè)數(shù)取均值,其重構(gòu)過程如圖2所示,最后所得信號(hào)即是要分離的單人語音信號(hào)。

圖2 第k幀、第k+1幀等語音重構(gòu)過程示意圖
為了更好地研究語音分離技術(shù),本文嘗試?yán)L制語音的語譜圖與基音周期譜圖,考慮到幀移越大,繪制效果越好,但計(jì)算量也越大,故進(jìn)行繪制時(shí),對(duì)采樣率16000Hz的語音,統(tǒng)一以幀長(zhǎng)512個(gè)采樣點(diǎn),幀移487個(gè)采樣點(diǎn)的標(biāo)準(zhǔn)進(jìn)行語譜圖與基音周期譜圖的繪制,確保一句完整的語音能顯示在一幅屏幕范圍內(nèi)的同時(shí),擁有最佳的繪制效果。
語譜圖的繪制取語音信號(hào)進(jìn)行單幀傅里葉變換后,將所得的振幅譜數(shù)據(jù)映射到灰度值0~255之間。
對(duì)第m幀語音信號(hào)x(n)進(jìn)行短時(shí)傅里葉變換,得到短時(shí)頻譜,其中N為幀長(zhǎng),如式(1)所示:

單幀振幅譜數(shù)據(jù)如下,其中*表示復(fù)共軛運(yùn)算,如式(2)所示:

將單幀振幅譜數(shù)據(jù)垂直繪制(低頻在下,高頻在上),每幀相距25個(gè)采樣點(diǎn)即可。
基音周期譜圖的繪制則是取單幀的倒譜振幅譜數(shù)據(jù)進(jìn)行映射,倒譜計(jì)算過程如式(3)所示:

基音周期譜圖的繪制方法與語譜圖相同。
女生語音“我不滿六周歲”與男生語音“那年正月新春”語譜圖與基音周期譜圖如圖3、圖4所示,混合語音的語譜圖與基音周期譜圖如圖5所示。

圖3 女生語音“我不滿六周歲”語譜圖與基音周期譜圖

圖4 男生語音“那年正月新春”語譜圖與基音周期譜圖

圖5 男女生混合語音語譜圖與基音周期譜圖
分析圖3、圖4可知,在單個(gè)說話人情況下,真實(shí)的基音周期軌跡同一時(shí)刻只會(huì)出現(xiàn)一條,故在圖5所顯示的雙人混合語音中,應(yīng)該會(huì)出現(xiàn)兩個(gè)人完整的基音周期軌跡。
但圖5顯示,在某些時(shí)間段,部分單人的基音周期軌跡發(fā)生了消失,這將導(dǎo)致借助倒譜提取相應(yīng)基音頻率存在難度,再考慮到雙人語音分離還涉及多個(gè)基音周期軌跡段之間分離語音的說話人匹配問題,故本文利用從單人語音信號(hào)中提取的基音頻率及其諧波信息,到雙人混合語音中分離重構(gòu)對(duì)應(yīng)的單人語音,以此作為雙人語音分離后,語音重構(gòu)效果的評(píng)判標(biāo)準(zhǔn)。
經(jīng)由傳統(tǒng)方法重構(gòu)后發(fā)現(xiàn),當(dāng)某一幀處出現(xiàn)兩者諧波頻率點(diǎn)重合,此時(shí)若不對(duì)該頻率成分幅值進(jìn)行預(yù)處理,直接將該幅值作為兩個(gè)聲源的頻率成分,會(huì)導(dǎo)致恢復(fù)后的單人語音中混雜著另一人的聲音,即竄音現(xiàn)象。
竄音現(xiàn)象具體表現(xiàn)在:根據(jù)線性疊加原則,圖5理論上會(huì)包含圖3、圖4大部分的諧波,而在進(jìn)行諧波提取時(shí),如果某個(gè)諧波位置的功率頻譜值同時(shí)包含了兩個(gè)人的諧波振幅信息,而進(jìn)行語音重構(gòu)時(shí)直接將此值帶入計(jì)算,就會(huì)導(dǎo)致重構(gòu)語音不清晰,不能完全將單人聲音從雙人語音中分離出來。
前人的消除竄音現(xiàn)象的方法是調(diào)整諧波的異常幅值,對(duì)混合語音進(jìn)行傅里葉變換時(shí),若將出現(xiàn)異常幅值的諧波進(jìn)行振幅上的調(diào)整,再進(jìn)行處理,會(huì)極大地消除竄音。
本文對(duì)此方法進(jìn)行了實(shí)驗(yàn),具體過程為:分別找到聲源一與聲源二的基音頻率及其諧波成分,進(jìn)行單人語音分離時(shí)使用混合語音的頻譜數(shù)據(jù),但當(dāng)兩個(gè)聲源的基音頻率及其諧波位置出現(xiàn)重合時(shí),選取需要分離的聲源的頻譜數(shù)據(jù)作為此位置的頻譜數(shù)據(jù),之后直接對(duì)處理后的單幀數(shù)據(jù)進(jìn)行逆傅里葉變換后,再按照?qǐng)D2所示過程進(jìn)行重構(gòu),發(fā)現(xiàn)竄音現(xiàn)象得到抑制。
以圖3中的女生“我不滿六周歲”與圖4中的男生“那年正月新春”的混合語音中分離男生語音的效果為例,語譜圖與基音周期軌跡圖如圖6所示。

圖6 調(diào)幅消除竄音法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”的語譜圖與基音周期譜圖
該方法消除竄音效果好,重構(gòu)后的語音也較清晰,但修改幅值需要依靠異常幅值周圍的正常幅值,實(shí)現(xiàn)上存在難度。實(shí)驗(yàn)證明,人耳對(duì)聲音頻率的初始相位不敏感,但對(duì)于不同時(shí)序上的相位連續(xù)性非常敏感,故本文嘗試通過分離雙人混合語音的頻譜數(shù)據(jù)后,從相位角度進(jìn)行語音重構(gòu)。
現(xiàn)有的傳統(tǒng)方法重構(gòu)分離語音時(shí),未考慮振幅和相位的分離、分配,即使考慮了振幅的平滑、分配,但相位難以分離。當(dāng)兩人混合語音中諧波的頻率點(diǎn)重合時(shí),混合相位主要反映振幅較強(qiáng)的語音的相位,可以采用另一種方法避開相位分離。
根據(jù)已知的單人諧波位置從采樣率為16000HZ的雙人混合語音中提取的數(shù)據(jù)幀長(zhǎng)為N個(gè)采樣點(diǎn),幀移為N-T個(gè)采樣點(diǎn)的振幅譜數(shù)據(jù),先對(duì)單幀振幅譜數(shù)據(jù)按如下公式進(jìn)行處理,其中第i幀用于實(shí)部變換的數(shù)值如式(4)所示:

用于虛部變換的數(shù)值如式(5)所示:

隨后將實(shí)部與虛部進(jìn)行反傅里葉變換并將同一基音周期軌跡內(nèi)的所有幀按起始位置對(duì)齊后進(jìn)行疊加,按圖2所示方法進(jìn)行重構(gòu)。
本文進(jìn)行了多組實(shí)驗(yàn),以圖3中的女生“我不滿六周歲”與圖4中的男生“那年正月新春”從混合語音中分離重構(gòu)后的單人語音為例,對(duì)比兩種方法分離重構(gòu)的效果。

圖7 傳統(tǒng)方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”語譜圖與基音周期譜圖
可以從重構(gòu)后的語譜圖,基音周期譜圖兩個(gè)角度對(duì)比兩種方法下的分離語音質(zhì)量,首先對(duì)比語譜圖發(fā)現(xiàn),傳統(tǒng)方法與新方法重構(gòu)的單人語音的語譜圖大體相同,考慮到新方法是對(duì)頻譜的相位進(jìn)行了調(diào)整,未改動(dòng)頻譜幅值,故語譜圖相似存在合理性。
其次對(duì)比基音周期譜圖,無論傳統(tǒng)方法還是新方法,分離重構(gòu)的單人語音都基本保留了原本單人語音的基音軌跡信息,反映在分離重構(gòu)后的語音的基音軌跡與原本的基音軌跡基本一致。

圖8 新方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”語譜圖與基音周期譜圖

圖9 傳統(tǒng)方法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”語譜圖與基音周期譜圖
但是兩種方法的結(jié)果反映,男生聲源的分離效果不如女生,且在分離男女生說的同一句話時(shí),分離效果較差,以男生“我不滿六周歲”與女生“我不滿六周歲”從混合語音中分離重構(gòu)的效果為例。


圖10 新方法從雙人語音中分離重構(gòu)后的男生語音“那年正月新春”語譜圖與基音周期譜圖

圖11 男生語音“我不滿六周歲”語譜圖與基音周期譜圖
對(duì)比圖12與圖13,當(dāng)一對(duì)男女說話人同時(shí)說一句話時(shí),考慮到兩段語音的的基音周期軌跡趨勢(shì)大致相同,導(dǎo)致通過基音周期尋找的基音頻率及其諧波存在著大量的重合。根據(jù)parseval定理[10~11],因?yàn)槟猩幕纛l率較低,導(dǎo)致其基音頻率及其相應(yīng)諧波的提取間隔更短,相應(yīng)地每條諧波的能量也更低;女生則正好相反,最終會(huì)因?yàn)轭l率掩蔽效應(yīng)[12~13],導(dǎo)致女生聲音的重構(gòu)效果比男生聲音的好。

圖12 新方法從雙人語音中分離重構(gòu)后的男生語音“我不滿六周歲”基音周期譜圖

圖13 新方法從雙人語音中分離重構(gòu)后的女生語音“我不滿六周歲”基音周期譜圖
其二為主觀標(biāo)準(zhǔn)平均意見分方法,平均意見分(mean opinion scores,MOS)方法[14~15]是最常用的語音質(zhì)量評(píng)估法,MOS評(píng)分標(biāo)準(zhǔn)如表1所示,實(shí)驗(yàn)參評(píng)人數(shù)為40且測(cè)評(píng)環(huán)境完全相同,嘗試分別對(duì)兩種方法重構(gòu)后的分離語音進(jìn)行打分,語音格式為“聲源信息_語音段”,例如,“M001_XX”代表001號(hào)男生語音,內(nèi)容為“XX”,將語音編號(hào),其關(guān)系如表2所示。

表1 MOS評(píng)分標(biāo)準(zhǔn)

表2 語音段與編號(hào)的對(duì)應(yīng)關(guān)系
重構(gòu)語音的MOS評(píng)分表如表3所示,從MOS評(píng)分這一主觀角度看,聽覺實(shí)驗(yàn)結(jié)果理想,新方法重構(gòu)后的單人語音保證了語音的語義[16],同時(shí),從竄音消除的角度來講,新方法優(yōu)勢(shì)明顯,基本做到了竄音消除這一實(shí)驗(yàn)?zāi)繕?biāo),最后,新方法恢復(fù)的語音存在著些許脈沖波,但基本不影響音質(zhì)。

表3 分離的單人語音分離結(jié)果MOS評(píng)分
CASA研究在雙人乃至多人說話場(chǎng)景下的語音分離研究還不足以達(dá)到實(shí)際應(yīng)用的程度。本文嘗試?yán)脝稳苏Z音模板分離雙人語音,為之后的單聲道雙人語音分離提供分離效果對(duì)比的標(biāo)準(zhǔn)。同時(shí)利用語譜圖、基音周期譜圖的繪制效果觀察傳統(tǒng)重構(gòu)方式與新方法的異同,最后利用MOS評(píng)分對(duì)兩種重構(gòu)方法得到的語音進(jìn)行打分,得出新方法比傳統(tǒng)方法更有效消除竄音,并得到清晰的單人分離語音這一結(jié)論。但是若想做到不依靠先驗(yàn)的單人基音頻率及諧波信息,還需解決雙人混合語音中的某一聲源的倒譜峰值信息被壓制的問題,同時(shí)需要尋找新方法分離的語音中殘留脈沖波這一問題的解決方案。