韓德亮,于鳳芹
(江南大學 物聯網工程學院,江蘇 無錫214122)
精確可靠的聲韻分割是影響漢語語音識別和合成等系統性能的關鍵因素。目前已經多種方法被提出來以完成聲韻分割。目前的分割方法主要基于組成聲韻母的不同音素之間的差異,文獻[1]中就闡明了頻譜的最大變化點在很大程度上就對應著音素的邊界位置;Ricardo Sánchez Jurado[2]等人根據相同音素片段特征序列距離較小而不同音素片段的特征序列距離較大的原理,利用段間距離測度的方法對西班牙語和英語進行了良好的分割;文獻[3]和文獻[4]則分別利用HMM和神經網絡進行音素分割;此外,基于統計學和信息論的方法[5]也是近年來的熱點。由于漢語音節所特有的C+V結構中存在過渡音,這使得其聲韻母單元在聲學信號上界限不夠清晰,傳統的通過音節的直接分割得到聲韻母單元的方法,就存在一定的主觀性,導致分割的一致性比較差,不適于實際系統采用[6]。
由于漢語音節的過渡音部分,濁音起點后仍然包含較少的聲母特性,為了更精確地確定聲母的結束位置,采用匹配追蹤(matching pursuit,MP)算法,根據分解語音信號所得的原子參數的變化規律,來尋找這個過渡段的結束位置。在這里,由于傳統MP算法的時間復雜度過高,本文采用遺傳算法改進的MP算法以加快運算速度。
為避免“絕對”策略分割所導致的主觀性和隨意性,使聲韻分割更加符合漢語發音的實際情況,本文先利用語譜圖找到濁音起點,并以該點作為聲韻母過渡段的起點;然后依據聲韻母過渡段上與之對應的匹配追蹤原子參數所呈現的變化規律,以各原子參數在濁音起點之后所達到的第一個極值的位置為過渡段終點,確定過渡段。通過對96個漢語孤立字進行的仿真測驗顯示,有84個音節分割正確。將分割正確的聲韻母單元送入語音識別系統,識別率與以孤立字為識別單元時相比提高了1.33%。
局部時頻性質是非平穩信號最根本和最關鍵的性質,時頻分析技術作為分析語音信號等非平穩信號的有力工具,可以同時在時域和頻域刻畫聲韻母音素間的差異。語譜圖反映了語音信號的頻譜隨時間的變化情況,充分體現了語音信號的時頻特性,其中的橫杠是判斷濁音的重要標志[7],因此可以通過計算語譜來搜索漢語音節發音的濁音起點位置。
匹配追蹤算法通過組合優化方法對信號進行稀疏表示,將觀察信號分解為一組最好匹配信號局部結構的時頻原子的線性展開。該算法從冗余的函數字典D中選擇時頻原子,然后將殘差信號正交投影到D中與之最相似的原子上,再將這部分投影從殘差信號中減去,如此循環,直至殘差信號的能量小于預先設定的閾值。其第m次的分解過程可表示為[8]

式中:Rmf——第m次投影后的殘差信號,gγm——由參數組γ定義的最佳時頻原子,<Rmf,gγm>——Rmf與gγm的內積。其中gγm滿足

等式右邊表示殘差信號與原子庫中所有原子內積的上確界。
由此,經過m步的分解后,信號就可表示為m個原子的線性疊加。
為了獲得信號的稀疏表示,用盡量少的原子表示待分解信號,要求時頻原子盡量適應于待分解信號的局部結構。本文選用具有良好局部時頻特性的Gabor原子對語音信號進行分解。Gabor原子的表達式如下

式中:g(t)——具有單位能量的高斯函數,s、u、ξ——尺度、平移、頻率調制參數。Gabor原子即高斯函數經過伸縮、平移、頻率調制而得。
在漢語音節特有的CV結構中,包含了一種過渡性質,在過渡階段的起始處留有較多聲母特性和少部分韻母特性,而在過渡階段的終止處則保留了較多的韻母特性,但仍有少部分聲母特性。
重疊音素分割策略就是依據漢語音節發音時,聲門運動周期性所呈現的無序-基本有規律-有規律的特點提出來的。所謂音素重疊分割,就是指分割后的聲母單元和韻母單元之間存在部分重疊,即在聲母單元的結尾和韻母單元的開始含有相同的過渡音[6]。
遺傳算法是(genetic algorithms,GA)一種仿效大自然生物進化中物競天擇、適者生存自然選擇過程的隨機搜索尋優算法。在一個有一定規模的種群里,比較適應環境(適應度大)的個體,可以獲得更多的繁殖機會,不適應環境的個體獲得較少的繁殖機會。父代的繁殖通過交叉和變異等遺傳操作傳給下一代。遺傳算法的實現通常需要以下幾個步驟[9]:
(1)編碼。將種群中個體特征轉換成遺傳空間中的基因型數據。為了適合遺傳算法的基因運算,通常采用二進制編碼方法。
(2)生成初始種群。即隨機產生具有一定規模的種群。
(3)選擇。通過評價每個個體的適應度,來模仿優勝劣汰的操作。
(4)交叉。將種群中的個體隨機配對,通過交配重組產生新的個體。交叉運算在遺傳算法中起著關鍵作用,是產生新個體的主要方法。
(5)變異。將個體基因串中的某些基因值用該基因座的其它等位基因來替換。變異運算是產生新個體的輔助方法,它決定了遺傳算法的局部搜索能力。
(6)重復(3)~(5),直到找到最優個體,亦即最優解。
由于利用匹配追蹤算法分解信號時,每一步信號分解都要進行大量的內積運算,所以該算法的計算任務十分繁重。遺傳算法建立在自然選擇和群體遺傳學機理的基礎之上,是一種具有廣泛適用性的搜索方法。通過結合達爾文適者生存和隨機信息交換理論,既消除了解空間中的不適應因素,又利用了原有解的已有知識,從而有力加快了搜索過程。由于遺傳算法相較于傳統優化方法,有更好的全局尋優能力,因而常被用于降低匹配追蹤算法的運算量[10]。
通過采用遺傳算法,以模仿自然進化過程來尋找最佳匹配原子替代遍歷式的耗盡搜索,使得每個尋找最佳原子的過程由搜索整個原子庫變為僅搜索原子庫中一個隨機產生的較小的子集,并結合了遺傳算法全局尋優的優勢,從而大幅提高了原子特征的提取速度。
對于一幀語音信號,其Gabor原子參數的提取過程主要按以下步驟進行,如圖1所示。
圖1中的Rmf表示第m次迭代后的殘差信號。
漢語實際發音中,聲母能量一般明顯小于韻母,在它們的過渡段,信號能量有一個遞增的過程,體現在相應的時頻原子的尺度參數上,即這部分語音對應的大尺度原子越來越多;而在頻域上,聲母的發音與白噪聲相類似,韻母的能量則主要集中于中低頻,在過渡段上語音信號的頻率呈現一個遞減的過程,各諧波分量的頻率也越來越集中,對應的時頻原子的頻移參數就表現為逐漸減小,該參數的離散程度也逐漸減小。本文正是依據匹配追蹤原子參數所呈現的這種變化規律,來確定聲韻母過渡段的終點位置。

圖1 Gabor原子參數提取流程
本文在進行重疊聲韻分割的具體實現過程主要按以下步驟進行:
(1)尋找濁音起點。讀入語音信號,計算其語譜,依據橫杠信息找到濁音起點。為保證該點的準確性,可設置搜索的橫杠寬度適當小一些。
(2)選定濁音起點后的一段語音y,并確保y的末尾位于語音信號的穩定周期段。并將y分幀。為更精確地觀察原子參數的變化,可將幀長設的小一些,本文取10ms。
(3)按照1.2的步驟,利用遺傳算法改進的匹配追蹤算法提取每幀信號的原子特征參數。
(4)計算過渡段終止幀位置。尋找各原子特征在第(1)步的濁音起點后的第一個極值所對應的幀位置b1、b2、b3。求出它們的均值,將其中偏離該均值最大的一個值略去,以另外兩個的均值b作為過渡段終止幀。
(5)確定過渡段。若信號y的原子特征參數在其持續的時間內無明顯變化,則視為零聲母音節,重置b=0;否則,保持b,完成分割。
算法實現過程中,相關參數設置如下:
MP迭代過程中,設置迭代的能量終止條件為原信號能量的1%,遺傳算法部分采用均勻算術交叉算子以及非均勻變異算子,分別設置交叉概率為0.8、變異概率為0.01。所得的最佳原子參數中,以大尺度原子占原子總數的比例、高頻率原子占原子總數的比例以及頻移參數的標準差作為相應幀信號的特征輸出。
仿真實驗過程中,本文選用8個常用漢語孤立字,用Cool Edit軟件在實驗室環境下錄制而成,錄音水平為16k/16bits,單聲道,每個單字讀12遍,錄音人數為三男三女。
表1中給出了漢語發音“山”在其濁音起點之后六幀的原子參數。由于數據量較大,這里只列出每幀信號的前10個原子的尺度參數s和頻移參數ω。

表1 漢語發音“山”的原子參數
圖2為漢語發音“山”的濁音起點位置及其原子特征。
圖3為漢語發音“山”在其濁音起點后的原子特征及相應的分割效果圖。
經統計,得聲韻分割的仿真結果見表2。

表2 仿真結果
為進一步驗證本文所采用的分割方法,主要是以匹配追蹤原子參數的變化規律來確定聲韻母過渡段終點的方法的合理性,又對上述除零聲母以外分割正確的音節,以支持向量機為識別系統,進行了兩組語音識別的仿真實驗:①以孤立字為識別單元,進行語音識別;②先對孤立字進行重疊聲韻分割,然后以分割所得的聲、韻母為識別單元進行語音識別。以12階MFCC作為特征,每個語音信號的特征矩陣均齊次化至40×12維,取測試集等于訓練集。仿真結果顯示,兩組仿真實驗的識別率分別為93.33%和94.67%。

漢語實際發音中,聲母和韻母在時域和頻域上均有明顯的差異,通過結合語譜的計算和遺傳算法改進的匹配追蹤算法,先根據語音信號時頻面上的橫杠找到濁音起點,再依據聲韻母過渡段上與之對應的匹配追蹤原子參數所呈現的變化規律,確定聲韻母過渡段終點,實現了一種對漢語音節進行重疊聲韻分割的新的時頻方法。仿真實驗表明了該方法的有效性和合理性。
[1]Dusan S,Rabiner L.On the relation between maximum spectral transition positions and phone boundaries[C].Pittsburgh,PA,USA:Ninth International Conference on Spoken Language Processing,2006:17-21.
[2]Jurado R S,Gomez-Gil P,Garcia C.Speech text-independent segmentation using an improvement method for identification of phoneme boundaries[C].Cholula,Puebla:International Conference on Electrical,Communications,and Computers,2009:20-24.
[3]Theera-Umpon N,Chansareewittaya S,Auephanwiriyakul S.Thai phoneme soft segmentation and recognition using hidden Markov models[C].Taipei,Taiwan:33rd Annual Conference of the IEEE Industrial Electronics Society,2007:251-255.
[4]Kanda H,Ogata T,Komatani K,et al.Segmenting acoustic signal with articulatory movement using recurrent neural net-work for phoneme acquisition[C].Nice,France:IEEE/RSJ International Conference on Intelligent Robots and Systems,2008:1712-1717.
[5]Yu Q,Shimomura N,Minematsu N.Unsupervised optimal phoneme segmentation[C].Las Vegas,NV:IEEE International Conference on Acoustics,Speech and Signal Processing,2008:3989-3992.
[6]HE X,WANG X L,ZHOU X Z.A method for syllable segmentation in mandarin speech recognition[J].Fire Control &Command Control,2004,29(6):94-96(in Chinese).[何新,王曉蘭,周獻中.漢語語音識別中的一種音節分割方法[J].火力與指揮控制,2004,29(6):94-96.]
[7]ZHAO L.Speech signal processing[M].Beijing:China Machine Press,2009:27-31(in Chinese).[趙力.語音信號處理[M].北京:機械工業出版社,2009:27-31.]
[8]Wacker M,Witte H.Adaptive phase extraction:Incorporating the Gabor transform in the matching pursuit algorithm[J].IEEE Transactions on Biomedical Engineering,2011,58(10):2844-2851.
[9]Guo P F,Wang X Z,Han Y S.The enhanced genetic algorithms for the optimization design[C].Yantai:3rd International Conference on Biomedical Engineering and Informatics,2010:2990-2994.
[10]Gao Q,Duan C D,Fang X B,et al.A study on matching pursuit based on genetic algorithm[C].Shanghai:Third International Conference on Measuring Technology and Mechatronics Automation,2011:283-286.