譜跟蹤和噪聲模型語音信號分析/合成方法*

2016-01-21 02:52:09李天偉李正友

通信技術(shù) 2015年7期

李天偉，李正友, 2，黃　謙，郭　姣

(1. 大連艦艇學院航海系，遼寧大連 116018；2. 69029部隊，新疆烏魯木齊 830011)

李天偉1，李正友1, 2，黃謙1，郭姣1

(1. 大連艦艇學院航海系，遼寧大連 116018；2. 69029部隊，新疆烏魯木齊 830011)

修回日期：2015-06-02Received date:2015-03-03；Revised date：2015-06-02

摘要：把語音信號分解為確定和隨機兩部分是非常典型的語音信號分析與合成方法。針對目前主流研究的諧波加噪聲模型(Harmonic plus Noise Model, HNM)和準諧波模型(Quasi-Harmonic Model, QHM)法等存在冗余大的問題，提出了一種基于譜跟蹤和噪聲模型的語音信號分析/合成方法。以音素為基本單元進行編解碼，用譜跟蹤法提取時變特征合成語音信號的確定部分，用AR模型合成語音信號的隨機部分。實驗發(fā)現(xiàn)，合成語音與原語音波形上比較接近，MOS分約為3.24，冗余也明顯減少。

關(guān)鍵詞：語音分析；語音合成；譜跟蹤；噪聲模型

0引言

語音信號的分析與合成是語音編碼的研究基礎(chǔ)。把信號分解為確定和隨機兩部分是一種非常典型的語音信號分析與合成方法[1-9]。通常情況下，確定性部分可以看成是一些正弦信號的和，表征語音的擬周期特征；隨機部分可以看成是受調(diào)制的隨機噪聲，表征語音的非周期特征[4-9]。1986年，McAulay和Quatieri提出了語音信號的廣義正弦分析與合成的概念[1]，隨后驗證了正弦編碼在低速率語音編碼中的可用性[2,3]。他們認為可以將語音信號看成是許多正弦信號的和，這些正弦信號的頻率、幅度和相位可以通過傅里葉變換來估計。隨后Stylianou等人提出了諧波加噪聲模型(Harmonic plus Noise Model, HNM)[4]，將語音分為兩個頻段：低頻段和高頻段。低頻段為確定部分，可以看成是與諧波相關(guān)的正弦信號的疊加；高頻段為隨機部分，可以看成是經(jīng)過濾波的有色噪聲。HNM模型的缺點是它采用非時變的正弦信號相加得到信號的確定部分。Pantazis等人繼承了HNM模型，提出了準諧波模型(Quasi-Harmonic Model, QHM)[5-7]，將確定部分表征為時變的正弦信號疊加。這些方法存在的問題是基于短時平穩(wěn)假設(shè)采用固定時間長度分幀，使同一音素被分為多個不同幀分別進行處理，導致冗余大的問題。本文提出了一種基于譜跟蹤加噪聲模型的語音信號分析與合成方法。首先對信號進行譜跟蹤，將信號分為濁音幀和清音幀。對于濁音幀可看成是確定部分和隨機部分的和。濁音的確定部分可以用譜跟蹤的譜線合成，濁音去除確定部分后剩余部分全部作為隨機部分，用AR噪聲模型合成。清音幀不含確定部分，經(jīng)譜跟蹤后也難以得到譜線，全部采用AR噪聲模型合成。這種方法以音素為基本單元進行編碼，把語音按時變信號處理，不但減少了冗余，還提高了質(zhì)量。

1譜跟蹤

濁語音具有豐富的諧波成分，這些占據(jù)了濁語音的主要能量，在語譜圖上表現(xiàn)為以基頻為間隔的均勻亮線。譜跟蹤(Spectral Tracking, ST)就是將語譜圖上的均勻亮線用一簇譜線代替。可以用這簇譜線所代表的頻率、幅度和相位，利用正弦模型合成語音信號的濁音部分。

譜跟蹤的計算步驟如下：

(1)分幀。此處對語音信號進行分幀，目的是提取代表語音諧波的譜線，編碼時還需要重新按音素進行分幀。分幀時，如果幀長過短則會降低譜線的頻率精度，如果幀長過長會使譜線不平滑，譜跟蹤時會漏掉一些重要譜線。可采用重疊分幀的方法來解決上述矛盾。一般幀長為20ms，重疊3/4。

(2)峰值檢測。峰值檢測的方法很多[10]，本文采用線性預測分析(Linear Prediction Analysis，LPA)和短時傅里葉變換(Short-Time Fourier Transform, STFT)相結(jié)合的方法，先進行LPA，將聲門激勵和聲道濾波器分離開，再通過LPA殘差信號的STFT，提取峰值頻率、幅度和相位。由于峰越多則算法越復雜，也越容易受到隨機噪聲干擾，一般僅取10～20個能量最大的峰。

(3)聯(lián)接譜峰。將相鄰幀中幅度和頻率相近的峰連接起來，得到一簇譜線。它可以看成是求解最優(yōu)問題，即尋找使兩幀譜峰之間的某種距離最小的連接。本文采用動態(tài)規(guī)整(Dynamic Programming，DP)的方法，即選擇一種映射關(guān)系γ，使得相鄰兩幀各峰之間的代價函數(shù)C(γ)最小[11,12]。

(4)篩選譜線。去除長度較短、能量較低的譜線，得到能夠代表諧波中主要成分的一簇譜線。

(5)重新計算譜線幅度。由于采用了3/4重疊窗進行分幀，實際幀長只有1/4，使譜線幅度產(chǎn)生了較大誤差。因此需要按照原幀長的1/4重新分幀，再根據(jù)譜線頻率，重新計算譜線幅度。

圖1(a)所示為漢語普通話“倒車”的時域波形圖。圖1(b)為該信號的語譜圖，圖中的亮線代表語音的諧波結(jié)構(gòu)。圖1(c)中的點為峰值檢測得到的譜峰，其中的線為譜跟蹤后得到的譜線。圖1(d)為譜線篩選后的剩余的譜線。對比圖1(b)和(d)可見，篩選后的譜線與語譜圖中能量較大(亮度大)的亮線相對應，代表了語音諧波中的主要成分。

(a)時域波形圖

(b)語譜圖

(c)譜跟蹤結(jié)果圖

(d)篩選后的譜線圖

2語音信號的分析與綜合方法

2.1確定部分的分析與合成

(1)

(2)

因此，公式(1)還可以表示成：

(3)

2.2隨機部分的分析與合成

隨機部分有兩種類型:一是清音;二是濁音的高頻部分。它們都可以看成是經(jīng)過頻率調(diào)制和時間調(diào)制的高斯白噪聲，頻率調(diào)制可以通過線性預測分析和AR模型來獲得，時間調(diào)制可以看成是時域的能量包絡(luò)。隨機部分的分析與合成模型為：

其中uG(n)為高斯白噪聲，h(n)為AR濾波器的沖擊響應函數(shù)，e(n)為時域能量包絡(luò)。

圖2　典型譜線的時間-幅度曲線圖

AR濾波器的傳遞函數(shù)為：

(5)

為了簡化算法，能量包絡(luò)可以用下式表示：

e(n)=E·w(n)

(6)

式中w(n)為窗函數(shù)，若隨機部分是清音，可選hamming窗，若隨機部分是濁音的高頻部分，可選矩形窗。E是能量系數(shù)，能保證合成語音與原隨機部分語音能量相等。能量系數(shù)E可用下式確定：

(7)

2.3清濁音分離

由于對清音和濁音采用了不同的分析與合成方法，在提取語音編碼參數(shù)之前，以音素為基本單元重新對語音信號進行分幀，將語音信號分為清音幀和濁音幀。濁音部分的分析與合成對象是譜線，譜線數(shù)目越多則攜帶的信息越多，所以可以用某時刻譜線的數(shù)目作為清濁音分離的標志。圖3所示為圖1信號的譜線數(shù)目信息，通過1個閾值，很容易將信號的清音和濁音分離開。

圖3　清濁音分離結(jié)果圖

3實驗分析

本文實驗中，設(shè)定采樣頻率為16 kHz，頻率范圍為8 kHz。以實際錄制的央視主播男女各5人的純凈語音構(gòu)成語音庫，每段語音約10分鐘。應用上述算法，對純凈語音進行處理。先進行譜跟蹤，將信號分為濁音幀和清音幀。再將濁音幀中的確定部分用若干譜線表示出來，將濁音幀中的隨機部分用AR模型表示，將清音幀作為隨機部分用AR模型表示。最后用譜線和AR模型分別合成語音信號的確定部分和隨機部分。圖4所示為一男性語音的分析合成結(jié)果。圖4(a)和圖4(b)所示分別為該原始語音和合成語音的波形圖。圖4(c)和圖4(d)分別為原始語音與合成語音的細節(jié)圖。從圖中可以看出，合成語音波形與原始語音波形比較接近。主觀聽辨方面，合成語音失真有察覺，MOS分約為3.24。

(a)原始語音時域波形圖

(b)合成語音時域波形圖

(c)原始語音細節(jié)圖

4結(jié)語

本文的譜跟蹤加噪聲模型是在HNM和QHM模型基礎(chǔ)上提出來的，與它們有兩個顯著區(qū)別：一是用譜跟蹤模型代替準諧波模型處理語音信號的確定部分；二是在編碼時，以音素為單位進行分幀代替固定時長分幀方法。本文算法的優(yōu)點是：一是按音素進行分幀降低了幀間冗余，消除幀間過渡不平滑帶來的噪聲；二是采用譜線擬合的方法，考慮了語音信號的時變性，使合成語音具有較高的自然度。本文算法的缺點是延時長，難以應用在即時語音通信系統(tǒng)中，僅能應用在數(shù)字語音錄放系統(tǒng)。

參考文獻：

[1]Robert J M, Thomas F Q. Speech Analysis/Synthesis based on a Sinusoidal Representation[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1986, 34(4):744-754.

[2]Robert J M, Thomas F Q. Computationally Efficient Sine-Wave Synthesis and Its Application to Sinusoidal Transform Coding [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1988:370-373.

[3]Kleijn W B, Paliwal K K. Speech Coding and Synthesis [M]. Amsterdam: Elsevier,1995:121-173.

[4]Yannis S, Laroche J, Moulines E. High-Quality Speech Modification based on a Harmonic + Noise Model[J]. Eurospeech,1995.

[5]Stylianou Y. Applying the Harmonic plus Noise Model in Concatenative Speech synthesis [J]. IEEE Transactions on Speech and Audio Processing,2011,9:21-29.

[6]Pantazis Y, Stylianou Y. Improving the Modeling of the Noise Part in the Harmonic plus Noise Model of Speech [J]. ICASSP, 2008:125-131.

[7]Yannis P, Georgious T, Olivierr, et al. Analysis/Synthesis of Speech based on an Adaptive Quasi-Harmonic plus Noise Model [J]. ICASSP, 2010: 4246-4249.

[8]Griffin D, Lim J. Multiband-Excitation Vocoder[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1998 (36): 236-243.

[9]龐亮, 陳亮, 張翼鵬. 改進的低時延語音增強算法[J]. 通信技術(shù), 2014, 47(11): 47-53.

PANG Liang, CHEN Liang, ZHANG Yi-Peng. Improved Low-Delay Speech Enhance Algorithm [J]. Communications Technology, 2014, 47(11): 47-53.

[10]唐艷, 王天馬, 陳楊等. 基于小波包變換的信號譜峰檢測算法[J]. 通信技術(shù), 2010, 43(08): 114-120.

TANG Yan, WANG Tian-ma, CHEN Yang, et al. Signal Peak Identification Using Wavelet Packet Transform[J]. Communications Technology,2010,43(08):114-120.

[11]Toru T, Mikio T, Katsuhiko S. Detection of Speech and Music based on Spectral Tracking [J]. Speech Communication, 2008(50): 547-563.

[12]Jalil S, Shahrokh G. Improvement to Speech-Music Discrimination Using Sinusoidal Modal based Features [J]. Multimedia Tools, 2010(50):415-435.

[13]Rkhoul J. Linear Prediction: A Tutorial Review [J]. Proceedings of the IEEE, 1975,4(63): 561-580.

李天偉(1963—)，男，博士，教授，主要研究方向為航海保障；

李正友(1978—)，男，博士研究生，工程師，主要研究方向為聲學在航海保障中的應用；

黃謙(1980—)，男，博士，講師，主要研究方向為混沌控制在航海中的應用；

郭姣(1978—)，女，博士，講師，主要研究方向為航海信息保障。

Speech Signal Analysis/Synthesis Method of Spectral

Tracking and Noise Model

LI Tian-wei1, LI Zheng-you1,2, HUANG Qian1,GUO Jiao1

(1.Department ofNavigation, Dalian Naval Academy, Dalian Liaoning 116018,China;

2.Unit 69029 of PLA, Urumqi Xinjiang 830011, China)

Abstract：Decomposition of speech signal into deterministic part and stochastic part is a typical method for speech analysis and synthesis. Aiming at the redundancy of current mainstream methods, such as HNM (Harmonic plus Noise Model) and QHM (Quasi-Harmonic Model), a novel speech analysis/synthesis method based on spectral tracking and noise model is proposed. The basic coding units are phonemes, and the deterministic part of speech signal is synthesized via time-varying characteristics extracted by spectral tracking method, and the stochastic part of speech signal is synthesized by AR model. Experiments show that the reconstructed signal is quite close to the original, and the MOS is 3.24, with obvious reduction of redundancy.

Key words：speech analysis; speech synthesis; spectral tracking; noise model

作者簡介：

中圖分類號：

文獻標志碼：A

文章編號：1002-0802(2015)01-0803-05

收稿日期：*2015-03-03；

doi:10.3969/j.issn.1002-0802.2015.01.011

通信技術(shù)2015年7期

通信技術(shù)的其它文章: WSN中引入移動節(jié)點的路由協(xié)議設(shè)計與仿真*; 一種新型的在瑞利信道下盲檢測器設(shè)計*; 一種基于混沌振子的DSSS信號盲檢測方法*; 疊加訓練序列設(shè)計及其高效傳輸技術(shù)研究*; 基于票據(jù)的車聯(lián)網(wǎng)安全和隱私保護方案*; 車聯(lián)網(wǎng)WAVE協(xié)議研究*