999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

譜跟蹤和噪聲模型語音信號分析/合成方法*

2016-01-21 02:52:09李天偉李正友
通信技術(shù) 2015年7期

李天偉,李正友, 2,黃 謙,郭 姣

(1. 大連艦艇學院 航海系,遼寧 大連 116018;2. 69029部隊,新疆 烏魯木齊 830011)

?

譜跟蹤和噪聲模型語音信號分析/合成方法*

李天偉1,李正友1, 2,黃謙1,郭姣1

(1. 大連艦艇學院 航海系,遼寧 大連 116018;2. 69029部隊,新疆 烏魯木齊 830011)

修回日期:2015-06-02Received date:2015-03-03;Revised date:2015-06-02

摘要:把語音信號分解為確定和隨機兩部分是非常典型的語音信號分析與合成方法。針對目前主流研究的諧波加噪聲模型(Harmonic plus Noise Model, HNM)和準諧波模型(Quasi-Harmonic Model, QHM)法等存在冗余大的問題,提出了一種基于譜跟蹤和噪聲模型的語音信號分析/合成方法。以音素為基本單元進行編解碼,用譜跟蹤法提取時變特征合成語音信號的確定部分,用AR模型合成語音信號的隨機部分。實驗發(fā)現(xiàn),合成語音與原語音波形上比較接近,MOS分約為3.24,冗余也明顯減少。

關(guān)鍵詞:語音分析;語音合成;譜跟蹤;噪聲模型

0引言

語音信號的分析與合成是語音編碼的研究基礎(chǔ)。把信號分解為確定和隨機兩部分是一種非常典型的語音信號分析與合成方法[1-9]。通常情況下,確定性部分可以看成是一些正弦信號的和,表征語音的擬周期特征;隨機部分可以看成是受調(diào)制的隨機噪聲,表征語音的非周期特征[4-9]。1986年,McAulay和Quatieri提出了語音信號的廣義正弦分析與合成的概念[1],隨后驗證了正弦編碼在低速率語音編碼中的可用性[2,3]。他們認為可以將語音信號看成是許多正弦信號的和,這些正弦信號的頻率、幅度和相位可以通過傅里葉變換來估計。隨后Stylianou等人提出了諧波加噪聲模型(Harmonic plus Noise Model, HNM)[4],將語音分為兩個頻段:低頻段和高頻段。低頻段為確定部分,可以看成是與諧波相關(guān)的正弦信號的疊加;高頻段為隨機部分,可以看成是經(jīng)過濾波的有色噪聲。HNM模型的缺點是它采用非時變的正弦信號相加得到信號的確定部分。Pantazis等人繼承了HNM模型,提出了準諧波模型(Quasi-Harmonic Model, QHM)[5-7],將確定部分表征為時變的正弦信號疊加。這些方法存在的問題是基于短時平穩(wěn)假設(shè)采用固定時間長度分幀,使同一音素被分為多個不同幀分別進行處理,導致冗余大的問題。本文提出了一種基于譜跟蹤加噪聲模型的語音信號分析與合成方法。首先對信號進行譜跟蹤,將信號分為濁音幀和清音幀。對于濁音幀可看成是確定部分和隨機部分的和。濁音的確定部分可以用譜跟蹤的譜線合成,濁音去除確定部分后剩余部分全部作為隨機部分,用AR噪聲模型合成。清音幀不含確定部分,經(jīng)譜跟蹤后也難以得到譜線,全部采用AR噪聲模型合成。這種方法以音素為基本單元進行編碼,把語音按時變信號處理,不但減少了冗余,還提高了質(zhì)量。

1譜跟蹤

濁語音具有豐富的諧波成分,這些占據(jù)了濁語音的主要能量,在語譜圖上表現(xiàn)為以基頻為間隔的均勻亮線。譜跟蹤(Spectral Tracking, ST)就是將語譜圖上的均勻亮線用一簇譜線代替。可以用這簇譜線所代表的頻率、幅度和相位,利用正弦模型合成語音信號的濁音部分。

譜跟蹤的計算步驟如下:

(1)分幀。此處對語音信號進行分幀,目的是提取代表語音諧波的譜線,編碼時還需要重新按音素進行分幀。分幀時,如果幀長過短則會降低譜線的頻率精度,如果幀長過長會使譜線不平滑,譜跟蹤時會漏掉一些重要譜線。可采用重疊分幀的方法來解決上述矛盾。一般幀長為20ms,重疊3/4。

(2)峰值檢測。峰值檢測的方法很多[10],本文采用線性預測分析(Linear Prediction Analysis,LPA)和短時傅里葉變換(Short-Time Fourier Transform, STFT)相結(jié)合的方法,先進行LPA,將聲門激勵和聲道濾波器分離開,再通過LPA殘差信號的STFT,提取峰值頻率、幅度和相位。由于峰越多則算法越復雜,也越容易受到隨機噪聲干擾,一般僅取10~20個能量最大的峰。

(3)聯(lián)接譜峰。將相鄰幀中幅度和頻率相近的峰連接起來,得到一簇譜線。它可以看成是求解最優(yōu)問題,即尋找使兩幀譜峰之間的某種距離最小的連接。本文采用動態(tài)規(guī)整(Dynamic Programming,DP)的方法,即選擇一種映射關(guān)系γ,使得相鄰兩幀各峰之間的代價函數(shù)C(γ)最小[11,12]。

(4)篩選譜線。去除長度較短、能量較低的譜線,得到能夠代表諧波中主要成分的一簇譜線。

(5)重新計算譜線幅度。由于采用了3/4重疊窗進行分幀,實際幀長只有1/4,使譜線幅度產(chǎn)生了較大誤差。因此需要按照原幀長的1/4重新分幀,再根據(jù)譜線頻率,重新計算譜線幅度。

圖1(a)所示為漢語普通話“倒車”的時域波形圖。圖1(b)為該信號的語譜圖,圖中的亮線代表語音的諧波結(jié)構(gòu)。圖1(c)中的點為峰值檢測得到的譜峰,其中的線為譜跟蹤后得到的譜線。圖1(d)為譜線篩選后的剩余的譜線。對比圖1(b)和(d)可見,篩選后的譜線與語譜圖中能量較大(亮度大)的亮線相對應,代表了語音諧波中的主要成分。

(a)時域波形圖

(b)語譜圖

(c)譜跟蹤結(jié)果圖

(d)篩選后的譜線圖

2語音信號的分析與綜合方法

2.1確定部分的分析與合成

(1)

(2)

因此,公式(1)還可以表示成:

(3)

2.2隨機部分的分析與合成

隨機部分有兩種類型:一是清音;二是濁音的高頻部分。它們都可以看成是經(jīng)過頻率調(diào)制和時間調(diào)制的高斯白噪聲,頻率調(diào)制可以通過線性預測分析和AR模型來獲得,時間調(diào)制可以看成是時域的能量包絡(luò)。隨機部分的分析與合成模型為:

其中uG(n)為高斯白噪聲,h(n)為AR濾波器的沖擊響應函數(shù),e(n)為時域能量包絡(luò)。

圖2 典型譜線的時間-幅度曲線圖

AR濾波器的傳遞函數(shù)為:

(5)

為了簡化算法,能量包絡(luò)可以用下式表示:

e(n)=E·w(n)

(6)

式中w(n)為窗函數(shù),若隨機部分是清音,可選hamming窗,若隨機部分是濁音的高頻部分,可選矩形窗。E是能量系數(shù),能保證合成語音與原隨機部分語音能量相等。能量系數(shù)E可用下式確定:

(7)

2.3清濁音分離

由于對清音和濁音采用了不同的分析與合成方法,在提取語音編碼參數(shù)之前,以音素為基本單元重新對語音信號進行分幀,將語音信號分為清音幀和濁音幀。濁音部分的分析與合成對象是譜線,譜線數(shù)目越多則攜帶的信息越多,所以可以用某時刻譜線的數(shù)目作為清濁音分離的標志。圖3所示為圖1信號的譜線數(shù)目信息,通過1個閾值,很容易將信號的清音和濁音分離開。

圖3 清濁音分離結(jié)果圖

3實驗分析

本文實驗中,設(shè)定采樣頻率為16 kHz,頻率范圍為8 kHz。以實際錄制的央視主播男女各5人的純凈語音構(gòu)成語音庫,每段語音約10分鐘。應用上述算法,對純凈語音進行處理。先進行譜跟蹤,將信號分為濁音幀和清音幀。再將濁音幀中的確定部分用若干譜線表示出來,將濁音幀中的隨機部分用AR模型表示,將清音幀作為隨機部分用AR模型表示。最后用譜線和AR模型分別合成語音信號的確定部分和隨機部分。圖4所示為一男性語音的分析合成結(jié)果。圖4(a)和圖4(b)所示分別為該原始語音和合成語音的波形圖。圖4(c)和圖4(d)分別為原始語音與合成語音的細節(jié)圖。從圖中可以看出,合成語音波形與原始語音波形比較接近。主觀聽辨方面,合成語音失真有察覺,MOS分約為3.24。

(a)原始語音時域波形圖

(b)合成語音時域波形圖

(c)原始語音細節(jié)圖

4結(jié)語

本文的譜跟蹤加噪聲模型是在HNM和QHM模型基礎(chǔ)上提出來的,與它們有兩個顯著區(qū)別:一是用譜跟蹤模型代替準諧波模型處理語音信號的確定部分;二是在編碼時,以音素為單位進行分幀代替固定時長分幀方法。本文算法的優(yōu)點是:一是按音素進行分幀降低了幀間冗余,消除幀間過渡不平滑帶來的噪聲;二是采用譜線擬合的方法,考慮了語音信號的時變性,使合成語音具有較高的自然度。本文算法的缺點是延時長,難以應用在即時語音通信系統(tǒng)中,僅能應用在數(shù)字語音錄放系統(tǒng)。

參考文獻:

[1]Robert J M, Thomas F Q. Speech Analysis/Synthesis based on a Sinusoidal Representation[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1986, 34(4):744-754.

[2]Robert J M, Thomas F Q. Computationally Efficient Sine-Wave Synthesis and Its Application to Sinusoidal Transform Coding [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1988:370-373.

[3]Kleijn W B, Paliwal K K. Speech Coding and Synthesis [M]. Amsterdam: Elsevier,1995:121-173.

[4]Yannis S, Laroche J, Moulines E. High-Quality Speech Modification based on a Harmonic + Noise Model[J]. Eurospeech,1995.

[5]Stylianou Y. Applying the Harmonic plus Noise Model in Concatenative Speech synthesis [J]. IEEE Transactions on Speech and Audio Processing,2011,9:21-29.

[6]Pantazis Y, Stylianou Y. Improving the Modeling of the Noise Part in the Harmonic plus Noise Model of Speech [J]. ICASSP, 2008:125-131.

[7]Yannis P, Georgious T, Olivierr, et al. Analysis/Synthesis of Speech based on an Adaptive Quasi-Harmonic plus Noise Model [J]. ICASSP, 2010: 4246-4249.

[8]Griffin D, Lim J. Multiband-Excitation Vocoder[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1998 (36): 236-243.

[9]龐亮, 陳亮, 張翼鵬. 改進的低時延語音增強算法[J]. 通信技術(shù), 2014, 47(11): 47-53.

PANG Liang, CHEN Liang, ZHANG Yi-Peng. Improved Low-Delay Speech Enhance Algorithm [J]. Communications Technology, 2014, 47(11): 47-53.

[10]唐艷, 王天馬, 陳楊等. 基于小波包變換的信號譜峰檢測算法[J]. 通信技術(shù), 2010, 43(08): 114-120.

TANG Yan, WANG Tian-ma, CHEN Yang, et al. Signal Peak Identification Using Wavelet Packet Transform[J]. Communications Technology,2010,43(08):114-120.

[11]Toru T, Mikio T, Katsuhiko S. Detection of Speech and Music based on Spectral Tracking [J]. Speech Communication, 2008(50): 547-563.

[12]Jalil S, Shahrokh G. Improvement to Speech-Music Discrimination Using Sinusoidal Modal based Features [J]. Multimedia Tools, 2010(50):415-435.

[13]Rkhoul J. Linear Prediction: A Tutorial Review [J]. Proceedings of the IEEE, 1975,4(63): 561-580.

李天偉(1963—),男,博士,教授,主要研究方向為航海保障;

李正友(1978—),男,博士研究生,工程師,主要研究方向為聲學在航海保障中的應用;

黃謙(1980—),男,博士,講師,主要研究方向為混沌控制在航海中的應用;

郭姣(1978—),女,博士,講師,主要研究方向為航海信息保障。

Speech Signal Analysis/Synthesis Method of Spectral

Tracking and Noise Model

LI Tian-wei1, LI Zheng-you1,2, HUANG Qian1,GUO Jiao1

(1.Department ofNavigation, Dalian Naval Academy, Dalian Liaoning 116018,China;

2.Unit 69029 of PLA, Urumqi Xinjiang 830011, China)

Abstract:Decomposition of speech signal into deterministic part and stochastic part is a typical method for speech analysis and synthesis. Aiming at the redundancy of current mainstream methods, such as HNM (Harmonic plus Noise Model) and QHM (Quasi-Harmonic Model), a novel speech analysis/synthesis method based on spectral tracking and noise model is proposed. The basic coding units are phonemes, and the deterministic part of speech signal is synthesized via time-varying characteristics extracted by spectral tracking method, and the stochastic part of speech signal is synthesized by AR model. Experiments show that the reconstructed signal is quite close to the original, and the MOS is 3.24, with obvious reduction of redundancy.

Key words:speech analysis; speech synthesis; spectral tracking; noise model

作者簡介:

中圖分類號:

文獻標志碼:A

文章編號:1002-0802(2015)01-0803-05

收稿日期:*2015-03-03;

doi:10.3969/j.issn.1002-0802.2015.01.011

主站蜘蛛池模板: 免费a级毛片18以上观看精品| 色婷婷国产精品视频| 亚洲91在线精品| 无码又爽又刺激的高潮视频| 久久熟女AV| 国产在线视频福利资源站| 精品精品国产高清A毛片| 欧美精品H在线播放| 在线免费观看AV| 日韩av无码精品专区| 91福利国产成人精品导航| 在线观看免费人成视频色快速| 国产91视频免费观看| 久久永久精品免费视频| 久久国产黑丝袜视频| 欧美中出一区二区| 在线观看免费人成视频色快速| 欧美亚洲国产日韩电影在线| 亚洲欧洲日韩综合| 国产理论精品| 这里只有精品免费视频| 成人在线观看一区| 精品国产Ⅴ无码大片在线观看81| 国产福利在线免费| 九九视频在线免费观看| 伊人激情久久综合中文字幕| a天堂视频| 蝴蝶伊人久久中文娱乐网| 全部免费特黄特色大片视频| 国产激情无码一区二区APP| 3344在线观看无码| 欧美不卡二区| 成人午夜在线播放| 欧美视频在线观看第一页| 91精品国产丝袜| av无码久久精品| 亚洲青涩在线| 麻豆精品视频在线原创| 国产AV毛片| 四虎国产永久在线观看| 亚洲永久免费网站| 58av国产精品| 国产99精品视频| 国产电话自拍伊人| 18禁色诱爆乳网站| 国产h视频免费观看| 原味小视频在线www国产| 国产一区在线视频观看| 国内精品久久久久久久久久影视 | 毛片在线播放a| 亚洲精品无码抽插日韩| 日日拍夜夜操| 国产精品微拍| 亚洲综合极品香蕉久久网| 亚洲成人动漫在线观看| 91色在线观看| 国产精品自拍露脸视频 | 久久77777| 国产喷水视频| 无码国产伊人| 亚洲精品午夜天堂网页| 99999久久久久久亚洲| 色老头综合网| 亚洲人成网站在线观看播放不卡| 国产精品19p| 国产亚洲欧美在线中文bt天堂 | 亚洲天堂视频网站| 日本午夜三级| 亚洲高清无码精品| 亚洲无线一二三四区男男| 在线播放国产99re| 欧美日韩国产综合视频在线观看| 国产区精品高清在线观看| 亚洲精品不卡午夜精品| 国产亚洲日韩av在线| 亚洲色图欧美视频| 国产肉感大码AV无码| 中文字幕中文字字幕码一二区| 日韩久久精品无码aV| 日韩欧美国产中文| 真人高潮娇喘嗯啊在线观看| 欧美啪啪精品|