999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于SVM的多特征參數清濁音判決算法

2016-09-13 09:13:15李克靖孫鳳梅石喬林
電子設計工程 2016年5期

李克靖,孫鳳梅,石喬林

(中國電子科技集團公司 第五十八研究所,江蘇 無錫 214035)

一種基于SVM的多特征參數清濁音判決算法

李克靖,孫鳳梅,石喬林

(中國電子科技集團公司 第五十八研究所,江蘇 無錫214035)

為解決低速率聲碼器合成語音中,由于語音幀清濁判決不夠準確而造成的偶發性嘶啞、機器音較重及變調等問題,提出一種基于支持向量機(Support Vector Machine,SVM)并結合多種語音特征參數的清濁音判決優化算法。實驗結果顯示,該算法能夠有效降低清濁音的誤判率,進而使合成語音的清晰度和自然度得到改善。將本算法應用到正弦激勵線性預測算法中,在與相同碼率的其他算法的比較實驗中,得到較高的PESQ-MOS分,顯示出一定的優勢。關鍵詞:聲碼器;清濁判決;支持向量機;特征參數

隨著數字技術的發展,語音壓縮編碼技術在通信領域的應用越來越深入和廣泛,同時,編碼速率也在不斷向低速化發展。然而,一些碼率下的語音編碼算法盡管已經具有良好的性能,但其合成語音多數面臨著機器音較重、偶發性嘶啞及變調等問題。究其原因,主要在于清濁音判決不夠準確以及基音周期的倍/半頻錯誤。因此,可通過提高參數提取的精度來得到更高質量的合成語音。

清濁音判決是語音編碼中的一個重要參數,常常關系到語音合成時所用激勵的形式,對合成語音的質量有較大的影響。傳統方法是通過提取語音幀的某些特征參數,然后進行線性處理并根據預定閾值來進行判斷,閾值一般依靠經驗來確定,其中較為經典的算法所使用的分類技術是一個貝葉斯決策過程[1],該方法簡單、容易實現,然而無法保證判斷結果的可靠性;隨著人工智能技術的發展,許多學者將它引入到語音編碼領域中,文獻[2]介紹了一種應用不同特征參數和神經網絡結構的判別方法,但是傳統的人工神經網絡(如BP神經網絡)方法存在著訓練速度慢、容易陷入局部極小值點等缺陷,而且這種經驗非線性方法在網絡結構的選擇以及權重初值的設定方面往往需要依靠人工經驗,缺乏統一的數學理論基礎;文獻[3]應用監督學習中的Fisher判決法,通過高維空間向一維空間投影,進而在一維空間進行判決,簡化了分類界面的求取,提高了判決的準確度,然而,依然沒有擺脫需要人工確定判決門限所帶來的誤差。

1 基于貝葉斯準則的清濁音判決

從本質上講,清濁音判決是一個模式識別的問題,其目標是根據樣本選取合適的參數得到最優劃分,降低清濁音誤判率。

1.1貝葉斯最小風險判決準則

傳統清濁音判決方法一般采用最大短時自相關值作為語音特征值,通過貝葉斯最小風險判決準則,試圖找到一個最佳判決閾值,使代價函數(1)的值達到最小[4]。

其中,r為最大短時自相關值,L1和L2分別表示清音誤判為濁音和濁音誤判為清音的代價因子,p1和p2分別為清音誤判和濁音誤判的概率,p(U)和p(V)則分別代表清音和濁音出現的概率。一般在聲碼器中,濁音誤判為清音對合成語音質量帶來的負面影響遠遠大于濁音誤判為清音,因此代價因子L1<<L2。為使代價函數最小,常常需要犧牲清音判決的準確度來降低濁音誤判率,實際應用中一般取0.6為閾值。

1.2貝葉斯準則誤判分析

利用貝葉斯準則進行清濁音判決時,存在大量清音的誤判,從而使合成語音濁音度過強、機器音較重,嚴重影響語音的自然度,并在一定程度上影響發音的清晰度,甚至造成部分語音變調。

另外,當靜音段存在規律性的背景噪聲時,會有較大的自相關值,極易被誤判為濁音。基于貝葉斯準則的判決算法僅以最大自相關值為判據,數據量小,誤判率高,需要引入其它語音特征參數以提高判決準確度。

2 基于SVM的清濁音判決

支持向量機是一種典型的監督學習方法,在小樣本、非線性和高維模式識別中有著許多特有的優勢[5]。本文算法利用帶有清濁音標記的語音樣本結合多個特征參數訓練得到SVM分類器,然后以待分類語音幀的特征參數向量作為判據,通過分類器得到分類標簽,實現語音幀的清濁判決。

2.1SVM原理簡述

支持向量機最早是由Vapnik在1995年提出的,與傳統分類器相比,該方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,能夠根據有限的樣本信息在模型學習能力和復雜性之間尋求最佳折衷。

假設有n個維訓練樣本(x1,y1),…,(xn,yn),xi∈Rk,yi∈{-1,1}是分類標簽,SVM的目標是尋找一個間隔最大的最優超平面,即存在w和b組成超平面wTx+b=0可以將所有訓練數據無錯誤地分開:

且離超平面最近的向量與超平面之間的間隔是所有可能情況中最大的。其中,使等號成立的那些樣本就是支持向量(Supporting Vector)。

實際分類問題中往往不是線性可分的,這時可引入松弛變量ξi,通過求解以下優化問題得到超平面的參數w和b:

其中C>0為懲罰因子,它表示對錯分樣本的懲罰程度,C值越大表示對錯誤分類的懲罰越大。引入松弛變量用以實現最大分類間隔和最少錯分樣本之間的折衷,從而得到廣義的最優分類面。

對線性不可分的問題,可以考慮通過某種非線性映射把訓練數據映射到高維特征空間,然后利用支持向量在此空間中構造出分類超平面,用線性判別函數實現原始空間中的非線性判別函數。引入核函數后分類器的決策函數為:

進行SVM訓練時,常常遇到樣本數目不均衡的情況,此時,得到的分類面會偏向樣本數較少的一類。這是由于在式(4)中使用了相同的懲罰因子C,從而使分類面偏向樣本密度較小的一類。可以考慮對不同的類設置不同的懲罰因子C,這樣能夠有效地根據不同類別的錯分代價進行超平面的優化,即構造如下二次規劃問題[6]:

其中C+和C-分別為正樣本和負樣本的懲罰因子。

可以看出,支持向量機是將輸入的樣本空間升維,從而使原問題在高維空間中線性可分或接近線性可分。該方法之所以可行是因為空間升維后的算法復雜度并不隨維數的增加而增加,同時,在高維空間中的推廣能力也不受維數的影響,很好地避免了“維數災難”的問題。

2.2語音特征參數選取

選取語音特征參數的原則是:參數要對不同模式的分類可靠有效,提取簡單,參數的取值范圍在各類別中的重疊較少,各參數可以從不同角度描述樣本的特性,以提高分類的準確度。

文中算法采用最大自相關值(r)、過零率(z)、短時幀能量(e)和譜傾斜度(t)等4個特征參數作為判據,其定義如下[7]:

其中,s(i)為經過濾波后的語音信號,N為每幀樣點數。4個參數組成特征向量X=(r,z,e,t)。

圖1給出了一段語音“天安門廣場”中前3個參數的變化與語音波形的對比圖,可以較為明顯地看出呈現如下規律:濁音段有較大的最大自相關值和短時幀能量,以及較小的過零率;清音段的最大自相關值和短時幀能量較小,而過零率較大。另外譜傾斜度與語音波形之間的聯系雖然不是較為直觀,但是作為一個重要的語音特征參數,可以在一定程度上提高訓練所得分類器的分類準確度,實驗過程中也證明了這一點。

2.3實驗結果與分析

算法實驗所用語音文件選自中國科學院聲學研究所語音數據庫,均為PCM格式,采樣率8 000 Hz,16 bit。訓練樣本發音人為兩男兩女,幀長為25 ms,即200個樣點。訓練樣本共有2 500幀,其中清音約占55%,濁音45%。訓練樣本的清濁音分類是通過觀察語音幀時域波形、頻域頻譜特性并結合其實際對應的音素綜合判定的。圖2所示為“中”字的聲母、韻母的部分波形,由于濁音具有明顯的周期性且振幅較大,而清音波形類似于白噪聲,振幅很小,沒有明顯的周期性,根據各幀波形及所屬音素可以相當準確地判定其清濁類別。

圖1 部分參數變化與語音波形對比圖Fig.1 Change of some parameters compared with sound wave

圖2 典型清濁音波形示意圖Fig.2 Wave of typical voiced/unvoiced sound

首先進行算法判決的準確性測試,測試樣本來自DVSI網站公布的原始語音,包括男聲、女聲和男女混聲,共計2 000幀,由39%的濁音和61%的清音組成。同時對傳統貝葉斯判決及文獻[3]中Fisher判決方法進行了測試,實驗結果如表1所示,可以看出本文算法的判決準確度明顯高于其他兩種算法,且對合成語音影響較大的濁音誤判也保持有比較理想的比例。

將本文算法應用到正弦激勵線性預測(SELP)編解碼算法中進行測試,同時實現了美國政府標準MELPe算法以及傳統的使用貝葉斯判決的SELP_B算法,各算法碼率均為2.4 kb/s。對測試樣本中部分語音文件進行測試,包括Female、Male和 Mix 3個文件。測試指標為平均意見得分(Mean Opinion Score,MOS),采用國際電信聯盟(International Telecommunication Union,ITU)建議的P.862 MOS分測試軟件,測試結果見表2。可見使用本文清濁音判決算法后,SELP編解碼算法合成語音的PESQ-MOS分有一定的提高;另外,從安排多人進行試聽的反映來看,由于清濁音誤判而造成的偶發性嘶啞和變調問題相對于其他算法也有一定程度的改善,進一步證明了本文算法的有效性。

表1 算法誤判率比較Tab.1 Justice error of the algorithms

表2 算法PESQ-MOS分比較Tab.2 PESQ-MOS score of the algorithms

同時,筆者還將本文算法應用到其他碼率(1200、600、300 bps)的SELP聲碼器中,所得合成語音的PESQ-MOS分相對于原對應碼率的合成語音均有一定程度的提高。

3 結 論

本文將機器學習中支持向量機的方法應用于語音編解碼中清濁音的判決,與傳統方法相比,避免了人工設定經驗閾值的局限性,且能夠通過較小的訓練樣本集獲得相當好的分類性能,提高了清濁音判決的可靠性。將其應用于SELP聲碼器中,對后續基音周期參數提取的準確度也有一定的提高,進而有效改善了合成語音的偶發性嘶啞和變調問題,提高了其PESQ-MOS分,同時,具有相當好的可懂度和自然度。

[1]Atal B,Rabiner L.A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1976,24(3):201-212.

[2]Qi Y,Hunt B R.Voiced-unvoiced-silence classification of speech using hybrid features and a network classifier[J]. IEEE Transactions on Speech and Audio Processing,1993,1(2):250-255.

[3]黨曉妍,魏旋.聲碼器清濁音判決算法優化[J].清華大學學報,2008,48(7):1119-1122.

[4]Theodoridis S,Koutroumbas K.Pattern Recognition[M]. Beijing:Publishing House of Electronic Industry,2006.

[5]Vapnik Vladimir N.The Nature of Statistical Learning Theory[M].Berlin Heidelberg,New York:Springer2Verlag,2000.

[6]Veropoulos K,Cambell C,Cristianini N.Controlling the sensitivity of support vector machines[C].Proceedings of the International Joint Conference on AI,1999:55-60.

[7]計哲,李曄,崔慧娟.SELP聲碼器基音周期參數量化合成改進算法[J].高技術通訊,2010,20(1):45-48.

Voiced-unvoiced classification based on SVM and multi-parameter

LI Ke-jing,SUN Feng-mei,SHI Qiao-lin
(China Electronic Technlogy Group Corporation No.58 Research Institute,Wuxi 214035,China)

The composed voice of low bit rate vocoders usually have occasionally hoarseness,out-of-tone speech,caused by the low veracity of voiced-unvoiced classification.To solve the problem,a new improved algorithm based on Support Vector Machine combined with several characteristic parameters is proposed.Experimental results show that the algorithm greatly reduces the voiced-unvoiced classification error rate,and enhances the articulation and spontaneousness of the composed voices.Use this method in SELP(sinuous excitation linear prediction)vocoder,compared with other method with same bit rate,it has higher PESQ-MOS score,which shows its advantage.

vocoders;voiced-unvoiced classification;support vector machine;characteristic parameters

TN 912.32

A

1674-6236(2016)05-0184-03

2015-04-20稿件編號:201504217

李克靖(1989—),男,安徽太和人,碩士。研究方向:語音壓縮編解碼。

主站蜘蛛池模板: 亚洲一区国色天香| 国产亚洲精久久久久久久91| 日本在线亚洲| 成人在线天堂| 国产亚洲精品yxsp| 伊人婷婷色香五月综合缴缴情| 中文字幕乱妇无码AV在线| 久久亚洲日本不卡一区二区| 精品少妇人妻av无码久久| 91精品综合| 伊人天堂网| 日韩av在线直播| 99精品国产自在现线观看| 91青青草视频| 老司机久久99久久精品播放 | 成年人午夜免费视频| 国产精品lululu在线观看| 国产欧美日韩专区发布| 久久成人国产精品免费软件| 2024av在线无码中文最新| 亚州AV秘 一区二区三区| 无码专区在线观看| 国产综合无码一区二区色蜜蜜| 一本大道无码日韩精品影视| 91青草视频| 久久久精品无码一区二区三区| 播五月综合| 免费一级成人毛片| 国内精品伊人久久久久7777人| 在线视频精品一区| 91久久偷偷做嫩草影院精品| 青草视频网站在线观看| 国产亚洲欧美在线视频| 色老头综合网| 97精品伊人久久大香线蕉| 91精品专区国产盗摄| 国产精品99一区不卡| 久久久久人妻一区精品色奶水| 911亚洲精品| 欧美亚洲欧美区| 日韩精品一区二区三区中文无码 | 亚洲成肉网| 中文字幕亚洲综久久2021| 亚洲成人高清无码| 亚洲国产精品无码AV| 欧亚日韩Av| av在线手机播放| 国产无码网站在线观看| 色九九视频| 欧美日韩一区二区在线免费观看| 浮力影院国产第一页| 91福利一区二区三区| 嫩草影院在线观看精品视频| 国产精品久久久精品三级| 国产在线一区视频| 国产女人爽到高潮的免费视频| 波多野结衣亚洲一区| 极品国产一区二区三区| 日本手机在线视频| 制服丝袜国产精品| 久久a毛片| 日本爱爱精品一区二区| 女同国产精品一区二区| 亚洲日本韩在线观看| 免费一级毛片在线观看| 黄色a一级视频| 中文字幕伦视频| 粉嫩国产白浆在线观看| 国产丝袜无码精品| 亚洲高清中文字幕| 操美女免费网站| 玩两个丰满老熟女久久网| 青青操视频在线| 亚洲精品日产精品乱码不卡| 在线日韩日本国产亚洲| 18黑白丝水手服自慰喷水网站| 中文字幕波多野不卡一区| igao国产精品| 小说区 亚洲 自拍 另类| 欧美成人免费一区在线播放| 久草热视频在线| 国产视频一区二区在线观看 |