999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粒子群優化徑向基函數網絡的語音轉換

2017-06-05 14:15:40董添輝張玲華
計算機技術與發展 2017年5期
關鍵詞:優化

董添輝,張玲華

(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.江蘇省通信與網絡技術工程研究中心,江蘇 南京 210003)

粒子群優化徑向基函數網絡的語音轉換

董添輝1,張玲華2

(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.江蘇省通信與網絡技術工程研究中心,江蘇 南京 210003)

徑向基函數神經網絡具有結構簡單和學習速度快等特點,因此常被用作語音轉換的模型。隱層核函數的中心是影響徑向基函數神經網絡性能的重要參數,而傳統的K-均值聚類算法受初值影響大,全局優化的效果不佳。所以,選擇合適的優化算法來調整RBF網絡核函數的中心參數,能改善整個網絡的性能,從而提升語音轉換的效果。而粒子群算法是一種基于迭代的優化算法,具有容易實現、算法參數少、收斂快和突出的全局尋優能力等特點。提出了一種改進的粒子群算法,優化了徑向基函數的中心以提高網絡性能,便于更準確地獲得說話人與目標人之間譜包絡的映射關系。實驗結果表明,提出的方法能夠有效提高神經網絡的性能,使轉換后的聲音更接近于目標聲音。

語音轉換;徑向基函數中心;改進的粒子群算法;徑向基函數神經網絡

0 引 言

語音轉換技術是指在不改變說話內容的前提下,轉化源說話人聲音的個性特征,使轉換的語音更接近目標人。語音轉換分為訓練階段和轉換階段。在訓練階段,通過模型對源說話人和目標說話人進行訓練,得出相應的轉換規則。在轉換階段,先提取源語音的個性特征,再根據訓練階段得到的轉換規則進行轉化,得到目標語音[1-2]。

常用的語音轉換模型包括矢量量化法(Vector Quantization,VQ)、高斯混合模型(Gaussian Mixture Model,GMM)、人工神經網絡(Artificial Neural Network,ANN)等[3]。徑向基網絡作為一種簡單的人工神經網絡,具有計算量少、結果簡單、學習速度快以及逼近任何非線性函數等特點[4]。重點研究人工神經網絡在語音轉換中的應用。

RBF神經網絡是一個類似于遺傳網絡的三層前饋型神經網絡,該網絡有三個非常重要的參數:隱層核函數的中心和寬度以及隱層到輸出層的連接權值。針對徑向基函數神經網絡的核函數參數經傳統K-均值聚類算法訓練存在收斂速度慢、易陷入局部最優、泛化性能不佳等問題,引入改進的粒子群優化算法(ParticleSwarmOptimization,PSO)來訓練隱層核函數的中心,并研究其在語音轉換系統中起到的作用[5]。

為更準確地獲得說話人與目標人之間譜包絡的映射關系,提出了一種改進的粒子群算法,以優化徑向基函數的中心并提高網絡性能。對基于傳統GMM,基于K-均值聚類、基于PSO算法以及基于改進PSO算法的RBF神經網絡進行了語音轉換實驗,實驗結果表明,提出方法相較于其他方法能夠有效提高神經網絡的性能,使轉換后的聲音更接近于目標聲音。

1 RBF神經網絡

RBF神經網絡對任意的非線性函數具有良好的適應性,可以分析系統內一些難以解析的規律,具有良好的泛化和快速學習的能力[6]。因此,該網絡被廣泛用于語言轉換領域。RBF神經網絡具有三層前向結構,包括輸入層、隱層、輸出層[7]。其結構如圖1所示。

圖1 RBF神經網絡結構

一般采用n維的高斯函數作為徑向基函數:

(1)

其中,‖x-ci‖為歐氏幾何范數,ci為第i個核函數的中心,σi為第i個核函數的寬度。

RBF神經網絡的輸出為:

(2)

其中,x為輸出向量;wij為相對應的連接權值。

RBF神經網絡由兩類參數組成:一類是隱層核函數的中心和寬度;另一類是隱層到輸出層的連接權值[8]。常規K-均值聚類算法的步驟如下:

Step1:初始化設置網絡和各參數。

Step2:聚類中心ci(i=1,2,…,k)由隨機選擇k個訓練樣本構成。

Step3:輸入樣本xp,按照近鄰規則分組;根據歐氏距離(見式(3))將xp分給離其最近的中心形成聚類。

(3)

Step4:重新調配聚類中心,計算每個聚類的均值來尋找新聚類中心。若隨著迭代次數的增加聚類中心不再改變,則得到的聚類中心就是核函數的中心,否則返回Step2。

Step5:計算核函數的寬度σ:

(4)

其中,dmax為所選中心的最大距離。

Step6:由最小二乘法可得隱層與輸出層連接權值,計算公式如下:

(5)

其中,P為樣本總數。

2 改進方法

隱層核函數的中心是影響RBF神經網絡性能的重要參數,而傳統K-均值聚類算法受初值影響大,全局優化的效果不佳[9]。所以,選擇合適的優化算法來調整RBF網絡核函數的中心參數,能改善整個網絡的性能。而粒子群算法是一種基于迭代的優化算法,具有容易實現、算法參數少、收斂快和突出的全局尋優能力等特點。因此,引入一種改進的PSO算法調整RBF神經網絡的核函數中心,并將優化過的RBF神經網絡應用于語音轉換,以提高轉換語音的相似度。

2.1 改進的粒子群算法

粒子群優化算法模擬鳥群覓食行為,通過粒子群的運動進行全局搜索。每個粒子都有一個相對應的適度值和速度矢量,分別表示距離及運動方向。在迭代算法中,通過比較每個粒子的全局極值Gbest和個體極值Pbest,對其位置和速度進行迭代更新[10]。

假設粒子群中有N個粒子,則第i個粒子在D維度空間中的位置表示為Xi=(xi1,xi2,…,xiD),i=1,2,…,N,速度記為Vi=(vi1,vi2,…,viD),i=1,2,…,N。

通過每一次的迭代尋找Pbest和Gbest,找到極值后再根據式(6)更新粒子的位置和速度。

(6)

(7)

其中,i=1,2,…,N,d=1,2,…,D;k為迭代次數;pid和pgd分別為粒子個體極值和全局極值的位置;c1,c2為加速因子;rand()為0到1之間的隨機數;w為慣性權值,通過合適的調節方法可以在局部尋優與全局尋優之間找到平衡,慣性權值越小則局部尋優能力增強,全局尋優能力減弱,慣性權值越大則效果相反[10]。

采用一種非線性策略來調整w,從而改進粒子群算法。

(8)

其中,wmax,wmin分別為慣性權值的初始值和迭代結束值;kmax為最大迭代次數;k為當前迭代次數。

當最優位置的適度值符合最小適應閾值或迭代次數等于最大值時,該PSO算法結束[11]。

2.2 基于改進粒子群算法的RBF神經網絡

將核函數的聚類中心ci看作是PSO算法的粒子,通過PSO算法優化網絡,從而提高網絡性能[12],步驟如下:

Step1:初始化網絡。設定粒子個數及每個粒子大小并隨機初始化各個粒子的位置和速度,設置慣性權值的初始值和結束值,最大迭代次數。

Step2:粒子空間位置優劣只能由適應度函數衡量,函數決定著整個算法的優化效果,根據實際問題,采用的適應度函數為:

(9)

Step3:將通過RBF網絡計算得到的樣本實際輸出與相應的預期輸出代入式(9),得到該粒子的個體極值;計算各個粒子的適度值并進行比較,得出最優值并將其作為粒子的全局極值。

Step4:通過式(6)~(8)分別更新粒子的速度、位置和權值。

Step5:如果重新計算更新后粒子的適應度值優于以前位置的適應度值,則新位置取代以前位置成為下次迭代的起點,否則下一次迭代的起點不變。

Step6:若全局極值滿足小于設定的閾值或者迭代次數達到最大,則改進PSO算法結束。否則,轉至Step3,繼續進行迭代。

Step7:將改進粒子群算法得到全局最優值的位置作為RBF神經網絡的核函數中心。

2.3 基于改進粒子群優化徑向基函數神經網絡的語音轉換

在語音轉換系統中,常用提取加濾波的短時線譜模型來計算聲音參數,從而得到線性預測系數(Linear Predictive Coefficient,LPC)。這些系數通常轉化成其他形式的參數,以適應所需的性質。線譜頻率(Line Spectrum Frequency,LSF)參數是通過一系列的計算由LPC參數得來的[13]。LSF參數能夠客觀反映共振峰的位置和帶寬,具有良好的插值特征,并且特征參數的某一部分失真對合成譜參數影響較小,因此廣泛用于語音信號處理[14]。實驗采用自適應加權譜內插(STRAIGHT)模型來獲得LSF參數和基音頻率,以及合成轉換語音。

語音轉換系統由訓練階段和轉換階段兩部分組成。在訓練階段,提取源和目標說話人聲音的基頻和線譜頻率參數;再運用動態時間規劃將源與目標的特征參數對齊;將源聲音的參數作為RBF網絡的輸入,目標聲音參數作為輸出,通過人工神經網絡建立轉換規則[15]。在轉換階段,將源測試聲音同樣通過STRAIGHT模型提取LSF參數和基頻,再利用訓練階段得到的轉換規則進行轉換。最后,利用STRAIGHT模型合成聲音。圖2為語音轉換框圖。

圖2 語音轉換框圖

3 實驗結果分析

對基于傳統GMM,基于K-均值聚類、基于PSO算法以及基于改進PSO算法的RBF神經網絡進行語音轉換實驗。另外,由文獻[7]可知基頻在語音轉換中起著重要的作用,將譜包絡參數與基頻聯合通過徑向基函數神經網絡進行轉換,轉換后的基頻含有更多目標人個性特征。實驗中采用的數據庫包含2個男子和2個女子的語音,每人的語音由141個單字和6句短語組成。采樣率均為16kHz,并以16bit量化。

3.1 主觀評價

采用ABX和MOS對測試轉換語音的效果進行主觀評價。

ABX法主要是對轉換語音與目標語音的相似程度進行評價,A和B分別代表源說話人聲音和目標說話人聲音,X代表轉換而來的聲音。實驗中,隨機選擇10位測評人對轉換后的30個詞語和6句短語進行評價,要求聽眾選擇A或B哪個更接近X,然后統計結果。表1給出了3種轉換方法的“ABX”的測試結果。

表1 ABX測試結果 %

由表1結果可知,基于改進PSO算法的RBF網絡所得到的轉換語音相對于其他三種方法得到的語音更接近于目標語音,轉換效果也較其他兩種方法有顯著提升。

平均主觀意見分(Mean Opinion Score,MOS)將語音分為差、較差、尚可、好、極好這五個聽覺質量等級,分別記為1~5分。實驗中,同樣隨機選擇10位測評人對轉換后的30個詞語和6句短語進行評價和打分,測試結果如表2所示

表2 MOS測試結果

由表2可知,通過改進PSO算法的RBF網絡得到的轉換語音MOS分都有不同程度的提高,說明轉換語音的清晰度和自然度都有所提高,性能優于其他三種方案。

3.2 客觀評價

實驗采用以女生到男生聲音的轉換為例作為客觀評價。為了更加直觀地了解提出的改進PSO算法對RBF網絡的優化情況,采用譜失真率作為衡量客觀評價的標準,如式(10):

(10)

其中,xi,con,xi,targ和xi,sour分別為轉換后的聲音、源聲音和目標聲音的包絡參數;N為聲音的幀數。rsd的值越小,網絡的性能越好。

圖3給出了頻率失真圖。

圖3 頻率失真圖

由圖3可知,基于改進PSO算法優化RBF網絡的語音轉換的譜失真率最低,擁有更好的轉換性能,在轉換語音的質量上得帶了進一步的提高。

為了進一步比較基于改進PSO算法優化的RBF網絡轉換的方法與其他方法之間譜包絡的不同,將實驗中得到的LSF系數通過一系列變換得到譜包絡,如圖4所示。

由圖4可知,基于改進粒子群優化RBF神經網絡的語音轉換得到的譜包絡更接近目標聲音的包絡,顯著提高了捕捉共振峰的能力,所以能更好反映人說話聲音的特性。

圖4 包絡的比較

4 結束語

為了更加準確地建立語音轉換的映射關系,改善語音轉換的效果,提出了一種改進粒子群算法,以優化徑向基函數神經網絡性能,從而使得到的轉換語音更接近目標聲音。通過對四組實驗的主客觀評價結果進行比較可知,該方法能夠更加準確地映射源聲音與目標聲音的關系,使得轉換后的聲音具有更多目標人聲音的個性特征。

[1] 張玲華,姚紹芹,解偉超.基于自適應粒子群優化徑向基函數神經網絡的語音轉換[J].數據采集與處理,2015,30(2):336-343.

[2] 李 波,王成友,蔡宣平,等.語音轉換及相關技術綜述[J].通信學報,2004,25(5):109-118.

[3] 簡志華,楊 震.語聲轉換技術發展及展望[J].南京郵電大學學報:自然科學版,2007,27(6):88-94.

[4] 解偉超,張玲華.基于自組織聚類和改進粒子群算法的語音轉換方法[J].聲學學報,2014,39(1):130-136.

[5]ValbretH,MoulinesE,TubachJP.VoicetransformationusingPSOLAtechnique[C]//Internationalconferenceonacoustics,speech,andsignalprocessing.[s.l.]:IEEE,1992:145-148.

[6] 郭 通,蘭巨龍,李玉峰,等.基于量子自適應粒子群優化徑向基函數神經網絡的網絡流量預測[J].電子與信息學報,2013,35(9):2220-2226.

[7]ChenXiantong,ZhangLinghua.AnimprovedANNmethodbasedonclusteringoptimizationforvoiceconversion[C]//Internationalconferenceonaudio,language&imageprocessing.[s.l.]:IEEE,2014:464-469.

[8]ManChuntao,WangKun,ZhangLiyong.AnewtrainingalgorithmforRBFneuralnetworkbasedonPSOandsimulationstudy[C]//ProceedingsofIEEEinternationalconferenceoncomputerscienceandinformationengineering.[s.l.]:IEEE,2009:641-645.

[9]XieFenglong,YaoQian,SoongFK,etal.Pitchtransformationinneuralnetworkbasedvoiceconversion[C]//Chinesespokenlanguageprocessing.[s.l.]:IEEE,2014:197-200.

[10] 何隆玲.基于改進PSO-RBF神經網絡的高分辨率雷達目標檢測研究[D].南寧:廣西大學,2013.

[11]AndrewsPS.Aninvestigationintomutationoperatorsforparticleswarmoptimization[C]//IEEEcongressonevolutionarycomputation.[s.l.]:IEEE,2006:1044-1051.

[12]BrattonD,KennedyJ.Definingastandardforparticleswarmoptimization[C]//IEEEinternationalconferenceonswarmintelligencesymposium.[s.l.]:IEEE,2007:120-127.

[13]QiaoY,MinematsuN.Mixtureofprobabilisticlinearregressions:aunifiedviewofGMM-basedmappingtechniques[C]//ProceedingsofIEEEinternationalconferenceonacoustics,speechandsignalprocessing.Taipei,Taiwan:IEEE,2009:3913-3916.

[14]TodaT,SaruwatariH,ShikanoK.VoiceconversionalgorithmbasedonGaussianmixturemodelwithdynamicfrequencywarpingofSTRAIGHTspectrum[C]//IEEEinternationalconferenceonacoustics,speech,andsignalprocessing.[s.l.]:IEEE,2001:841-844.

[15]DesaiS,BlackA,YegnanarayanaB,etal.SpectralmappingusingartificialneuralNetworksforvoiceconversion[J].IEEETransactionsonAudio,SpeechandLanguageProcessing,2010,18(5):954-964.

Voice Conversion of Radial Basic Function Neural Network of ParticleSwarm Optimization

DONG Tian-hui1,ZHANG Ling-hua2

(1.College of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.Jiangsu Provincial Engineering Research Center of Telecommunications and Network Technology,Nanjing 210003,China)

Due to simple structure and fast learning,Radial Basis Function (RBF) neural network is used commonly in voice conversion system.The center of kernel function in hidden layer is the important parameter of influencing the RBF neural network,but traditionalK-meansclusteringalgorithmreliesontheinitialvalue,whichisineffectiveinglobaloptimization.Therefore,itissignificancetoselectasuitablealgorithmtomodulatethecenteroffunctionandenhancetheeffectofvoiceconversion.Particleswarmalgorithmisanoptimizedonebasedoniteration,withthecharacteristicsofeasyimplementation,muchlessparameters,fastconvergenceandbetterglobaloptimizationandsoon.AnimprovedparticleswarmoptimizationisproposedtooptimizetheRBF’scentersforimprovementoftheperformanceofRBFnetwork,thusenhancingthetransformationofspeechparameters.Theresultsacquiredbymodelingandsimulationshowthattheproposedmethodhaseffectivelyimprovedtheperformanceofneuralnetworkandtheeffectofconvertedvoicesismuchclosertothegoal.

voice conversion;centers of RBF;improved particle swarm optimization;radial basis function neural network

2016-06-06

2016-09-21 網絡出版時間:2017-03-13

江蘇省高校自然科學研究重大項目(13KJA510003);江蘇高校優勢學科建設工程(PAPD)

董添輝(1991-),男,碩士,研究方向為語音信號的研究與應用;張玲華,博士生導師,通信作者,研究方向為語音信號的研究與應用、無線傳感網絡、數字助聽器。

http://kns.cnki.net/kcms/detail/61.1450.tp.20170313.1546.042.html

TN

A

1673-629X(2017)05-0064-05

10.3969/j.issn.1673-629X.2017.05.014

猜你喜歡
優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
PEMFC流道的多目標優化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
圍繞“地、業、人”優化產業扶貧
今日農業(2020年16期)2020-12-14 15:04:59
事業單位中固定資產會計處理的優化
消費導刊(2018年8期)2018-05-25 13:20:08
4K HDR性能大幅度優化 JVC DLA-X8 18 BC
幾種常見的負載均衡算法的優化
電子制作(2017年20期)2017-04-26 06:57:45
主站蜘蛛池模板: 人人澡人人爽欧美一区| 国产青榴视频| 亚洲天堂久久新| 亚洲高清无在码在线无弹窗| 波多野结衣中文字幕一区二区 | 久久国产乱子| 国产精品亚洲综合久久小说| 亚洲91在线精品| 国产欧美日韩综合在线第一| 久久人人妻人人爽人人卡片av| 久久国产黑丝袜视频| 欧美三级日韩三级| 国产综合亚洲欧洲区精品无码| 亚洲欧美自拍一区| 91在线精品麻豆欧美在线| 全裸无码专区| 国产91九色在线播放| 亚洲精品黄| 激情成人综合网| 国产精品精品视频| 国产丝袜第一页| 中文字幕色在线| 国产精品亚洲一区二区三区z| 色综合网址| 美女无遮挡拍拍拍免费视频| 国产高清无码第一十页在线观看| 免费av一区二区三区在线| 亚洲一区二区日韩欧美gif| 国产一区二区网站| 亚洲国产成人久久精品软件| 91 九色视频丝袜| 小说区 亚洲 自拍 另类| 国产成人a在线观看视频| 欧美爱爱网| 久久青青草原亚洲av无码| 亚洲人人视频| 国内精品久久久久久久久久影视| yy6080理论大片一级久久| 亚洲资源站av无码网址| 激情综合婷婷丁香五月尤物| 久久成人免费| 日韩毛片基地| 67194亚洲无码| 国产成本人片免费a∨短片| 欧美五月婷婷| 欧洲极品无码一区二区三区| 亚洲欧美日韩动漫| 一区二区三区国产| 欧美成人二区| 免费国产一级 片内射老| 欧美午夜网| 91精品视频在线播放| 欧美天堂久久| 99久久精品国产麻豆婷婷| 国产精品自拍合集| 日本人妻丰满熟妇区| 五月婷婷亚洲综合| 欧美亚洲国产一区| 久久久久免费看成人影片| 无码福利日韩神码福利片| 国产精品美女在线| 日本不卡在线| 欧美高清国产| 国产精品无码制服丝袜| 91原创视频在线| 91热爆在线| 欧美成人综合在线| 国内精品九九久久久精品| 国产一区成人| 热九九精品| 国产成人亚洲精品无码电影| 国内精品伊人久久久久7777人| 亚洲精品免费网站| 日韩国产欧美精品在线| 久久久久亚洲av成人网人人软件| 国禁国产you女视频网站| 国产综合在线观看视频| 国产麻豆精品手机在线观看| 男女猛烈无遮挡午夜视频| 国产网友愉拍精品| 婷婷亚洲最大| 亚洲国产中文综合专区在|