999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

函數(shù)擬合實現(xiàn)語音演唱

2021-02-06 13:39:52王咿卜李建文
關鍵詞:信號

王咿卜,李建文

(陜西科技大學 電子信息與人工智能學院, 西安 710021)

0 引 言

語音語調作為人類交流的主要特點之一, 是情感表達最不可忽視的一部分, 也是人類區(qū)別于機器語音最顯著的特征[1]. 人工智能的發(fā)展, 帶來的是全新的機器時代, 精確度更高的算法相應而生, 但在要求準確度和語音合成清晰度的同時, 不可忽視的還有機器語音區(qū)別于人類語音的一點—語調. 只有將語音合成的準確度和情感度結合起來, 才能真正達到智能化語音, 使機器語言更加貼合人類的日常交流, 這對語音合成的實現(xiàn)提出了語調可控的要求, 其中, 語音演唱復雜度更高, 如果能實現(xiàn)語音演唱, 會使得機器模仿人類日常交流更加簡單. 語調是區(qū)別不同人發(fā)音特征最重要的參數(shù)之一, 語調的擬合有助于語音識別準確度的提高. 語音信號占據(jù)人類信息交流的70%左右, 最容易獲取且最能體現(xiàn)人類在不同場景的心理狀態(tài). 研究顯示, 語音語調的變化特征在抑郁癥患者和正常人之間有著明顯的區(qū)別[2], 因此, 從數(shù)學角度出發(fā), 結合對語音參數(shù)的調整實現(xiàn)語音合成, 在人工智能、醫(yī)學方面都具有參考價值.

徐晨煜[3]基于統(tǒng)計機器學習的端到端的方法實現(xiàn)語音合成, 以傳統(tǒng)的文本到語音(Text To Speech, TTS)為基礎, 采用一種端到端的合成模型將整個過程統(tǒng)一為一個單一的過程, 利用支持向量回歸、簡單神經(jīng)網(wǎng)絡以及具有注意力模型的Seq-2-Seq算法, 實現(xiàn)文本到語音的轉換. 王永鑫等[4]采用基于HMM方法實現(xiàn)帶聲調控制的語音合成, 通過研究陳述語句和疑問語句的基調變化特點, 對其進行歸一化, 利用HMM語音合成系統(tǒng)的控制機制, 實現(xiàn)了對疑問句語調到陳述句語調的轉換. 徐晨煜的研究在一定程度上簡化了語音合成的復雜過程, 但忽略了不同人之間的發(fā)音特點, 將人類之間情感的區(qū)別單一化, 機器音更為明顯. 王永鑫等的研究考慮了語調的重要意義, 結合語句參數(shù)的變化特征,實現(xiàn)了陳述句和疑問句之間的轉換, 但可變語調僅僅局限于陳述語句和疑問句, 對于多種語句類型的轉化要求難以實現(xiàn). 本文研究從語音的基頻和共振峰兩個參數(shù)出發(fā), 通過研究不同情況發(fā)音者的基頻變化值, 調整擬合的基頻曲線, 實現(xiàn)了對不同情境下說話人語調的變化; 同時調整基頻曲線參數(shù)、發(fā)音時長也可以實現(xiàn)語音演唱的效果, 并且通過調整基音頻率值還可以達到對男士、女士、兒童等發(fā)音者的變化. 本文通過對函數(shù)擬合實現(xiàn)語音合成及演唱方法的研究, 以期在語音演唱、語音合成、語音識別、醫(yī)學領域等方面提供參考.

1 語音參數(shù)

1.1 語音數(shù)字模型

聲音的產(chǎn)生, 主要是人類的發(fā)音器官受到大腦控制, 這些發(fā)音器官主要有肺、氣管、喉以及聲道,圖1所示為發(fā)音器官示意圖[5-6].

由圖1可知, 肺承擔著人體血液和氣體之間的交換, 通過肺將二氧化碳排除并吸進氧氣, 并將空氣壓縮傳遞給發(fā)音器官, 即呼吸功能. 氣管主要將聲音由肺部傳遞到喉部. 喉部含有發(fā)音的重要器官—聲帶[5]. 聲音之所以產(chǎn)生, 主要是氣流進入喉部, 產(chǎn)生聲帶的振動, 而這種振動的強弱、大小則導致聲音種類的不同. 從聲門到嘴唇之間所有的發(fā)音器官統(tǒng)稱為聲道, 包括咽頭、口腔和鼻腔. 口腔包括唇和舌頭. 口腔中所有器官共同協(xié)作使得通過的氣流受到阻礙產(chǎn)生震顫, 導致不同聲音的產(chǎn)生, 聲道與咽腔、鼻腔一同充當發(fā)音的共鳴器. 聲道是一種非均勻截面的聲管, 截面面積取決于唇、舌、腭和小舌的位置和形狀, 這種非均勻截面隨時間不斷變化[5]. 通過對發(fā)音器官的介紹, 可以構造出發(fā)聲的數(shù)字模型, 圖2所示為發(fā)音數(shù)字模型[5].

從圖2可知, 聲音種類的不同正是因為這些器官在根據(jù)大腦刺激產(chǎn)生不同的協(xié)作[5], 首先氣流進入肺部, 產(chǎn)生有規(guī)則的信號, 即直流氣流, 直流氣流經(jīng)過聲帶的振動產(chǎn)生交流氣流, 再通過聲道得到速度波, 最終經(jīng)過嘴唇作為輻射源產(chǎn)生聲壓波傳入人耳[7].

圖1 發(fā)音器官示意圖Fig. 1 Schematic diagram of speech organs

圖2 發(fā)音的數(shù)字模型Fig. 2 Numerical model of pronunciation

1.2 聲音參數(shù)及要素

聲波信號產(chǎn)生于聲帶的周期性振動, 主要由基音與泛音組成, 聲波信號中含有最低頻率值的音波稱為基音. 除此之外的音波都稱為泛音, 其頻率為基頻的整倍數(shù), 稱為共振峰頻率. 采用Adobe Audition軟件對拼音一聲“a”的語譜圖進行顯示, 如圖3所示. 由圖3可知, 最低高亮線所在位置對應的頻率就是基音頻率值, 其余高亮線條所在位置對應的頻率為諧波頻率值, 即共振峰頻率值.

圖3 一聲“a”的語譜圖Fig. 3 The spectrogram of “a”

聲音主要有音調、音色、響度這3要素, 這些要素的不同組合構成不同狀態(tài)下不同人的發(fā)音結果.聲帶有規(guī)律的振動存在周期性, 周期的倒數(shù)為頻率, 其大小決定聲音的高低, 頻率增加一倍, 音樂上稱“提高一個八度”, 這種高低即音調, 物體振動變化越快, 頻率越高, 音調越高[8], 而聲調的變化是相對的、滑動的, 用音階來模擬. 聲帶的振動會產(chǎn)生兩種類型的波, 一部分波周期一致, 另一部分波周期存在微小偏差, 周期不同導致這些波的頻率不同, 此類波稱為諧波. 諧波的頻率是基頻的整倍數(shù), 發(fā)出的音在音樂中稱為泛音, 當所有泛音整合在一起就會發(fā)出不同類型的音色, 音色由聲音的波形決定, 根據(jù)聲音的音色可以分辨不同人和不同樂器發(fā)出的聲音[9]. 響度指聲音的強弱程度, 單位是分貝(dB),與語譜圖中基頻曲線及共振峰對應曲線處的聲強有關, 表現(xiàn)在語譜圖上是圖中高亮線段的明暗程度:越亮, 則分貝值越大, 發(fā)出的聲波越明顯; 越暗, 則相反. 聲強即分貝值(ddB)與聲音信號的幅度(時刻i位置的幅度為Ai)成正比[10-11], 聲音信號幅度與聲強之間的關系為

綜上, 聲音要素變量與物理變量之間的關系描述見表1.

表1 聲音要素與物理變量關系Tab. 1 The relationship between sound elements and physical variables

1.3 聲音分類

聲音分為噪音和樂音, 噪音是發(fā)音物體產(chǎn)生多種無規(guī)律的周期和幅度而形成的聲波, 即不同聲波含有無規(guī)則的振動頻率和響度, 語音波形不定[12]. 樂音是聲帶周期性振動產(chǎn)生的, 聲波頻率呈基頻F0的整數(shù)倍增加, 為F1,F2,F3,···, 響度參數(shù)值較為統(tǒng)一, 差距較小, 有一定的語音波形.

一般來說,F1、F2決定了音型,F3及其以上共振峰則影響著個人的聲音特征及音色[13]. 樂音又分為濁音、清音和鼻音. 濁音有聲帶振動的參與, 是氣流受到阻礙的同時聲門發(fā)生了閉合, 并且聲帶微顫而產(chǎn)生, 如/p/、/t/、/k/等. 清音無聲帶振動的參與, 僅僅是由于氣流收到阻力而產(chǎn)生[14], 如/b/、/d/、/ɡ/等. 鼻音是由于肺部氣流在傳遞上升過程中聲帶發(fā)生閉合, 聲帶微顫的同時發(fā)出的聲音, 這種聲音隨著氣流送入鼻腔產(chǎn)生, 例如/l/、/m/、/n/等. 由于音調由物體振動頻率決定, 因此在歌曲的演唱過程中, 濁音的樂音性強于清音, 鼻音的樂音性要強于濁音.

2 語調擬合

2.1 基頻提取

基音周期是指人們發(fā)出韻母的濁輔音時, 聲帶發(fā)生一次開啟與閉合的時間[7]. 基音周期倒數(shù)為基音頻率(簡稱“基頻”). 基音周期描述了圖2語音數(shù)字模型中發(fā)音激勵源的重要特征, 是研究語音信號最重要的參數(shù)之一. 基音頻率的波形變化曲線(基頻曲線)稱為聲調[11].

令離散的語音信號為x(n), 由圖2得語音信號是由聲門脈沖激勵u(n)經(jīng)聲道響應v(n) 濾波而得, 即

圖4 語音信號波形Fig. 4 Voice signal waveform

圖5 語調基頻曲線Fig. 5 Tone pitch curve

對于樂器來講, 每相鄰兩個半音, 高音頻率是低音頻率的2的次方倍, 例如, 國際標準音“a”的頻率為440 Hz, 比它高半音(降b)的頻率為 440×=466.13 Hz[17]. 從圖5中可得, 實際情況下, 對于含有音階變化的起音“a”, 每個相鄰音階頻率變化值從高音到低音依次為50 Hz、50 Hz、25 Hz左右,降低的值呈倍數(shù)性衰減. 兩兩音階變換位置存在類似梯形的過渡, 由一段音階遞減或遞增到另一音階.同一音階處曲線起伏較小, 基本趨于水平狀態(tài).

2.2 共振峰提取

語音信號可以看作是一個數(shù)學模型模型的輸出, 圖6所示為其等效模型.

圖6 語音信號數(shù)學模型Fig. 6 Mathematical model of a speech signal

圖6中u(n)為模型輸入, 即脈沖序列,x(n)為輸出的語音信號, 而模型的傳遞函數(shù)為H(z), 其有理式形式為

由于H(z) 是穩(wěn)定且具有最小相位的系統(tǒng), 因此可化為

由式(5)得, 模型的輸出是模型當前的輸入、過去的輸入和輸出之間的線性組合. 因此, 語音信號當前的輸出值可以通過當前的輸入與過去的語音信號值來計算. 式(5)中, 若b1,b2,···,bq均為0, 則式(5)可變?yōu)?/p>

當聲道傳遞函數(shù)為全極點模型時, 有

其中, j是虛數(shù)單位, j2= –1.

將式(8)代入式(7), 并取功率譜模值, 用p(f) 表示, 有

由式(9)可得, 當求共振峰頻率值時, 可先利用FFT對任意頻率求其功率譜幅值響應, 再從幅值響應中找到共振峰的信息[7,18].

由式(10)得,x(n)為e(n)的輸入, 也是傳遞函數(shù)的輸出. 利用A(z) 的多項式系數(shù)分解能夠準確的確定語音信號共振峰的中心頻率與帶寬. 設為任意復根值, 則其共軛值也是一個根. 設zi對應的共振峰頻率為Fi, 3 dB帶寬為Bi, 衰減指數(shù)為σ, 拉普拉斯變換和Z變換轉換關系為Z=esT(s為信號x(t)經(jīng)過拉普拉斯變換后得到的極點,s=?σ±jω), 得到Z變換后的極點Z1=e?σT+jωT=rejω和Z2=re?jw, 經(jīng)過對比得θi=ωi=ω0T, 其中ω0為信號原頻率, 由于σ=2πB/2=πB,ωi=2πfi, 則Fi與Bi、zi之間關系為

由于ri=r=e?σT=e?πBT, 則

由式(11)、式(12)得

通過LPC求根法對共振峰估算, 得到語音包絡線, 如圖7所示. 圖7中功率譜曲線上畫出的點畫線即對應的共振峰頻率值.

圖7 語音包絡線Fig. 7 Voice envelope

3 語調分析

聲調隨著基頻的變化而變化, 這種變化結果合稱語調. 一般來說, 女性的基音頻率是男性基音頻率的兩倍, 男性范圍約為50 Hz ~ 250 Hz, 兒童和女性約為100 Hz ~ 500 Hz[19]. 發(fā)音者類型、發(fā)音狀態(tài)、發(fā)音語句類型都在一定程度上影響著基頻[20]. 在語音合成過程中, 語句的表達狀態(tài)不同, 基音頻率也存在明顯的差異, 例如陳述語句和疑問語句的基音頻率在句末處差別很大, 陳述語句的基音曲線走勢整體平緩, 基本保持水平狀態(tài), 到句末位置處稍微下降, 而對于疑問句, 基頻曲線整體走勢上揚, 基頻值在句末處存在部分音節(jié)的基頻明顯增加, 當存在語氣助詞(如“嗎”), 末尾音節(jié)基頻值變化程度更高[21]. 語音發(fā)出者在不同情景下的發(fā)音狀態(tài)也在一定程度上影響著基頻曲線, 例如, 當人處于生氣狀態(tài)下, 基頻曲線變化程度快, 聲強較高, 當人處于愉悅狀態(tài)下, 基頻曲線變化平緩, 聲強相對于日常來講相對適中[22].

由于語音合成有兩個重要參數(shù), 分別是基頻和共振峰的頻率值, 基頻曲線受現(xiàn)實情況的影響較大,而共振峰的頻率值是基頻曲線對應頻率值的整倍數(shù), 同樣受到影響. 因此, 在進行帶語調的語音合成及語音演唱的合成過程中, 要充分考慮不同人、不同狀態(tài)、不同語句對基頻曲線的影響, 以達到合成結果與實際情況切合.

4 擬合函數(shù)

4.1 擬合函數(shù)

采用最小二乘法原理對基頻曲線進行擬合, 由于擬合的曲線方程y為

其中,ai為擬合系數(shù),x為時間變量. 為使得曲線盡可能多地反映所給數(shù)據(jù)點的變化趨勢, 要求產(chǎn)生的誤差越小越好, 選擇均方誤差Q來表示誤差大小, 已知基頻曲線共有m個點[23], 某一點數(shù)據(jù)為(xi,yi),i=1,2,···,m, 則均方誤差為

誤差最小, 即求Q的極小值, 可以采用求導來解出ak,ak?1,···,a0, 即

將式(17)整理后得

將式(18)表示為矩陣, 即

4.2 擬合函數(shù)階數(shù)

已知, 當n的階數(shù)越高, 擬合曲線占據(jù)實際點越多, 但在基頻曲線提取過程中, 不可避免地產(chǎn)生一些“野點”, 導致產(chǎn)生過擬合, 因此n值選擇是否恰當, 對語音合成結果的正確與否至關重要. 對于圖4含有音階變化的語音“a”, 實驗采用其中前4個下降的音階為例, 通過求解矩陣方程, 最終得到擬合參數(shù)值, 判斷函數(shù)次數(shù). 表2為對第一段音階(不含過渡音階曲線)不同階數(shù)的擬合結果.

表2 擬合函數(shù)不同階數(shù)對比Tab. 2 Comparison of different orders of fitting functions

確定系數(shù)表示擬合的函數(shù)變量對原始函數(shù)數(shù)據(jù)的擬合效果, 確定系數(shù)越接近1, 擬合結果越好. 從上表可得, 當階數(shù)n< 3時, 對非線性曲線的擬合結果較差, 當n= 3擬合效果較好, 當n> 3, 確定系數(shù)雖然也在增加, 但程度減慢且系數(shù)值過于復雜. 為了保證擬合效果且避免過擬合, 實驗采用階數(shù)n為3進行擬合.

5 實驗及結果

5.1 基頻曲線擬合步驟

由于語音合成過程中, 基頻和共振峰頻率決定了整個合成結果語調的類型, 而共振峰頻率為基音頻率的整倍數(shù)[7], 因此首先對語調的基頻進行曲線擬合, 圖8所示為擬合過程.

圖8 基頻曲線擬合步驟Fig. 8 Fitting steps for a fundamental frequency curve

從流程圖中得, 基頻曲線擬合過程分為以下幾步.

(1)首先對語音y(t) 進行預處理, 將語音雙聲道模型轉換成單聲道以便處理. 對單聲道音頻進行分幀處理, 將連續(xù)信號y(t)變?yōu)殡x散信號y(n), 便于獲取每幀信號值.

(2)對于語音信息較多的音頻, 需要進行端點檢測, 即將一段語音信號的每一個語音單元(每個字音)進行檢測并區(qū)分.

(3)采用倒譜法提取基音頻率, 得到語音基頻曲線, 采用LPC法進行共振峰頻率提取.

(4)若合成原始語音, 則采用高次多項式進行基頻曲線的擬合, 若實現(xiàn)語音演唱, 則按照演唱需要利用分段函數(shù)將不同音階的基頻曲線擬合出來[24], 最終輸出擬合函數(shù)y2(t), 即

(5)為合成基頻大小可以控制且語調確定的語音, 需要將擬合函數(shù)歸一化, 即

(6)得到的歸一化函數(shù)加指定基頻值F0, 得到最終語音的基頻函數(shù)曲線

(7)對不同音階時域進行整理, 通過調整擬合函數(shù)時間(加減t0),y5(t)=y4(t±t0) 最終實現(xiàn)語音演唱功能.

5.2 Pitch模型

由于實現(xiàn)語音演唱需要改變語音的音階, 且在不同音階處存在過渡音階曲線, 因此采用分段函數(shù)來表示含有音階變化的基頻曲線. 實驗采用3階多項式函數(shù), 對圖5中前四段聲調變換的基頻曲線及過渡音階曲線分別進行擬合, 由于語音音階變化存在頻率變化, 其頻率隨前后音階的改變而調整, 因此需要對擬合的音階基頻曲線進行歸一化, 最終得到的第一段音階曲線和過渡音階基頻曲線的擬合函數(shù)分別為

經(jīng)過基頻檢測, 在圖5中前4段音階中, 每段相鄰音階的基頻存在小范圍波動, 相鄰音階基頻曲線整體上移, 初始基頻分別313 Hz、275.8 Hz、238.6 Hz、223.1 Hz. 對于過渡音階, 其基頻變化幅度分別為50 Hz、50 Hz、25 Hz、12.5 Hz(取平均變化). 為實現(xiàn)每段基頻曲線的過渡, 需要對式(23)進行移位, 對式(24)進行擴頻運算. 令每段音階發(fā)音時長為0.7 s, 音階過渡時長為0.2 s, 采樣率fs為8 000 Hz,擬合的第i段音階基頻曲線y1i和音階過渡基頻曲線yni(i=1,2,3,4), 其對應公式分別為

對于音階過渡基頻曲線, 擴頻運算僅僅能保證音階基頻變化幅度的正確性, 但在每一個分段曲線的連接處無法實現(xiàn)前后音階的銜接, 因此還需要對式(26)進行縱軸移位. 實際情況下, 第i段音階過渡基頻曲線yni需要加上第i段音階基頻函數(shù)y1i的末尾值與第i音階過渡基頻曲線yni的初始值之差, 即yni=yni+yni(t初)+y1i(t末). 移位得到的最終音階過渡曲線的擬合函數(shù)公式為

將式(25)與式(27)聯(lián)合在一起, 最終合成前4個音階的語調基頻曲線結果, 如圖9所示, 其中縱坐標為頻率, 橫坐標為時間(t).

圖9 4個音階基頻曲線擬合結果Fig. 9 Fitting results for fundamental curves of four scales

從曲線的合成結果看, 雖然在音階變化階段下降幅度較陡, 銜接處拐點明顯, 但與實際情況下提取的基頻取信在數(shù)值和曲線走向方面能夠很好地擬合, 克服并修復了實際語音的基頻曲線存在斷點、不連續(xù)的情況, 擬合效果較好.

5.3 語音合成

已知任意聲音信號可以由三角函數(shù)的疊加產(chǎn)生[7], 對應公式為

數(shù)學中, 正弦函數(shù)和余弦函數(shù)可以互相轉化, 因此式(28)等效為

式(29)中,wi為第i個正弦函數(shù)的頻率,t為時間,Ai為第i個正弦函數(shù)的振幅. 為實現(xiàn)語調控制,采用倒譜法對提取出來的基音周期f來進行函數(shù)擬合, 由于w=2πf, 因此語音信號為

采用函數(shù)疊加方法進行帶音階變化的語音合成, 其中,f1為基音頻率,fi(i=2,3,···)為f1的整倍數(shù), 即fi=f1·i(i=2,3,···), 即

式(31)中,A1,Ai(i=2,3,···)為單個聲波的聲音強度(A1為基頻曲線對應的聲強,Ai為各諧波,即共振峰頻率對應的聲強),i為基音頻率的整倍數(shù)(語譜圖上從下至上第i條高亮線),2π(y2·i)·t為共振峰頻率.

根據(jù)式(31), 以函數(shù)擬合的方式進行帶有四階降聲調的語音合成, 最終由Adobe Audition軟件進行語音合成分析. 圖10所示為原始語音和最終合成圖5中前4個音階的語譜圖對比情況(圖中左側為原始語音語譜圖, 右側為合成語音語譜圖).

圖10 原始語音與合成語音語譜圖Fig. 10 Spectrum of original and synthetic speech

從處理結果可得, 實際情況下, 原始語音的音階改變存在過渡現(xiàn)象, 在基頻曲線上體現(xiàn)為兩兩音階交替處存在較短時間的下降或上升, 聽覺上更柔和, 但容易出現(xiàn)音階變換模糊, 而實驗合成結果在兩兩音階的過渡銜接處基頻曲線較為生硬, 聽覺上音階變化較短時間內(nèi)較為直接, 但時間極短, 聽覺上與原始語音差距極其微小, 可以忽略, 合成語音音階變化清晰, 容易判斷. 在圖10中, 在原始語音在每一音階范圍內(nèi), 由于現(xiàn)實中人體收到自身及外界情況的干擾, 會出現(xiàn)基頻走向在一定范圍內(nèi)的微小波動, 導致語音聽覺效果稍差, 但采用函數(shù)擬合恰好可以克服人受外界因素的影響, 基頻曲線清晰明了, 可以克服干擾產(chǎn)生的波動, 更容易控制, 在保證不失真情況下能夠合成音質較好的語音.

為測試語音合成的結果, 進行主觀實驗對比原始語音和合成語音的自然度. 實驗邀請了15位年齡在20 歲到 25歲之間, 并對音律感知較為靈敏的年輕人作為合成語音自然度測試對象. 主觀測評結果見表3.

表3 測評結果Tab. 3 Evaluation results

采用支持向量機的方法對合成的語音與原始語音之間識別率進行訓練并分類, 得到總體識別率為87.6%. 由于主觀評價存在人體自身的影響, 而客觀主要從語譜圖對比出發(fā), 因此存在一定差異. 結合主觀測試和客觀測試結果, 實驗采用高次多項式對語音基頻進行擬合, 將單一合成的基頻利用分段函數(shù)進行拼接、調整以達到語音演唱的目的, 雖然部分測試者認為合成效果不理想, 但總體來看, 合成情況較好, 能夠達到語音合成進一步應用的要求.

6 結 論

本文說明了語音主要具有音調、音色、響度這3要素, 基音頻率、共振峰頻率和幅值是語音的特征參數(shù), 對于基頻的提取, 可以根據(jù)倒譜法將聲門脈沖倒譜與聲道響應的倒譜相分離, 其中聲門脈沖即我們所求的聲帶振動頻率, 求共振峰頻率先采用FFT對語音進行變化, 對任意頻率求其功率譜, 從功率譜中分離出幅值響應, 從而得到共振峰頻率及幅值大小. 從數(shù)學角度上聲波可以等效為多個正弦函數(shù)的疊加, 其中, 正弦函數(shù)的幅值為分貝值(由聲強變化得到), 頻率為基音頻率和共振峰頻率, 且共振峰頻率為基音頻率的整倍數(shù). 通過高次多項式函數(shù)進行聲調基頻曲線的擬合, 也可以構造多個分段函數(shù)實現(xiàn)可控的基頻曲線, 最終實現(xiàn)不同音階的語調變化的語音合成和演唱效果. 從聲波產(chǎn)生的數(shù)學角度出發(fā), 通過函數(shù)擬合得到了可以控制的基頻曲線; 采用多個三角函數(shù)疊加, 實現(xiàn)了簡單的含有音階變換的語音演唱的合成. 相比當前較多的機器學習實現(xiàn)語音合成的方法而言, 實驗將語調變換特征加入函數(shù)公式中, 使得語音合成的數(shù)學本質表現(xiàn)得更為明顯, 同時彌補了當前機器合成自然度不高、缺乏情感的不足, 對今后進一步學習語音知識有一定的參考意義.

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發(fā)生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯(lián)鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 国产91精品久久| 久久人妻系列无码一区| 黄色国产在线| 91精品亚洲| 色妺妺在线视频喷水| 精品黑人一区二区三区| 国产精品va免费视频| 亚洲一区第一页| 亚洲黄色高清| Aⅴ无码专区在线观看| 亚洲精品无码久久毛片波多野吉| 女同国产精品一区二区| 国产亚洲现在一区二区中文| 日本人妻一区二区三区不卡影院| 亚洲综合色区在线播放2019| 色成人亚洲| 国产精品污污在线观看网站| 九九久久精品国产av片囯产区| 中文字幕亚洲专区第19页| 国产在线观看第二页| 亚洲无码高清一区| 亚洲第一成网站| 国产小视频免费| 欧亚日韩Av| 久热re国产手机在线观看| 四虎影视永久在线精品| 香蕉蕉亚亚洲aav综合| 成人国产小视频| 强奷白丝美女在线观看| 最新国语自产精品视频在| 青青操国产| 国产成人综合网在线观看| 国产在线麻豆波多野结衣| 久久久国产精品无码专区| 久久国产毛片| 伊人久久婷婷| 国产欧美另类| AV在线天堂进入| 久久亚洲中文字幕精品一区| 在线无码av一区二区三区| 国产传媒一区二区三区四区五区| 免费高清a毛片| 色偷偷男人的天堂亚洲av| 亚洲欧美另类专区| 夜夜操国产| 国产99视频精品免费观看9e| 亚洲欧洲日韩久久狠狠爱| 又粗又大又爽又紧免费视频| 米奇精品一区二区三区| 国产精品成人一区二区| 日韩无码视频播放| 伊在人亚洲香蕉精品播放 | 精品人妻一区二区三区蜜桃AⅤ| 亚洲第一视频网站| 亚洲欧美国产视频| 亚洲一区二区日韩欧美gif| 国产亚洲视频在线观看| 亚洲无线一二三四区男男| 97视频在线精品国自产拍| 亚洲福利视频一区二区| 大学生久久香蕉国产线观看| 又黄又湿又爽的视频| 欧美日韩北条麻妃一区二区| 制服丝袜一区| 天天综合网色| 视频二区国产精品职场同事| 午夜无码一区二区三区在线app| 国产91小视频在线观看| 久久精品66| 高h视频在线| www.亚洲天堂| 91娇喘视频| 青青草国产免费国产| 曰AV在线无码| 国产 日韩 欧美 第二页| 午夜啪啪福利| 欧美精品二区| 波多野结衣一区二区三区AV| 亚洲v日韩v欧美在线观看| 激情無極限的亚洲一区免费| 国产美女无遮挡免费视频| 高清免费毛片|