999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頻譜建模合成技術的自動音調修正系統*

2016-12-13 06:51:04
計算機與數字工程 2016年11期
關鍵詞:信號

楊 楠

(華中科技大學電子信息與通信學院 武漢 430074)

?

基于頻譜建模合成技術的自動音調修正系統*

楊 楠

(華中科技大學電子信息與通信學院 武漢 430074)

保留音色的音調修正問題一直是困擾音樂類應用發展的技術難題。論文結合自動修音的應用需求,實現了一套基于頻譜建模合成(Spectral Modeling Synthesis,SMS)技術的自動音調修正系統。它通過清濁音判決和音調檢測來實時提取歌聲的音調(音高),并與正確的參考音調(樂譜)進行對比,確定需要修正的跑調部分,最后采用論文提出的一種基于SMS技術的合成方法對歌聲進行音調修正,通過保留其原有的頻譜包絡來確保修正后音色不變。論文對系統的清濁音判決算法和音調檢測算法進行了客觀評價,對歌聲音調修正效果進行了主觀聽音評價,均達到了良好的效果。

音調修正; 頻譜建模合成; 清濁音判決; 音調檢測

Class Number TN912.33

1 引言

中國互聯網絡信息中心2015年報告顯示,網絡音樂目前是中國網民的第四大網絡應用。在各種音樂類應用中,以“唱吧”、“全民K歌”等為代表的K歌類移動應用異軍突起,并在短期內發展到上億用戶規模。但是,與國外同類應用(如:“Sing for Singapore”、“Vocal Transformer Karaoke”)相比,國內的應用僅提供去噪、混響等簡單的聲音修飾功能,普遍缺少音調修正這樣的高級功能。由于保留音色的音調修正問題一直是該領域的技術難題,本文結合自動修音的應用需求,提出了一種基于SMS技術的合成方法,并實現了一套融合清濁音判決、音調檢測、音調修正與合成等環節的自動音調修正系統。

早期的音調修正主要有時域和頻域兩類方法[1]。時域方法以時域基音同步疊加(Time Domain Pitch Synchronous Overlap and Add,TD-PSOLA)為代表,它是由Charpentier和Stella在1986年提出[2],主要用于語音合成,但也可以用于修改音調。它是通過調整時域中幀與幀的重疊范圍來改變聲音的基音周期長度,從而起到調整音調的效果。由于時域中原始信號的大部分形狀得以保留,所以音色特征在音調修正后基本保持不變。但是,由于幀與幀重疊范圍的變化會引起時延的改變,連續幀間各頻率分量的相位連續性會被破壞,音調變化較大時會出現比較明顯的回聲效應。此外,降調幅度足夠大時,各幀信號不再重疊,會破壞信號的連貫性。

音調修正的頻域方法主要是改進相位聲碼器(Modified Phase Vocoder)方法,它是由Laroche和Dolson在1999年提出[3],主要通過頻譜搬移對聲音進行修改,同時調整各頻率段的相位以保持相位連續性。與時域方法相比,它允許較大幅度的音調修正。但是,改進相位聲碼器方法的一個顯著的缺點是它改變了音色,被修正后的聲音與演唱者的聲音會有一定的差異。

語音學中,共振峰表示聲道聲學共振產生的頻譜最大值的頻率范圍,共振峰頻率和帶寬的細微變化反映了歌手聲道的物理特征和歌手的個人音色[4]。因此,在保留音色的前提下對音調進行修正的問題可以轉化為這樣一個抽象問題:保持聲音信號共振峰不變的前提下,修正各諧波分量的頻率并保證相位的連續性。

頻譜建模技術可以有效解決上述問題,它將聲音建模為頻率分量的和,且用振幅和頻率函數來實現聲音信號的參數化描述,從而可以更直觀、靈活地操縱各頻率分量的頻率、相位以及振幅。加法合成技術和SMS技術是此類方法的代表。加法合成技術是將信號建模為一系列正弦的和,但是不適用于表示類噪聲信號。Serra和Smith 1989年提出的SMS技術加入了表示噪聲的隨機分量[5],更符合人聲建模。Di Federico和Drioli 1998年首次提出將SMS技術應用于音調修正的設想,但是未見其實現細節[6]。此外,Azarov等在2013年還提出了能進一步描述子諧波分量的GUSLY模型[7],該模型對頻譜的建模更加細致,實現起來也比SMS復雜得多。

綜合可行性和復雜度等因素的考量,本文采用SMS技術來實現自動音調修正功能,并設計了一套完備的系統實現框架。該框架主要包括音調分析和音調修正兩部分,系統框架圖如圖1所示。

圖1 自動音調修正系統框架圖

2 頻譜建模合成技術

SMS技術是音調修正功能的核心,它是一種基于確定加隨機模型的聲音分析/合成技術,它具體包含確定加隨機模型、分析以及合成等三個組成部分。

2.1 確定加隨機模型

SMS技術假定輸入的聲音由確定分量加隨機分量組成。其中,確定分量限定為一系列準正弦信號的和,每個正弦建模聲音信號的一個窄帶分量,隨機分量即噪聲信號。因此,聲音信號被表示為

(1)

其中,Ar(t)和θr(t)分別為第r個正弦分量的瞬時振幅和瞬時相位;e(t)為t時刻的噪聲分量。瞬時相位是瞬時頻率ωr(t)的積分:

(2)

2.2 分析部分

SMS技術的分析部分是將聲音信號用一系列模型參數描述,其中確定分量的參數是在頻域估計得到的。確定分量的分析流程如圖2所示: 1) 對輸入的聲音信號分幀、加窗、進行傅里葉變換,得到各幀信號的頻譜; 2) 峰值檢測,即提取信號幅值頻譜中的顯著局部最大值; 3) 峰值延續,即將檢測到的峰值的子集組成一系列峰值軌跡,每個軌跡表示輸入的聲音信號中一個穩定的正弦分量。

圖2 確定分量分析流程圖

?峰值檢測

根據信號頻譜分析的原理,幅值頻譜中的各顯著峰值近似對應信號中的各正弦分量。由于DFT的柵欄效應,各顯著峰值對應的頻率是信號中實際正弦分量頻率的近似值。一種標準的解決方案是對峰值附近幅值最大的三個點(一般取峰值及其左右相鄰點)進行拋物線擬合,并用拋物線頂點(最大值)對應的頻率作為正弦分量頻率的估計值。已知信號為一個純正弦波、分析窗為高斯窗、幅值頻譜用dB表示時,該方案能得到精確的正弦分量頻率。

?峰值延續

峰值延續可以理解為線檢測問題。對于諧波結構的聲音,如果檢測到當前幀的基頻,尋找距離基頻對應的各次諧波頻率最近的顯著峰值,從而確定每一幀中各峰值軌跡上的峰值。

隨機分量的分析流程如圖3所示: 1)根據確定分量分析得到的峰值軌跡,利用加法合成技術,合成確定分量; 2) 計算確定分量的頻譜,計算方法與原始聲音的相同; 3) 采用頻域減法,從原始聲音的幅值頻譜中減去相應的確定分量的幅值頻譜,得到殘余部分的幅值頻譜; 4) 采用線段逼近方法,獲取殘余部分幅值頻譜的包絡。隨機分量即用這些頻譜包絡表示。

圖3 隨機分量分析流程圖

2.3 合成部分

SMS技術的合成部分與分析部分的功能相反,它通過確定加隨機模型的參數合成出新的聲音信號。具體流程如圖4所示: 1) 根據各峰值軌跡的振幅、頻率參數,采用加法合成技術生成各幀信號的確定分量的時域表示; 2) 根據隨機分量的頻譜包絡合成其幅值頻譜,并用隨機數生成器產生其相位譜,合成復頻譜,并采用逆傅里葉變換生成各幀信號的隨機分量的時域表示; 3) 利用重疊相加技術合成完整的信號。

圖4 SMS技術合成部分流程圖

3 音調修正系統

一個完整的音調修正系統框架如圖5所示。一個完整的音調修正系統除了音調修正部分以外,音調分析部分也同樣重要。它先通過清濁音判決算法從音頻信號中提取出有效的濁音信號(濁音信號才有音調,清音信號沒有音調),然后對濁音信號進行音調檢測,并將分析結果與歌曲的標準音調(樂譜)進行對比,從而驅動后續的音調修正功能。

圖5 自動音調修正系統流程圖

3.1 標準音調

標準音調是自動判別歌聲跑調的參考依據。由于一首歌的旋律是固定的,所以可以根據歌曲的樂譜人工制作標準音調數據,記錄各音符的信息。它們可以以規定的文件形式存儲,并由音調修正系統在初始化時載入。標準音調的文件格式一般是一行對應一句歌詞,行內格式為

[TSi,DSi]〈TWi1,DWi1,Pi1〉字i1…〈TWij,DWij,Pij〉字ij…

(3)

其中,TSi、DSi分別為第i句歌詞的開始時刻和持續時間,TWij、DWij、Pij、字ij分別為第i句歌詞中第j個音符的開始時刻、持續時間、標準音調MIDI值和對應的歌詞,時間的單位均為ms。如張震岳的《愛我別走》中第一句歌詞可以記錄為

[24333,2334]〈24333,334,67〉我〈24667,333,67〉到〈25000,333,67〉了〈25333,334,67〉這〈25667,333,67〉個〈26000,333,67〉時〈26333,334,67〉候

雖然人工制作標準音調文件比較費時,但是操作起來簡單有效。當然還有其它提供標準音調的方法,如從MIDI文件讀取或用MIDI音序器寫入、從專業歌手演唱的相同歌曲的音頻中提取等,這又屬于另外的研究領域,這里不做贅述。

3.2 清濁音判決

清濁音判決又被稱為濁音/清音/無聲分類,它是后續音調分析及修正的前提。清濁音判決方法有很多,常見的清濁音判決方法大多將語音信號的特征參數作為判決的標準。常用的特征參數包括短時過零率、短時能量以及線性預測編碼得到的參數。

本文采用結合信號的短時平均過零率和短時平均能量進行清濁音判決。濁音信號的能量主要集中于3kHz以下,平均過零率相對較低;清音信號的能量主要集中于較高頻率,平均過零率相對較高。因此,過零率可用于清濁音判決。另外,濁音段的短時平均能量一般比清音段的或背景噪聲的大得多。

將短時平均過零率Zn和短時平均能量En分別單獨作為特征參數進行清濁音判決時,兩種方法各有優缺點。將兩個參數結合起來,可以提高清濁音判決的準確性[8]:對于一幀語音信號,如果Zn和En值都為零或者都很小,判定該幀為無聲信號;如果Zn值較小,但是En值較大,判定該幀為濁音信號;如果Zn值較大,但是En值較小,判定該幀為清音信號。

此外,需要先設置清濁音判決時短時平均過零率和短時平均能量的閾值。對于濁音語音,短時平均過零率的均值約為14過零/ms;對于清音語音,約為49過零/ms。對于短時平均能量,一種閾值設置方法是以整段音頻的短時平均能量均值作為參考。

3.3 音調檢測

音調檢測的相關研究也有許多,為了控制系統整體的計算量,本文采用了雙向錯位(Two-WayMismatch,TWM)基頻估計方法[9]。TWM基頻估計方法是基于信號的短時頻譜分析實現的。它的原理為:基于輸入的歌聲信號的準諧波假設,對于每個基頻候選,在一個固定的泛音的子集上,計算對應的各次諧波理想頻率和實際測量得到的各泛音頻率的差異,即錯位誤差。選取使錯位誤差最小的基頻候選作為基頻的估計值。此外,為了避免基頻估計值為實際基頻的約數或整數倍,進行雙向錯位誤差計算。

雙向錯位誤差的計算公式為

(4)

其中,Errm-p為檢測-預測錯位誤差,Errp-m為預測-檢測錯位誤差。

檢測-預測錯位誤差的計算公式為

×[q×Δfk×(fk)-p-r]

(5)

其中,K為測量得到的泛音(包括基頻)的數目,Δfk為第k次泛音與理想諧波頻率序列中頻率最近值的差值,fk和ak分別為第k次泛音的頻率和振幅,Amax為測量得到的各泛音振幅的最大值,p、q、r分別為0.5、1.4、0.5。

預測-檢測錯位誤差的計算公式為

×[q×Δfn×(fn)-p-r]

(6)

其中,N為最大理想諧波次數,Δfn為第n次諧波的理想頻率與測量的泛音頻率序列中頻率最近值的差值,fn為第n次諧波的理想頻率,an為與第n次諧波的理想頻率最近的測量的泛音頻率對應的振幅。

對于各幀信號,將給定的歌聲最小基頻值和最大基頻值間的各頻譜峰值的頻率作為基頻候選。如果連續幀的基頻相對穩定,可以進一步縮小基頻候選的頻率范圍以減少計算量。此外,為了減少非濁音幀對鄰近濁音幀音調檢測結果的影響,將歌聲信號劃分為多個濁音段,對每個濁音段分別進行音調檢測。

3.4 音調修正

將SMS技術應用于音調修正,主要是修改SMS技術分析得到的歌聲信號的振幅、頻率和相位參數,然后合成音調修正了的歌聲信號。為了盡可能地保留音色,音調修正過程中要保持共振峰及頻譜包絡不變。具體步驟如下:

1) 修改頻率參數,使各峰值軌跡上峰值的頻率為目標音調的理想諧波頻率。

2) 為盡量保留原始歌聲的音色不變(各幀的頻譜包絡不變),各峰值頻率變換后,需要對其振幅進行修正。用幅值頻譜中各峰值軌跡上的峰值線性連接表示頻譜包絡。對于變換后得到的各峰值,在原始信號的頻譜包絡上線性插值得到對應的振幅。

3) 為了保持音調修正后各次諧波的相位在幀間的連續性,修改各峰值的相位。對于信號中的第一幀,各峰值的初相位取0~2π間均勻分布的隨機數即可。對于后續各幀信號,使連續幀間各峰值的初相位滿足相位連續。

算法實現過程中發現,如果對每一段需要音調修正的連續幀分別進行音調修正,由于修音段與未修音段銜接處的不連續性,會產生較為明顯的人為噪聲。而如果對整段音頻進行音調修正,因為SMS技術需要較為復雜的分析、合成計算,系統整體的計算量會比較大,處理時延會顯著增加。為減小上述不連續性的影響,選擇對每一個包含需要音調修正的幀的濁音段進行音調修正。

4 系統評測

本文采用了業內普遍使用的方法對自動音調修正系統進行了全面評測:在音調分析的部分,采用標準的誤差指標客觀評價清濁音判決算法和音調檢測算法的準確性;在音調修正的部分,采用主觀評價方法[7]評價修正后的音色效果。

4.1 客觀評價

選用MIR-1K for MIREX數據集,從中隨機選取10個音頻,并采用四個標準的誤差指標清濁音判決誤差(Voicing Decision Error,VDE)、嚴重音調誤差(Gross Pitch Error,GPE)、正確音調平均誤差(Mean Fine Pitch Error,MFPE)和基頻幀誤差(F0 Frame Error,FFE)[10]進行客觀評價,結果如表1所示。

表1 客觀評價結果

表中最后一行是所有測試音頻的綜合評價結果。總體來看,所有測試的GPE為0且MFPE較小,僅為3.22%,說明本文實現的音調檢測算法的準確性較好。由于GPE為0,所以評價音調分析的整體誤差的FFE與清濁音判決誤差VDE相等,說明本文音調分析的整體性能主要由清濁音判決的算法決定。而本文選用的清濁音判決算法VDE值比較大,并且對于不同的音頻文件VDE值波動較大,說明該算法還不是很理想,后續還有很大的改善空間。

4.2 主觀評價

對于音調修正效果的評價一般采用主觀評價方法,本文采用的是主觀對比平均意見得分(Comparison Mean Opinion Score,CMOS)方法。選用兩首中文流行歌曲,分別由一位男性非專業歌手和一位女性非專業歌手多次錄制,得到純人聲音頻。從中挑選測試片段,以評價不同音調修正幅度下該系統的性能。對于男聲演唱的歌曲,由于其音調一般相對較低,為達到較為明顯的觀察效果,分別選取包含偏離標準音調2個半音或3個半音的音符的片段。對于女聲演唱的歌曲,由于其音調一般相對較高,分別選取包含偏離標準音調1個半音或2個半音的音符的片段。因此,一共有8個測試片段。各個測試片段中包含的需要音調修正的音符與標準音調的偏差如表2所示。

表2 測試片段信息

分別邀請四個受過專業音樂培訓的同學和四個非專業的同學參與主觀評價。對于各測試片段,將基于SMS技術的自動音調修正系統的輸出音頻分別與源音頻和改進相位聲碼器算法的輸出音頻進行對比。對于兩音頻A和B,要求各同學對比A和B后決定“A比B好很多/好/好一點/幾乎相同/差一點/差/差很多”,其對應的得分分別為3、2、1、0、-1、-2和-3。實驗結果如表3所示。

表3 主觀評價結果

表3結果表明:基于SMS技術進行音調修正后,得到的歌曲音頻一般比源音頻要好聽一些(由于音調修正的緣故),但是變調幅度較大時,音調修正效果的評價也在降低,但評分仍然維持在正數區間。此外,在大部分情況下,基于SMS技術的音調修正算法要比改進相位聲碼器算法的修正效果好,與前面的理論分析結果一致。

5 結語

本文實現了一套基于SMS技術的自動音調修正系統。它通過清濁音判決和音調檢測來實時提取歌聲的音調,并與人工制作的標準音調文件提供的音調信息進行對比,最后采用本文提出的一種基于SMS技術的合成方法對跑調部分進行音調修正并保持其原有音色不變。實驗結果表明,該系統能提供較好的音調修正效果。

[1] Peimani M A. Pitch Correction for the Human Voice[D]. Santa Cruz: Thesis of California University, 2009.

[2] Charpentier F J, Stella M G. Diphone synthesis using an overlap-add technique for speech waveforms concatenation[C]//Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP’86. IEEE,1986,11:2015-2018.

[3] Laroche J, Dolson M. Improved phase vocoder time-scale modification of audio[J]. Speech and Audio Processing, IEEE Transactions on,1999,7(3):323-332.

[4] Kim Y E. Singing voice analysis, synthesis, and modeling[M]. New York: Handbook of Signal Processing in Acoustics, Springer,2008:359-374.

[5] Serra X, Smith J. Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition[J]. Computer Music Journal,1990,14(4):12-24.

[6] Di Federico R, Drioli C. An integrated system for analysis-modification-resynthesis of singing[C]//Systems, Man, and Cybernetics, 1998. 1998 IEEE International Conference on. IEEE,1998(2):1254-1259.

[7] Azarov E, Vashkevich M, Petrovsky A. Instantaneous harmonic representation of speech using multicomponent sinusoidal excitation[J]. Analysis,2013,2(3):3.

[8] 劉波,聶明新,向俊濤.基于短時能量和過零率分析的語音端點檢測方法研究[J].2007. LIU Bo, NIE Mingxin, XIANG Juntao. Research on endpoints detection of speech signal based on short-time energy and zero-crossing counts [J]. 2007.

[9] Maher R C, Beauchamp J W. Fundamental frequency estimation of musical signals using a two-way mismatch procedure[J]. The Journal of the Acoustical Society of America,1994,95(4):2254-2263.

[10] Babacan O, Drugman T, d’Alessandro N, et al. A comparative study of pitch extraction algorithms on a large variety of singing sounds[C]//Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE,2013:7815-7819.

An Automatic Pitch Correction System Based on Spectral Modeling Synthesis Technique

YANG Nan

(School of Electronic Information and Communication, Huazhong University of Science and Technology, Wuhan 430074)

Pitch correction with preservation of timbre has been a difficult technical issue that hinders the development of music applications. To address this problem, a spectral modeling synthesis (SMS) based automatic pitch correction system is proposed. It extracts the pitch contour in real time with voiced/unvoiced decision and pitch detection. The extracted pitch contour is then compared with the reference pitches such that the detuned parts can be determined. Finally, the proposed SMS based method is applied to the voice to correct the pitches, preserving the timbre by preserving the spectral envelop. Experimental results suggest that the proposed system can provide good pitch correction effect.

pitch correction, spectral modeling synthesis, voiced/unvoiced decision, pitch detection

2016年5月3日,

2016年6月27日

“十二五”科技支撐計劃項目(編號:2014BAK15B04)資助。

楊楠,女,碩士研究生,研究方向:音頻信號處理。

TN912.33

10.3969/j.issn.1672-9722.2016.11.016

猜你喜歡
信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
7個信號,警惕寶寶要感冒
媽媽寶寶(2019年10期)2019-10-26 02:45:34
孩子停止長個的信號
《鐵道通信信號》訂閱單
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于Arduino的聯鎖信號控制接口研究
《鐵道通信信號》訂閱單
基于LabVIEW的力加載信號采集與PID控制
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
主站蜘蛛池模板: 精品国产成人三级在线观看| 538国产在线| 欧美在线国产| 国产又大又粗又猛又爽的视频| 亚洲av综合网| 极品尤物av美乳在线观看| 亚洲综合亚洲国产尤物| 亚洲欧美日韩精品专区| 色婷婷综合在线| 美女啪啪无遮挡| 综合天天色| 日本成人精品视频| 久草热视频在线| 台湾AV国片精品女同性| 欧洲高清无码在线| 99精品影院| 欧美丝袜高跟鞋一区二区| 欧美在线三级| 色噜噜中文网| 国产成人精品在线1区| 国产精品毛片一区视频播| 国产成本人片免费a∨短片| 免费高清自慰一区二区三区| 久久精品人人做人人综合试看| 91啦中文字幕| 人人澡人人爽欧美一区| 久久久四虎成人永久免费网站| 久久99国产综合精品1| 国产精品美女免费视频大全| 乱系列中文字幕在线视频| 亚洲欧洲免费视频| 国产AV毛片| 欧美成人精品在线| 国产精品女主播| 精品福利视频网| 亚洲人成网站色7799在线播放| 夜夜高潮夜夜爽国产伦精品| 精品91自产拍在线| 91探花国产综合在线精品| 91精品网站| 国产精品永久久久久| 国产美女自慰在线观看| 国产网站免费观看| 黄色网站不卡无码| 久久91精品牛牛| 午夜啪啪福利| 欧美成人手机在线观看网址| 青青操国产| 国产精品对白刺激| 漂亮人妻被中出中文字幕久久| 自拍偷拍欧美| 丁香六月综合网| 日本色综合网| 中文字幕久久波多野结衣| 久热中文字幕在线| h视频在线播放| 国产成人高清精品免费| 99热线精品大全在线观看| 国产内射一区亚洲| 最新无码专区超级碰碰碰| 一级福利视频| 美女扒开下面流白浆在线试听| 亚洲精品片911| 91福利在线观看视频| 天天色天天操综合网| 日韩a在线观看免费观看| 国产精品观看视频免费完整版| 亚洲欧美日韩成人高清在线一区| 欧美国产精品拍自| 中国一级特黄大片在线观看| 亚洲天堂网2014| 五月婷婷欧美| 国产精品女熟高潮视频| 国产无码精品在线| 精品自窥自偷在线看| 亚洲最新网址| 亚洲丝袜中文字幕| 国产jizzjizz视频| 尤物午夜福利视频| 久久精品人妻中文视频| 又爽又大又黄a级毛片在线视频| 日韩午夜福利在线观看|