999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡的歌曲旋律與人聲分離系統設計與實現

2019-10-19 07:31:28董興寧蔡宇航
現代計算機 2019年25期
關鍵詞:信號模型

董興寧,蔡宇航

(江蘇大學計算機科學與通信技術學院,鎮江212013)

0 引言

隨著科技的進步,多媒體技術的不斷發展,人們對音樂的追求在不斷地提高。然而,現今并沒有一款專門的應用可以做到分離歌曲的人聲與伴奏,這使得許多人在聽歌時不能切換到伴奏狀態進行哼唱和練習。此外,歌曲人聲分離還可用于自動歌者識別、音樂標注、音樂的去噪與增強、基于內容的音樂檢索等方面。因此,開發歌曲人聲分離的軟件勢在必行。

對于實際歌曲中的復雜聲音,由于其聲源的復雜性和多樣性,加之可能存在的背景噪聲的干擾,使對于這一領域的研究還不夠成熟。目前主流的人聲分離算法大致可分為基于時頻分解的分離技術和基于基音分解的分離技術。在時頻分解領域,Vembu[1]用非負矩陣分解(Non-negative Matrix Factorization,NMF)來重組混合頻譜中的不同音源,該方法能有效地進行簡單的音樂分離,但當樂器數量增加時效果就會明顯下降;在基音分解領域,Hsu[2]利用基音檢測算法來檢測人聲部分,然后將人聲的基音反復迭代以優化人聲和伴奏的分離效果;但其學習模型需要足夠多的數據進行先驗分離,且精確的基音檢測本身仍是一個未解決的問題。

1 技術路線及原理

圖1 為本系統算法的總體設計路線:首先對原始音頻進行預處理,然后提取人聲特征,并放入搭建好的語音模型中訓練學習,最后輸出降噪處理后的人聲流和樂聲流。

以下就四個重要的技術環節做分開闡述。

1.1 預處理

由于原始歌曲存在格式、碼率、噪聲等問題,不能直接放入模型中訓練,故須進行預處理,其中包含了預加重,分幀和加窗的操作。預加重(Pre-emphasis)是發

送端對輸入信號高頻分量的提升,其目的是補償高頻分量在傳輸過程中的過大衰減。由于語音信號具有短時平穩性,故把其分為一些短段進行處理,即分幀操作;同時為了避免丟失語音信號間的動態信息,在相鄰幀之間須留有一段重疊區域,即幀移;然后逐幀乘以窗函數,以增加每幀左端和右端的連續性,避免出現吉布斯效應。本文所設置的幀長為30ms,幀移為15ms,所加的窗函數為漢明窗。

1.2 特征提取

預處理完成后,須提取語音信號的梅爾頻率倒譜(Mel-scale Frequency Cepstral Coefficients,MFCC)特征,作為訓練模型的輸入。Mel 頻率倒譜參數能很好地反映人耳聽覺系統的非線性特性,并在特征提取過程中利用了歌唱者的音調特性,是用于人聲特征提取最有效的特征之一。

MFCC 的提取分為以下幾個步驟:快速傅里葉變換(Fast Fourier Transformation,FFT)、三角帶通濾波,離散余弦變換(Discrete Cosine Transform,DCT)和動態差分參數提取。其中,FFT 是為了將語音信號從時域信息轉換為更易處理的頻域能量分布;三角帶通濾波是為了對頻譜進行平滑化,突顯原語音的共振峰;DCT 是為了計算L 階的Mel 參數,這里的L 階是指MFCC 的系數階數,本文選取為12;最后,分別提取該系數的一階差分和二階差分,得到整段音頻的MFCC 特征。

(5)當數據到達入口隧道路由器ITR后,對其實行解封裝,并將解封裝后的數據發至主機X。至此,端到端的交互過程全部完成。

1.3 模型訓練

本模型是一個由多層全連接組成的循環神經網絡,該部分用于學習上文得到的人聲特征,并通過多層的非線性結構不斷優化學習,最后根據訓練完成的隱層表達來重構人聲和伴奏部分。具體而言,本模型的RNN 網絡共分為3 層,除最后一層由tanh 函數激活外,其余各層均由relu 函數激活。同時選取了Adam優化器作為優化算法,使得模型能夠自動調整學習率;最后,選用了二值時頻掩蔽函數作為損失函數,其公式如下所示,其中代表模型在第t 幀的輸出,y1t和y2t代表在t 時刻的純凈人聲與伴奏聲,?是一個性能常量。式中第一、三個平方差旨在使分離后的人聲、樂聲與純凈的人聲、樂聲進一步接近;其余的平方差旨在使分離后的人聲、樂聲包含更少的混聲。

本模型首先輸入混合信號x_mixed,藉由其內部進行非負矩陣分解,計算合成等操作初步得到2 個輸出,分別對應著的人聲流和樂聲流,然后和純凈人聲、樂聲頻段進行二值運算,將結果送入到Adam 算法優化器中進行調整,最后反饋給RNN 的網絡進一步優化和學習。

1.4 后處理

為了進一步提高分離后的音頻質量,須對得到的人聲流和樂聲流進行降噪處理,然后再做快速傅里葉逆變換(IFFT)得到相應的人聲、樂聲輸出。本文選取了Berouti 的改進譜減法進行降噪處理,即用帶噪信號的頻譜減去噪聲信號的頻譜;其公式如下所示,其中PS( w )為輸入的語音頻譜,Pn( w )為估計的噪音頻譜,D( w )為差值頻譜,α 為相減因子。

由于相減后D( w )可能會出現負值,故須通過以下公式進行相應的調整,其中PS'( w )為最終確定的語音頻譜,β 為頻譜下限閾值參數,max()為求最大值函數。

圖1 系統算法流程圖

2 實驗測試與分析

2.1 數據集

本文采用了兩種方法構造可供訓練與測試的數據集。部分數據直接來源于MIR lab 的MIR-1K 數據集,該數據集由1000 余個歌曲片段構成,人聲和伴奏聲分別存放在不同的通道里,且每個歌曲均為16kHz 的采樣率,均為wav 格式,片段長度由4~13s 不等;但該數

據集大多為偏抒情性質的歌曲,缺少重金屬、搖滾類等背景嘈雜的音頻;故剩余數據仿照MIR-1K 的制作方法,多選取上述所欠缺類型的音樂,采用人聲清唱+伴奏獨播的方式合成,并將其放在兩個通道,手動分片后添加了標簽。其目的是豐富總體數據集的多樣性,提高整體模型的訓練效果。

2.2 實驗設置

根據上文第一節所介紹的技術路線,首先構造相應的RNN 模型;并將數據集分為訓練集(70%)和測試集(30%),在模型訓練完成后,輸入測試集數據,得到待測試的人聲組和樂聲組輸出。

首先進行有效性分析;隨機抽取測試結果中的16組歌曲,將輸出的人聲流、樂聲流和原歌曲在經過聲道分離后的人聲流、樂聲流同時進行波形輸出,比較分離前后的波形圖。

其次進行性能對比評價分析;這里采用了平均主觀意見分(Mean Opinion Score,MOS)作為評價分離后音頻質量的主要指標。MOS 是目前最被廣泛使用的語音評定方法,其評分的標準主要包括人聲與伴奏的分離程度、信噪比、失真程度等;它的取值范圍為[0,5],其結果從低到高共分為1~5 共5 個等級,1 為差,2 為一般,3 為正常,4 為好,5 為最好。在實際環境中人們交談的MOS 值一般在2.0~3.0 之間,此時人耳很難辨別出差異;低于此閾值則信號衰落的較為明顯,人耳可明確分辨。

本實驗中,采用PESQ 算法估算歌曲的MOS 值。PESQ 是國際電信聯盟(International Telecommunication Union,ITU)提出的一種語音質量客觀評價算法,與MOS 評分的相關度達到了0.97。其算法具體步驟如圖2 所示:首先將參照語音信號和待測語音信號調整至標準聽覺電平,再進行輸入濾波,并將兩個信號的時間對齊,然后進行聽覺轉換,并將轉換之后的輸入和輸出信號差值通過認知模型再處理,計算出最終的PESQ 分值,即PESQMOS 值。

圖2 PESQ算法流程圖

計算最后PESQ 得分的公式如下所示,其中dsym為對稱干擾,dasym為非對稱干擾;PESQMOS 值的最終范圍為[-0.5,4.5]:

所有的實驗都在Windows 10 操作系統下完成,開發語言為Python 3.6.0,深度學習框架為TensorFlow-GPU 1.10.0,編譯器為MSVC 2015 update 3;批量訓練的數量設置為96,總迭代次數設置為80000;而再約50000 次迭代后loss 值趨于穩定,表明訓練完成。

2.3 性能評估

有效性分析:隨機抽取測試結果中的部分歌曲,以abjones_2.wav 歌曲為例,其分離前后的波形圖如圖3所示。對比分離前后的樂聲波形(子圖1 和子圖2)與人聲波形(子圖3 與子圖4),可以發現分離后的人聲流和樂聲流與原始音頻的波形幾乎一致,且在背景音樂中也沒有殘留的人聲基音及其諧波分量,反映出該算法能有效地實現人聲與樂聲的分離。

圖3 abjones_2.wav原歌曲與分離后歌曲的波形對比圖

性能對比評價分析:隨機抽取測試結果中的10 組歌曲,按上文實驗設置中的方法計算其PESQMOS 值,其中參照方法如表1 所示,所得結果如表2 所示。

表1 參照方法

表2 10 組歌曲的PESQMOS 值

由表2 可知,對比原歌曲,分離后的人聲流和樂聲流的PESQMOS 評分均在2.6-3.6 分之間,平均得分約為3.0 分左右,即所謂的“正常”等級。在該等級下,分離后的信號失真程度較低,人耳不易辨別出差異,其效果近似于全速率的語音編碼無線通信的話音質量(MOS 值一般為3.1-3.2),可以達到實際的應用需求。同時注意到,對比原歌曲MOS 值1.15 分的均分,本算法分離后音頻間的MOS 值更低,為0.59 分,這說明了本算法分離后的人聲與樂聲之間無關性更強,冗雜的混音更小,一定程度上體現了本算法的優越性。

3 系統設計

本文以網站的形式將上述成果落地,系統的整體設計如圖4 所示。

圖4 系統設計實現圖

3.1 前端設計

在網站主頁面中植入了一個浮動框架(iframe),作為提示用戶輸入歌曲位置、進行下載操作的交互窗口。其頁面的書寫主要為HTML 語言,并使用了CSS語言進行美化,使用了JavaScript 腳本語言處理部分控件和事件。

3.2 后端設計

本文采用了Python Web 的Django 框架作為支持后臺腳本運行的語言。Django 是一個開放源代碼的Web 應用框架,采用了MVC 的框架模式,并擁有多個組件及許多功能強大的第三方插件,這使得Django 具有很強的可擴展性。

本文采用了Django 框架中的表單機制進行前后端交互,通過統一資源定位符(Uniform Resource Locator,URL)進行前端控件名稱和后端處理函數的綁定,以此實現文件上傳、文件處理、文件下載、頁面轉移的功能。本系統還引入了Session 機制,其目的是為了防止有多個用戶在使用網頁時,所可能產生的數據冗雜或混亂的問題,以提高網站的并發性和健壯性。

3.3 系統測試

考慮到實際應用中用戶上傳歌曲的復雜性,本文選擇了多種類型的音樂進行了驗證和測試,包括中文樂曲(曲1~2)、現場錄制樂曲(曲3)、男女合唱樂曲(曲4)、英文樂曲(曲5),其結果如表3 所示;由于各歌曲清唱人聲的獲取難度遠大于伴奏資源,本文只將分離后的歌曲伴奏與原聲伴奏進行了對比,并計算其MOS值;各歌曲及相應的伴奏音頻均來源于正版授權音樂。

表3 5 首歌曲的分離效果評估

由表3 可知,對于時長在5 分鐘(300 秒)內的歌曲,本系統的處理時間一般小于80 秒,處理速度較快;同時,本系統分離后的人聲與樂聲音頻大小相比原歌曲均有超過半數的下降,這有效地節省了內存;此外,分離后的伴奏聲與原歌曲的MOS 評分均在2.9 分左右,與實驗值接近,說明其分離失真程度并不影響實際使用體驗。這些都說明本系統能較好地完成歌曲人聲與伴奏分離的任務。

4 結語

本文設計并實現了一個基于循環神經網絡的歌曲旋律與人聲分離系統,通過MFCC 提取特征參數,利用RNN 進行建模學習,并進行實驗驗證了該算法的有效性,最終遷移實現了相應的Web 端系統,完成了將原歌曲分成人聲流和樂聲流的目標。該系統操作簡單,分離的樂曲較清晰、混音小,且具有較高的用戶友好性;但本系統所得到的輸出音頻質量仍不是最好,且在線處理的耗時較長,未來可通過進一步調整參數以優化訓練模型,及裁剪神經網絡以縮短后端處理時間,從而提高整體系統的處理效果和吞吐速度。

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲国产在一区二区三区| 91网红精品在线观看| 一级毛片在线直接观看| 激情综合网址| 中文精品久久久久国产网址 | 在线观看国产精品第一区免费| 99er这里只有精品| 亚洲日韩日本中文在线| 波多野结衣在线se| 亚洲无码视频一区二区三区 | 国产制服丝袜91在线| 中文字幕人妻av一区二区| 免费国产黄线在线观看| 欧美视频免费一区二区三区| 亚洲国产成人精品青青草原| 精品伊人久久大香线蕉网站| 欧美日韩国产综合视频在线观看| 欧美中文字幕在线二区| 亚洲AV色香蕉一区二区| 国产精品密蕾丝视频| 亚洲男人天堂2018| 91探花国产综合在线精品| 国产在线自乱拍播放| 无码精品一区二区久久久| 欧美色视频日本| 欧美日韩va| 亚洲国产欧美目韩成人综合| 国产精品无码影视久久久久久久 | 日韩欧美色综合| 亚洲国产精品久久久久秋霞影院| 国产日韩欧美精品区性色| 国产小视频a在线观看| 99在线视频免费| 欧美一区二区三区国产精品| 亚洲毛片在线看| 日本精品视频一区二区| 91国内视频在线观看| 成人福利在线免费观看| 99激情网| 无码综合天天久久综合网| 一级毛片在线播放| 九九视频在线免费观看| 中国丰满人妻无码束缚啪啪| 福利一区三区| 久久国产精品国产自线拍| 精品欧美一区二区三区久久久| 国产亚洲欧美在线视频| 99热这里都是国产精品| 亚洲综合久久成人AV| 亚洲精品在线91| 岛国精品一区免费视频在线观看| 中文字幕1区2区| 无码日韩精品91超碰| 久久鸭综合久久国产| 亚洲国产精品无码AV| 韩国福利一区| 国产精品女在线观看| 久久亚洲国产一区二区| 色噜噜久久| 亚洲欧美成人影院| 久久 午夜福利 张柏芝| 四虎影视8848永久精品| 五月婷婷亚洲综合| 毛片网站在线播放| 成人国产一区二区三区| 99精品影院| 欧美无遮挡国产欧美另类| 性视频久久| 黄色网站不卡无码| 呦女亚洲一区精品| 亚洲欧洲综合| 国产精品亚洲专区一区| 美女一区二区在线观看| 中文字幕无码中文字幕有码在线| 国产日韩精品一区在线不卡 | 一区二区偷拍美女撒尿视频| 干中文字幕| 国产成人AV大片大片在线播放 | 欧美在线天堂| 制服丝袜国产精品| 国产精品视频白浆免费视频| 亚洲高清中文字幕在线看不卡|