999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NMF的老電影音頻背景噪聲修復算法

2017-07-19 12:08:55張葉君楊衛英
上海大學學報(自然科學版) 2017年3期
關鍵詞:信號模型

張葉君,楊衛英

(上海大學上海電影學院,上海 200072)

基于NMF的老電影音頻背景噪聲修復算法

張葉君,楊衛英

(上海大學上海電影學院,上海 200072)

老電影音頻資料經過長時間的存儲會出現音頻純度低、存在噪聲等問題.利用非負矩陣分解(non-negative matrix factorization,NMF)算法對單聲道音頻中的背景噪聲進行自動、快速檢測和分離以去噪.對非噪聲和噪聲信號分別建立相應的模型,即前者使用正弦模型;后者的模型通過對老電影中先驗噪聲信號進行訓練得到,然后使用一種條件受限的NMF算法對音頻中的背景噪聲進行分離.實驗結果表明,該算法在去噪效果上要優于直接濾波等去噪算法.

非負矩陣分解;音頻去噪;盲源分離;噪聲模型訓練

“老電影”主要指影像制作過程中使用傳統的光化學或物理處理技術,以膠片為存儲介質的電影,這些電影主要在20世紀進行制作和發行.由于膠片本身的特性,經過長年累月的存放,會出現不同程度的磨損、老化,使得老電影出現音頻內容的缺失、音頻中存在噪聲、純度低等問題[1].另外,早期錄音技術、設備、環境等條件限制還導致了音質低劣問題.這些老電影顯然無法滿足現代影迷的觀感,為了能讓它們重返熒屏,膠片老電影的保存和修復也成為業界亟待解決的問題.

對于老電影音頻噪聲的修復,國際上沒有通用的系統方法.絕大多數的修復流程是先利用膠轉磁、磁片還音車等設備將膠片聲音進行數字化處理和存儲,然后導入音頻工作站中進行人工修復[2].目前已有一些專業的商用軟件和插件能提供音頻的去噪、增強等功能,如iZotope系列、Sonnox系列,它們的核心去噪算法主要基于減譜法[3]、直接濾波(如卡爾曼濾波)[4]等方法.這些方法在檢測噪聲位置及設置參數時,還需要依靠人工作業,會耗費大量的人力、金錢和時間,另外業內還缺乏技術熟練的修復人員,不能滿足海量的影像修復需求.

為了能自動、快速地檢測和修復老電影中的音頻噪聲,本工作采用以下思路:音頻噪聲的修復也可理解為從聲音信號中分離出噪聲信號,因而可將此問題視為盲源分離情況[5].將輸入信號看作非噪聲信號和噪聲信號的合成,然后利用技術手段對這兩種信號進行分離,即可達到去噪的目的.

非負矩陣分解(non-negative matrix factorization,NMF)[6]是近年來在數據分析、圖像處理、盲源分離、語音增強[7-9]等領域興起的技術.NMF先將數據看成大矩陣,將其分解成兩個維度較小的矩陣,其中分解得到的矩陣能保留事物的特征,甚至可發現隱藏的特征成分.另外,如果能用模型表述數據中的不同特征,那么還可以利用NMF對這些特征進行提取和分類.雖然NMF在聲音修復方面尚無具體的應用,但已廣泛用于音頻的相關研究[10-12],特別是在非穩態噪聲環境下的語音增強領域.已有研究工作表明,要將NMF運用于特定的環境中,關鍵是需要根據待處理數據的類型構建合適的模型,模型可以是數學公式,也可以是通過樣本訓練獲取的模型.

本工作在NMF算法的基礎上加以擴充,提出如圖1所示的老電影音頻噪聲修復流程,主要有以下兩方面的創新.

圖1 基于NMF的老電影音頻背景噪聲修復流程Fig.1 Flow chart of NMF-based historical film audio background noise reduction

(1)提出將NMF應用到電影原音的噪聲修復中.已有噪聲修復研究使用的原始樣本是由不含噪聲的純音頻信號通過人工加噪得到帶噪信號,再利用NMF進行去噪.而本工作待處理的原始樣本是老電影中的音頻,本身便帶有噪聲.

(2)對老電影音頻中的非噪聲和噪聲信號構建不同的信號模型加以區分.前者采用正弦模型,后者通過先驗噪聲樣本訓練得到,然后使用一種條件受限的NMF(constrained non-negative matrix factorization,CNMF)算法分離出其中的噪聲.

1 NMF算法

NMF是將一個非負矩陣V分解為兩個維度更低的非負矩陣W和H,即V≈WH,其v為列向量.同理,W和H也可以分別用列向量w和h來表達,分解公式可以寫成等于W的每一列乘上hj中對應元素后的總和.一般將W稱為基矩陣或特征矩陣,將H稱為系數矩陣或增益矩陣.NMF算法試圖將高維數據壓縮成低維數據,并保留原始數據的特征,亦可以抽取其中隱藏的局部特征.不過,構造出良好的基矩陣W是關鍵.

在NMF算法[13]中,首先隨機初始化W和H.為了保證分解前后數據的完整性,要使W和H的乘積盡可能接近V.通過設置迭代公式,對W和H進行迭代更新,同時還需要選取代價函數來測量V和WH的相似度,當代價函數小于某個閾值時,停止迭代,輸出更新后的W和H.一般代價函數選擇KL散度(Kullback-Leibler divergence)來測量二者的相似度:

為了不斷減小D(V∥WH)的值,可對初始的W和H利用以下乘性更新法則進行迭代直至收斂:

式中,Hadamard積⊙和除運算定義為兩個矩陣對應元素的乘和除,1為元素全為1的矩陣.不過NMF算法只解決了如何對W和H進行迭代更新,使得WH能不斷逼近V,并未涉及如何提取具有不同特征的局部數據.

一般電影聲音中的非噪聲大致可以分為對白、背景音樂和音效三部分.對白,即人物間的對話,可視為語音信號;背景音樂主要是通過不同音色的樂器演奏得到;至于音效,其種類五花八門,如碰撞聲、擬聲、摩擦聲等.這些聲音雖然發聲方式不同,但均可看成是由一系列的正弦分量疊加得到.

而聲音中存在的噪聲大多不能轉換成穩定的振動,或者是在自然界中不能表示為正弦形式的能量成分.因而可將聲音信號x(t)看作非噪聲信號s(t)和噪聲信號n(t)疊加的模型[14]:

為了能將NMF算法用于老電影音頻中非噪聲和噪聲信號的分離(見圖2),需要分別對非噪聲和噪聲構造不同的模型.

圖2 NMF分離非噪聲矩陣Ws,Hs和噪聲矩陣Wn,Hn示意圖Fig.2 Diagram of separating harmonic matrix Ws,Hsfrom noise matrix Wn,Hnusing NMF

2 將NMF算法用于音頻噪聲修復

2.1 老電影聲音信號基矩陣模型

2.1.1 非噪聲信號的正弦模型

非噪聲信號s(t)在時間域上可以近似表示為任意不同幅度、頻率和相位的正弦信號之和[15]:

式中,p表示第p個正弦分量(p級諧波),ap,fp,?p分別表示幅度、頻率和相位.

利用上述正弦模型構建矩陣Ws∈,如圖3所示.矩陣的第p列代表第p個正弦分量,矩陣的維度N則代表各個正弦分量對應的幅值,即列向量中的元素為每個正弦分量對應的N個采樣點的幅值.經過短時傅里葉變換(short-time Fourier transform,STFT)取絕對值后,可得非噪聲基矩陣

圖3 非噪聲和噪聲基矩陣模型的構建Fig.3 Modeling of harmonic and noise basis matrix

2.1.2 噪聲信號模型的訓練

老電影音頻中的噪聲主要由膠片的臟點、劃痕、顆粒等問題引起,若按持續時長來分,可將這些噪聲分為短時噪聲和背景噪聲;若按噪聲內容來分,可分為咔噠聲、爆破聲、嗡嗡聲等.這些噪聲大部分可視為白噪聲和其他類型的隨機噪聲,并且服從一定的統計分布規律.對于隨機信號,比起直接建立模型,利用先驗的噪聲樣本進行訓練效果會更好.要完整地得到老電影音頻噪聲的先驗特征,需要建立噪聲訓練庫,獲取老電影中各類噪聲的樣本,然后利用NMF算法進行訓練得到對應類型噪聲的基矩陣.但現有的老電影樣本中很少有純噪聲的音頻片段,特別是對于一些短時噪聲,往往伴隨著對白或者音樂一起出現.因此本工作中噪聲訓練的對象暫且只考慮背景噪聲這一類.

在影像的某些時間段,會存在沒有對白、音樂,而只有背景噪聲的情況.提取出這段時間的聲音,每個樣本大約3~5 s,作為純噪聲信號n(t)進行訓練:首先,進行STFT,取絕對值后的幅度譜作為NMF的輸入矩陣接下來,利用傳統的NMF算法對進行處理,得到純噪聲的基矩陣

2.2 受限的聲音信號基矩陣模型

不同的數據類型,如文本、圖像、音視頻等,具有不同的表達特征.若在構建信號模型時直接使用NMF算法,去噪時會濾掉一些非噪聲成分.為了能夠有效利用NMF算法對這些數據進行處理,需要根據數據的特點和處理的目的對NMF算法進行優化.Wang等[16]對改進、優化的NMF算法進行了歸類,將其分為受限NMF、結構化NMF和廣義NMF等.為了能更好地區分非噪聲和噪聲信號,本工作基于文獻[17]的方法思路,通過構建受限的非噪聲和噪聲基矩陣(見圖4),用于老電影音頻噪聲的修復.

圖4 非噪聲和噪聲受限基矩陣的模型構建Fig.4 Modelling of harmonic and noise constrained basis matrix

2.2.1 CNMF中非噪聲基矩陣的構建

假設CNMF中受限的非噪聲基矩陣Ws有L列,其中包含f個基頻,每個基頻有n列,那么L=fn.接下來對Ws中的原子進行構建,將2.1節中的非噪聲基矩陣乘上三角脈沖信號向量es∈得到非噪聲原子即受限的基矩陣Ws可以看成是原基矩陣與脈沖信號的線性組合.那么非噪聲受限基矩陣Ws∈可以表示為

2.2.2 CNMF中噪聲基矩陣的構建

假設CNMF中受限的噪聲基矩陣Wn有K列,將2.1節中的噪聲基矩陣乘上一個隨機系數向量en∈,得到噪聲原子∈.那么噪聲受限基矩陣Wn∈可以表示為

2.3 基于CNMF的噪聲分離

將構建好的受限基矩陣Ws和Wn組合為混合基矩陣的原子w可以表示為

利用式(8)初始化W,并隨機初始化H(見圖5).利用代價函數(9)度量相似度,利用式(10)和(11)分別對H和W進行迭代更新.

圖5 CNMF中W和H的初始化Fig.5 Initialization of W and H matrix in CNMF

3 去噪實驗

實驗中待修復的老電影音頻樣本從上海電影技術廠獲得.音頻格式為WAV,采樣頻率為44.1 kHz,單聲道.實驗平臺為Matlab R2016a.選取一些長10 s左右的音頻片段,音頻的主要內容為非噪聲部分(包括樂器音效、人物間的對白、音樂等)、局部的顆粒聲以及始終存在的背景嗡嗡聲.然后,分別用本工作提出的算法和人工去噪插件進行噪聲修復,并利用波形幅度分布分析信噪比(waveform amplitude distribution analysis signal-to-noise ratio, WADA-SNR)[18]作為客觀評價指標進行對比分析.選取iZotope RX2和Sonnox Oxford這兩款影視行業常用的噪聲修復插件,其核心去噪算法分別基于減譜法和直接濾波法.

3.1 基于CNMF的去噪實驗過程

步驟1選取一段帶噪聲的音頻信號x(t),經過STFT取絕對值后獲取幅度譜V∈在STFT過程中,幀長(漢寧窗長)為1 024個樣本,幀移為25%的幀長.

步驟2利用CNMF算法分離噪聲.收斂后提取出非噪聲基矩陣和系數矩陣,相乘得到去噪的幅度譜Vs∈

CNMF算法中一些實驗參數的設置如下:純噪聲樣本訓練中,噪聲的基矩陣M取32,受限噪聲基矩陣的原子長度K取 32;構建的受限非噪聲基矩陣模型的正弦分量P取30,基頻范圍為40~400 Hz,梯度為10 Hz,即非噪聲模型的基頻有40,50,…,400 Hz,每個基頻的原子長度n為8.

步驟3去噪后的幅度譜經過維納濾波和逆短時傅里變換(inverse STFT,ISTFT),得到去噪信號s(t)及頻譜圖.在聽感上,令人厭煩的背景嗡嗡聲已去除.

3.2 實驗結果比較與分析

仍然采用上述音頻信號x(t),利用兩種去噪插件進行去噪,得到的去噪前后的頻譜圖如圖6所示.實驗結果表明,即使在專業人員的指導下最大限度地發揮去噪插件的功能,也只能濾掉一部分噪聲,在聽感上從頭到尾仍能感受到背景底噪聲.而采用本工作提出的CNMF算法,對老電影中的背景噪聲進行了較好的分離,修復效果要優于去噪插件所使用的減譜法和直接濾波法.從頻譜圖也可看到,采用CNMF算法的噪聲能量得到了更為明顯的衰減.

圖6 不同算法修復結果頻譜對比Fig.6 Comparisons of spectrogram using different reduction algorithms

接下來,選取12段不同內容的含噪音頻片段,每段時長10 s左右,其中4段只含有對白元素,4段只含有音樂元素,另外4段同時含有對白和音樂.然后,分別用上述3種去噪方法進行處理,并使用一種改進的信噪比度量方法WADA-SNR作為評價指標進行比較.WADA-SNR的值越大,則表明音頻質量越高,最大值為100 dB,實驗結果如表1所示.實驗數據表明:利用CNMF算法修復后的音頻質量更佳.

另外,去噪插件在分離噪聲的同時,也會濾掉少部分有用的非噪聲信號能量,尤其是減譜法,從頻譜圖中可以看到原始非噪聲的低頻成分遭到了破壞.在本工作提出的CNMF算法中若不對NMF算法增加限制條件,去噪時會將少部分的高頻非噪聲成分視為噪聲進行分離,導致音頻出現輕微的削波現象.而增加受限條件的CNMF算法則能夠在分離噪聲的同時,更好地保留非噪聲信號的成分.也就是說,對NMF算法進行優化,可提高噪聲分離的準確性.

表1 不同噪聲修復方法WADA-SNR指標的對比Table 1 Comparisons of WADA-SNR using different noise restoration methodsdB

4 結束語

針對大量老電影音頻資料經長期存放瀕臨損毀的問題,本工作提出一種基于NMF的算法對老電影音頻中存在的背景噪聲進行修復.主要貢獻有:①將NMF算法應用于老電影原音的噪聲修復中;②分別構建了非噪聲和噪聲信號模型,前者利用正弦模型,后者通過對先驗噪聲信號的訓練得到,再利用CNMF算法對老電影音頻中存在的背景噪聲進行分離.實驗結果表明:所提出算法在去噪效果上要優于減譜法和直接濾波法.

雖然本工作提出的算法用在非噪聲成分較多,且在存在背景噪聲的情況下效果較好,而對于音頻中聲音要素少、噪聲多的片段,則修復效果一般.另外,由于噪聲訓練階段主要使用的是背景噪聲樣本,因而對于短時間內突然出現的其他類型噪聲如咔噠聲,還不能很好地進行抑制.未來在信號模型的構建、噪聲庫的訓練、NMF算法的優化、修復效果的客觀評價指標等方面還有待進一步研究.

[1]Rumsey F.Challenges in archiving and restoration[J].Journal of the Audio Engineering Society, 2016,64(1):94-97.

[2]Napieralska J.Concept of film sound restoration by adapting to contemporary cinema theatre[C]//138th Audio Engineering Society Convention.2015:1031-1039.

[3]Lukin A,Todd J.Suppression of musical noise artifacts in audio noise reduction by adaptive 2-D filtering[C]//123rd Audio Engineering Society Convention 123.Audio Engineering Society. 2007.

[4]Grancharov V,Samuelsson J,Kleijn B.On causal algorithms for speech enhancement[J]. IEEE Transactions on Audio Speech&Language Processing,2006,14(3):764-773.

[5]Belouchrani A,Abed-Meraim K,Cardoso J F,et al.A blind source separation techinique based on second order statistics[J].IEEE Transactions on Signal Processing,1997,45(2):434-444.

[6]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J]. Nature,1999,401(6755):788-791.

[7]Gillis N.The why and how of nonnegative matrix factorization[J].Regularization,Optimization,Kernels,and Support Vector Machines,2014,12:257-291.

[8]Weninger F,Roux J L,Hershey J R,et al.Discriminative NMF and its application to single-channel source separation[C]//15th Annual Conference of the International Speech Communication Association.2014:865-869.

[9]Zhou J,Chen S,Duan Z.Rotational reset strategy for online semi-supervised NMF-based speech enhancement for long recordings[C]//Applications of Signal Processing to Audio and Acoustics.2015:1-5.

[10]F′evotte C,Bertin N,Durrieu J.Nonnegative matrix factorization with the Itakura-Saito divergence:with application to music analysis[J].Neural Computation,2009,21(3):793-830.

[11]Wilson K W,Raj B,Smaragdis P,et al.Speech denoising using nonnegative matrix factorization with priors[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.2008:4029-4032.

[12]Papadopoulos P,Vaz C,Narayanan S S.Noise aware and combined noise models for speech denoising in unknown noise conditions[C]//17th Annual Conference of the International Speech Communication Association.2016:2866-2869.

[13]Lee D D.Algorithms for nonnegative matrix factorization[J].Advances in Neural Information Processing Systems,2001,13(6):556-562.

[14]Serra X.Musical sound modeling with sinusoids plus noise[M].Amsterdam:Royal Swets& Zeitlinger,1997:91-122.

[15]McAulay R,Quatieri T.Speech analysis/synthesis based on a sinusoidal representation[J]. IEEE Transactions on Acoustics Speech&Signal Processing,1986,34(4):744-754.

[16]Wang Y X,Zhang Y J.Nonnegative matrix factorization:a comprehensive review[J].IEEE Transactions on Knowledge&Data Engineering,2013,25(6):1336-1353.

[17]Bertin N,Badeau R,Vincent E.Fast Bayesian NMF algorithms enforcing harmonicity and temporal continuity in polyphonic music transcription[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.2009:29-32.

[18]Kim C,Stern R M.Robust signal-to-noise ratio estimation based on waveform amplitude distribution analysis[C]//9th Annual Conference of the International Speech Communication Association.2008:2598-2601.

本文彩色版可登陸本刊網站查詢:http://www.journal.shu.edu.cn

Reduction of background audio noise for historical films based on non-negative matrix factorization

ZHANG Yejun,YANG Weiying
(Shanghai Film Academy,Shanghai University,Shanghai 200072,China)

Audio materials of numerous historical films suffer from low sound quality,noise and other problems after being archived for a long time.This paper proposes a method based on non-negative matrix factorization(NMF)to automatically detect and separate background noise in a single channel audio.Harmonic signals and noises are modeled and differentiated using a sinusoid model and a priori noise training model respectively. Background noise is separated from the input audio with a constrained NMF algorithm. Experiments show that the proposed denoising algorithm outperforms the current algorithms in the denoise plug-in.

non-negative matrix factorization;audio denoising;blind source separation; noise model training

TN 912.3

A

1007-2861(2017)03-0333-09

10.12066/j.issn.1007-2861.1940

2017-05-02

國家自然科學基金資助項目(61571282)

楊衛英(1957—),女,副教授,研究方向為數字媒體技術等.E-mail:yangweiying@staff.shu.edu.cn

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲爱婷婷色69堂| 亚洲精品大秀视频| 露脸国产精品自产在线播| 久久精品国产精品一区二区| 乱色熟女综合一区二区| 97久久精品人人做人人爽| 亚洲精品在线影院| 日韩在线播放中文字幕| 欧美精品影院| 萌白酱国产一区二区| 又爽又大又黄a级毛片在线视频| av在线无码浏览| 亚洲精选无码久久久| 最新痴汉在线无码AV| 特级毛片8级毛片免费观看| 中文字幕乱妇无码AV在线| 青草精品视频| 亚洲高清中文字幕| 亚洲国产日韩一区| 亚洲精品无码日韩国产不卡| 国产视频 第一页| 视频二区国产精品职场同事| 日韩av在线直播| 99视频在线免费| 激情无码字幕综合| 免费看久久精品99| 国产日韩欧美在线播放| 欧美日韩精品一区二区视频| 国产精品成人一区二区不卡| 高清免费毛片| 国产毛片基地| 亚洲激情区| 国产一区二区影院| 五月天久久综合国产一区二区| 欧美性色综合网| 高潮爽到爆的喷水女主播视频 | 欧美色图第一页| 国产成人无码Av在线播放无广告| 成人伊人色一区二区三区| 国产在线啪| 午夜久久影院| 亚洲av无码人妻| 色天堂无毒不卡| 国产黄色爱视频| 九九热精品免费视频| 老司机精品久久| 欧美一区国产| 欧美激情二区三区| 久久久久国色AV免费观看性色| 国产美女91呻吟求| 手机成人午夜在线视频| 99ri国产在线| 国产精品30p| 欧美色丁香| 亚洲精品自产拍在线观看APP| 亚洲欧洲日韩综合| 久久毛片免费基地| 精品久久久久久中文字幕女| 亚洲综合第一页| 欧美区一区| 成人久久18免费网站| 亚洲欧美另类日本| av免费在线观看美女叉开腿| 国产精品男人的天堂| 最新国产精品第1页| 国产97区一区二区三区无码| 国产精彩视频在线观看| 怡红院美国分院一区二区| 成年人视频一区二区| 天堂成人在线| 欧美综合一区二区三区| 国产亚洲高清在线精品99| 亚洲精品无码高潮喷水A| 激情无码字幕综合| 一本大道香蕉中文日本不卡高清二区| 国产精品99在线观看| 国产福利一区视频| 福利姬国产精品一区在线| 国产一级精品毛片基地| 国产亚洲精品无码专| 黄色三级毛片网站| 亚洲欧洲国产成人综合不卡|