999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于坐標—灰度交織映射的視頻麥克風聲音復原系統

2023-01-01 00:00:00張奕林泓辰于萬波孫良磊
計算機應用研究 2023年3期

摘 要:區別于聲學麥克風,視頻麥克采用高幀率攝像機,利用聲音震動引起周圍物體的幀間圖像細微差異,對聲音進行復原。模擬人腦v2皮層位置亮度交織神經網絡,提出一種基于二維對數的坐標—灰度交織映射算法。算法將視頻幀圖像矩陣與函數構造矩陣交織映射,產生混沌吸引子保留并放大幀間圖像微差異,并構造基于該算法的視頻麥克風聲音復原系統。仿真實驗表明,該視頻麥克風系統可以從薯片袋子的高幀率視頻中復原聲音信號,相比于傳統算法降低了40%的計算量,同時保持語音復原質量。

關鍵詞:音頻復原;視頻麥克風;非線性動力系統;混沌吸引子

中圖分類號:TN912.3 文獻標志碼:A

文章編號:1001-3695(2023)03-033-0845-04

doi:10.19734/j.issn.1001-3695.2022.08.0382

Visual microphone sound restoration system based on

coordinate-gray interleaving mapping

Zhang Yi,Lin Hongchen,Yu Wanbo,Sun Lianglei

(School of Electronic amp; Computer Engineering,Dalian University,Dalian Liaoning 116622,China)

Abstract:Different from the acoustic microphone,the visual microphone uses high frame rate cameras

to restore sound by using sound vibrations to cause subtle differences between frames of surrounding objects.By simulating the positional brightness interleaving neural network of v2,this paper proposed a two-dimensional logarithm-based coordinate-gray interleaving mapping algorithm.The algorithm interleaved and mapped the video frame image matrix with the function construct matrix.The algorithm generated chaotic attractors to preserve and amplify the micro-differences between frames,and constructed the visual microphone sound restoration system based on the algorithm.Simulation experiments show that the visual microphone system can recover the sound signal from the high frame rate video of the bag of chips.Compared with the traditional algorithm,this algorithm reduces the calculation amount by 40%,while maintaining the quality of speech restoration.

Key words:audio restoration;visual microphone;nonlinear dynamic system;chaos attractor

0 引言

音頻主要通過麥克風進行采集,根據麥克風種類的不同,可分為聲學麥克風類和光學麥克風類。聲學麥克風通過采集聲波在空氣內聲壓震動來直接獲取語音[1~3]。光學麥克風利用聲壓震動引起周圍物體的光學變化來間接采集語音,其采用主動光線或被動光線對聲音震動進行間接探測[4]。文獻[5]提出的激光麥克風采用激光束探測玻璃面或鏡面的震動來采集語音,通過探測折返激光束的相位變化可以跟蹤到反射平面的距離變化,采用LDV探測反射激光束的多普勒頻移,可以跟蹤反射平面的速度變化,以遠距恢復高質量語音。文獻[6]通過使用失焦高速相機記錄反射激光散斑模式的變化,解決了需要接收器相對于反射平面的精確位置的限制,其定位具有更大的靈活性。文獻[7]將光流法應用于振動信號提取,該方法還原的信號具有較高質量且具有實時性,但存在只能還原低頻率信號的不足。文獻[8]研究優化了激光散斑測振系統并通過尋找最佳孔徑和優化散斑圖以提高測量精度。基于激光麥克風依賴于主動光源的探測,Davis等人在文獻[9]中提出了基于金字塔分解的視頻麥克風系統,無須主動光源探測,只需要高幀率攝像機采集正常光照下的高幀率圖像,通過提取圖像幀間的相位差異即可恢復聲音。視頻麥克風可以應用于光線可穿透而聲波無法穿透的密閉空間內,例如帶玻璃的密閉室內環境的聲音探測。該方法在頻域利用金字塔分解,獲得頻域相位信息以對圖像震動差異進行跟蹤,從而恢復聲音。金字塔分解算法利用頻域傅里葉變換,考慮到每秒數千幀的幀率,其運算負擔不可忽視。因此研究運算量更低、圖像間差異提取更顯著的方法,將有助于視頻麥克風的實際應用。

在混沌領域中,具有混沌特性的函數迭代出的軌跡稱為混沌吸引子[10]。混沌吸引子作為原始數據的特征映射具有極強的初值敏感性,在初始值上微不足道的差異就會導致運動軌道的截然不同,因此可以保留并進一步放大初始的細微差異[11~13]。Yu[14]面向人臉識別的應用建立了一種輔助函數與圖像交織迭代的非線性動力系統,分析得出產生的點集符合混沌吸引子的定義,具有混沌對初值敏感的特性。文獻[15]所提出的基于離散余弦變換基函數迭代產生混沌吸引子進行人臉圖像識別的方法應用在Yalefaces圖像庫中,圖像全部訓練的情況下識別率可以達到100%。文獻[16]提出基于三角函數構造三維動力系統的方法對視頻人臉特征提取,在VidTIMIT數據集上識別率達到88.16%。由上述文獻可知,混沌吸引子作為原始數據的特征映射在大幅降低計算量的同時,還可以保留圖像之間的特征差異。

本文針對高幀率視頻間的細微震動提出基于坐標—灰度交織映射算法,在大幅降低數據處理量的同時保留并放大圖像間差異,并進一步利用該算法構建視頻麥克風系統以進行聲音復原。

1 視頻麥克風

聲音通過聲波的傳播可以引起物體的細微震動,采用高頻攝像機(幀率大于聲音的采樣率)獲取高幀視頻圖像可以保留震動引起的圖像差異,利用算法提取視頻中反映震動的微小差異即可恢復聲音。圖1對基于金字塔分解算法視頻麥克風系統通過提取幀間圖像相位差異對聲音進行恢復。

該算法將視頻信號的t幀長為x、寬為y的圖像分解為對應不同方向θ和尺度γ的空間子帶信號,并計算與參考幀t0的相位差:

計算每個像素點在每個方向和尺度上的位置變動,將像素點的運動通過對齊和平均綜合成物體的整體運動信號。

金字塔分解算法利用圖像相位間的差異來恢復聲音震動信息。頻域相位的計算即使采用快速傅里葉變換,在每秒數千幀的幀率下,仍然是一個不小的負擔,所以需要尋找可以放大圖像間差異的更快捷算法來助力于視頻麥克風。

2 基于二維對數的坐標—灰度交織映射算法

人腦的v2視覺皮層將視覺圖像的位置信息和亮度信息進行神經網絡交織,然后送到更高級皮層進行識別,這個交織過程可以在保存圖像差異信息的同時降低大腦處理的數據量[17]。本文模擬這種v2皮層的神經交織,提出了一種基于二維對數的坐標—灰度交織映射算法,并產生低數據量的混沌吸引子作為圖像的特征,進一步進行視頻差異提取,從而恢復聲音。

G(x,y)為坐標(x,y)對應的灰度值。

非線性交織映射基本方法為給定初始值點(x,y)分別代入輔助函數F和圖像矩陣G中,讀取兩矩陣對應的數值,得到并記錄二維點[F(x,y),G(x,y)];再將新的二維點代入輔助函數F和圖像矩陣G中,如此迭代,生成N個二維坐標。將生成的坐標點對應位置置1,其余坐標點置0,從而產生零一矩陣混沌吸引子I。

在此前的工作中將這一算法應用于人臉識別領域中,如圖2所示。將不同人臉圖及同一人的不同人臉圖對應到不同的點陣(混沌吸引子)上,在保持個人特征的同時仍可以區分出同一人在不同情況(如光照、表情、遮擋物)下的差異。

實驗證明該算法可以將原圖像集直接投射到吸引子點陣圖特征集之中[14],保留了圖像的實質性差異并進一步降低了識別信息量。

針對視頻麥克風的聲音引起物體震動,其聲音信息存在于每一幀視頻圖像之間的差異中。直接對視頻幀圖片進行處理在實際中會產生巨大的計算量。因此對坐標—灰度交織映射算法進行探索和研究,提取圖像的混沌吸引子以提取特征對視頻幀間差異進行處理,避免了直接對圖片處理產生巨大計算量的問題。

混沌吸引子I保留并放大了圖像細微的震動信息,利用混沌吸引子作為圖像特征可以進一步提取差異以恢復聲音。

3 基于二維對數的坐標—灰度交織映射的視頻麥克風聲音復原系統

非線性交織映射可以產生混沌吸引子從而保留并放大圖像間的差異。本章利用坐標—灰度交織映射算法設計視頻麥克風聲音恢復系統。

該系統首先將采集到的視頻分解為視頻幀圖像,并對多幀RGB彩色圖像進行灰度化處理為黑白圖像以降低數據量;其次剪裁圖像以適配交織映射的灰度范圍,處理后的圖像通過尺寸及灰度值投射構建二維矩陣構成目標圖像矩陣,同時選取二維函數構造二維函數矩陣;利用目標圖像矩陣與函數矩陣進行坐標—灰度的非線性交織映射以產生二維混沌吸引子,多幀視頻圖像內容由此投射到多張點陣圖中以提取圖像特征。利用PCA技術將混沌吸引子點陣圖中每個像素點給予不同的權重,與震動關聯性更大的像素點給予相對更高的權重;每張點陣圖加權為一個數,多張點陣圖產生多個數產生正常的音頻輸出;最后為舒適的聽覺感受以及避免音頻中的雜音將音頻進行濾波以輸出。系統流程如圖3所示。

3.1 圖像灰度化

將視頻圖像灰度化。讀取每張目標圖像灰度值Gray,其中圖像灰度值Gray由彩色RGB圖像的三元色加權得到,其公式為

3.2 圖像剪裁

為了使得坐標—灰度交織過程中灰度和坐標的迭代不越界,需要保證兩者有相同取值范圍,因此將圖像剪裁為256×256大小以匹配0~256的灰度取值。

將目標灰度圖像的(U,V)點作為起始點剪裁大小為M×N(M=N=256)的目標圖像矩陣G:

3.4 交織映射

將重構的交織輔助函數矩陣F與處理后的目標圖像矩陣G進行交織映射,如圖4所示。

在密閉房間外距離薯片袋2 m的距離放置一臺高幀率攝像機間隔隔音玻璃對薯片袋的震動進行采集。所采集的無聲薯片袋視頻幀率為2 200 Hz,分辨率為700×400像素,選取采集視頻中的8 000幀視頻作為實驗視頻原始數據。

本實驗基于2.90 GHz處理器和16.0 GB內存的PC端,在Windows系統下的MATLAB R2018a下運行。選取坐標—灰度交織映射算法輔助函數f(x,y)=0.6x ln x+0.5ln y生成輔助函數矩陣與獲取的高幀率實驗視頻幀圖像進行非線性交織映射以還原音頻。同時為對比實驗結果,使用金字塔分解算法對該高幀率實驗視頻進行音頻還原,其中使用原作者Abe設置的實驗參數尺度nscales=1,方向norientations=2,下降采樣率dsamplefactor=0.1。

4.1 坐標—灰度交織映射初值區塊與迭代次數

迭代初值區塊越完整則包含了越完善的差異信息,但初值區塊越大迭代初值點就越多,從而導致運算量的增加。同時,算法迭代次數影響恢復的聲音質量,迭代次數越多相對音頻質量越高,但迭代次數過多會導致運算量加大。因此,實驗尋找兼顧運算量和音頻質量的迭代初值區塊及迭代次數。

坐標—灰度交織映射算法通過圖像剪裁處理目標視頻圖像大小M=N=200。選擇50×50(2 500點)、100×100(10 000點)、142×142(20 164點)、173×173(29 929點)、200×200(40 000點)的迭代初值區塊進行非線性交織映射,證明區域的映射也可以達到恢復聲音的效果。每組初值區塊分別迭代2、5、8、10、12、15、18、20次,求出生成無濾波處理的原始音頻信號并求出對應的信噪比,實驗結果如表1所示。實驗證明使用173×173初值區塊迭代10次獲得的音頻質量相對更優。

同時,為追求合適的運算量對音頻質量較高的173×173初值區塊迭代次數所用時間進行實驗,如表2所示。對比得到在173×173初值區塊迭代10次恢復的音頻在音質保證的情況下所耗時間較短,兼顧了運算量和音頻質量。

4.2 相位提取

為了直觀化地對圖像之間震動進行差異量化,實驗將每一幀圖像震動差異轉換為二維混沌吸引子并加權為一維數據,與金字塔分解方法提取的相位信息進行比對,更直觀地對比本文算法對圖像差異的跟蹤。

實驗選取3 000幀實驗視頻對視頻圖像差異信息進行提取。本實驗利用4.1節中得到的實驗結果選擇173×173初值區塊迭代10次提取差異信息,繪制相位信息如圖7所示,與同一視頻利用金字塔分解算法提取相位差異信息具有相似性。

從直觀看,本文算法對圖像差異信息具有跟蹤效果,跟蹤差異變化與金字塔分解算法提取相位相比有細微差距,可能在于算法對圖像二維相位提取的同時保留和放大了更多的三維震動信息,因此與金字塔分解算法提取的相位信息有細微差距。

4.3 聲音恢復

為驗證本文算法聲音復原的有效性,選取實驗視頻進行驗證。實驗選取173×173初值區塊迭代10次。分別通過三階巴特沃茲高通濾波器和通帶波紋系數rp=1、阻帶波紋系數rs=200、阻帶頻率Ft=5 500、通帶頻率Fp=4 000、抽樣頻率Fs=2 200的IIR低通濾波器。圖8給出了實驗基于坐標—灰度交織映射算法視頻麥克風聲音復原的音頻圖與原始音頻對比,使用人耳主觀聽覺評測該復原系統對復原的音頻與原音頻具有很大的相似性(客觀評測在4.4節中)。仿真實驗證明,本文算法可以從視頻中恢復原音頻內容。

4.4 音頻質量評價

選取8 000幀數據對坐標—灰度交織映射算法和金字塔分解算法進行對比。對于性能評測采用坂倉距離測度(ItakuraSatio distortion)和加權譜傾斜測度(weighted spectral slope)。

坂倉距離測度(ISD)是通過聲音信號的線性預測分析來實現的。ISD基于還原音頻與原音頻之間的差異,其值與音頻質量成正比。驗證了兩種方法復原音頻質量通過IS音頻質量評估基本持平。加權譜傾斜測度(WSS)是根據對共振峰頻率不同的成對元音感覺敏銳性而提出的,其值與音頻質量成反比。實驗驗證本文提出的坐標—灰度交織映射算法還原音頻質量通過WSS音頻質量評估優于金字塔方法。表3對生成的兩組音頻進行坂倉距離測度評價和加權譜傾斜測度評價。

實驗將兩種方法生成的音頻信息通過兩種音頻質量評價方法進行評價,證明本文提出的坐標—灰度交織映射算法恢復的音頻質量持平或略優于金字塔分解算法恢復的音頻質量。

4.5 時間評價

實驗針對8 000幀分辨率為400×700的實驗視頻兩種處理算法CPU運行周期進行對比實驗。針對提取目標圖像差異信息,坐標—灰度交織映射算法選擇產生音頻質量較高的173×173區域迭代10次與金字塔分解方法進行CPU全速工作時完成該進程所花費的時間上的對比,如表4所示。

由表4得出,坐標—灰度交織映射算法相較于金字塔分解算法降低40%的CPU運行時間,原因在于坐標—灰度交織映射算法采用簡單獨立的映射檢索,相比于金字塔分解算法的順序化傅里葉變換具有更低的運算量。由于本實驗采用的是串行編程,考慮到檢索的獨立性,采用并行處理會進一步提升算法的效率,提高視頻麥克風系統的實時處理能力。

5 結束語

本文提出了基于坐標—灰度交織映射算法,并構造了視頻麥克風系統。利用該坐標—灰度交織算法生成混沌吸引子,在降低數據量的同時保留并放大了視頻圖像間差異,進一步利用PCA技術將二維混沌吸引子降維成一維數據,通過相關性篩選將音頻復原并輸出。仿真實驗表明,該視頻麥克風系統對幀間圖像的細微差異具備有效的跟蹤性,從薯片袋視頻中恢復的聲音經過人耳主觀評測及坂倉距離測度(ISD)、加權譜傾斜測度(WSS)客觀指標評測,聲音復原性能持平并略優于金字塔分解算法。而且,由于該視頻麥克風系統僅涉及到簡單的迭代檢索,所以大幅降低了運算量,在串行運算的比較中本文算法可以降低40%的運算負擔。

參考文獻:

[1]Silverman H F,Iii W R P,Flanagan J L.The huge microphone array (HMA)[J/OL].The Journal of the Acoustical Society of America,1997,101(5).https://doi,org/10.1121/1.418967.

[2]Plinge A,Jacob F,Haeb-Umbach R,et al.Acoustic microphone geo-metry calibration:an overview and experimental evaluation of state-of-the-art algorithms[J].The IEEE Signal Processing Magazine,2016,33(4):14-29.

[3]Khaykin D,Rafaely B.Acoustic analysis by spherical microphone array processing of room impulse responses[J].Journal of the Acoustical Society of America,2012,132(1):261.

[4]Muscatell R P.Laser microphone[J].The Journal of The Acoustical Society of America,1984,76(4):1284.

[5]Rothberg S J,Baker J R,Halliwell N A.Laser vibrometry:pseudo-vibrations[J].Journal of Sound amp; Vibration,1989,135(3):516-522.

[6]Zalevsky Z,Beiderman Y,Margalit I,et al. Simultaneous remote extraction of multiple speech sources and heart beats from secondary speckles pattern[J].Optics Express,2009,17(24):21566-21580.

[7]Wu Nan,Haruyama S.Real-time audio detection and regeneration of moving sound source based on optical flow algorithm of laser speckle images[J].Optics Express,2020,28(4):4475-4488.

[8]Wang Yufei,Gao Yue,Liu Yang,et al. Optimal aperture and digital speckle optimization in digital image correlation[J].Experimental Mechanics,2021,61(4):677-684.

[9]Davis A,Rubinstein M,Wadhwa N,et al.The visual microphone:passive recovery of sound from video[J].ACM Trans on Graphics,2014,33(4):1-10.

[10]May R M.Simple mathematical models with very complicated dyna-mics[J].Nature,1976,261(5560):459-467.

[11]Akhmet M U,Fen M O.Replication of chaos[J].Communications in Nonlinear Science amp; Numerical Simulation,2013,18(10):2626-2666.

[12]Simpson D J W.Detecting invariant expanding cones for generating word sets to identify chaos in piecewise-linear maps[EB/OL].(2020-10-16).http://doi.org/10.48550/arxiv.2010.08241.

[13]Zhang Sen,Li Chunbiao,Zheng Jiahao,et al. Generating any number of initial offset-boosted coexisting Chua’s double-scroll attractors via piecewise-nonlinear memristor[J].IEEE Trans on Industrial Electronics,2021,69(7):7202-7212.

[14]Yu Wanbo.Application of chaos in image processing and recognition[C]//Proc of International Conference on Computer Systems,Electronics and Control.Piscataway,NJ:IEEE Press,2017:1108-1113.

[15]于萬波,王香香,王大慶.基于離散余弦變換基函數迭代的人臉圖像識別[J].圖學學報,2020,41(1):88-92.(Yu Wanbo,Wang Xiangxiang,Wang Daqing.Face image recognition based on basis function iteration of discrete cosine transform[J].Journal of Gra-phics,2020,41(1):88-92.)

[16]于萬波,范晴濤.基于三角函數迭代的視頻數據特征提取[J].圖學學報,2020,41(4):512-519.(Yu Wanbo,Fan Qingtao.Feature extraction of video data based on trigonometric function iteration[J].Journal of Graphics,2020,41(4):512-519.)

[17]Roe A W,Ts’O D Y.Visual topography in primate V2:multiple representation across functional stripes[J].Journal of Neuroscience,1995,15(5):3689-3715.

收稿日期:2022-08-17;修回日期:2022-09-29

作者簡介:張奕(1978-),男(通信作者),遼寧大連人,副教授,碩導,博士,主要研究方向為多媒體音視頻處理、3D語音重建(zhangyi@edu.dlu.cn);林泓辰(1997-),女,山東煙臺人,碩士研究生,主要研究方向為音視頻處理、人臉識別;于萬波(1966-),男,吉林長春人,副教授,碩導,博士,主要研究方向為混沌加密、人臉識別;孫良磊(1997-),男,山東菏澤人,碩士研究生,主要研究方向為人臉識別與混沌.

主站蜘蛛池模板: 久久人人爽人人爽人人片aV东京热 | 国产精品无码影视久久久久久久 | 国产一级二级在线观看| 夜精品a一区二区三区| AⅤ色综合久久天堂AV色综合| 久青草免费在线视频| 亚洲日韩精品伊甸| 亚洲综合专区| 欧美一级片在线| 中文字幕伦视频| 免费在线视频a| 2021天堂在线亚洲精品专区| 国产无码性爱一区二区三区| 欧美日韩国产成人高清视频| 亚洲精品亚洲人成在线| 呦系列视频一区二区三区| 久久免费精品琪琪| 欧美成人a∨视频免费观看| 国产精品99久久久久久董美香| 日韩专区欧美| 真人高潮娇喘嗯啊在线观看| 日韩专区欧美| 欧美激情视频一区| 欧美性猛交xxxx乱大交极品| 无码高清专区| 青青草国产免费国产| 国内丰满少妇猛烈精品播| 亚洲男人的天堂网| 国产成人高清亚洲一区久久| 欧美啪啪一区| 成人在线亚洲| 国产午夜精品一区二区三区软件| 麻豆国产精品视频| 欧洲一区二区三区无码| 视频一区视频二区中文精品| 91无码网站| 精品国产毛片| 日本色综合网| 午夜福利免费视频| 国产精品久久久久无码网站| 无遮挡一级毛片呦女视频| 久久精品人人做人人爽电影蜜月| 欧美色视频在线| 伊人久久综在合线亚洲2019| 国产又粗又猛又爽视频| 1769国产精品视频免费观看| 精品中文字幕一区在线| 国产精品三区四区| 日韩国产综合精选| 国产福利大秀91| 日韩精品少妇无码受不了| 亚洲AV免费一区二区三区| 国产福利不卡视频| 国产一区二区三区在线精品专区| 日韩精品专区免费无码aⅴ | 国产产在线精品亚洲aavv| 国产嫩草在线观看| 亚洲精品手机在线| 亚洲综合极品香蕉久久网| 久久综合伊人77777| 亚洲色欲色欲www网| 亚洲欧美在线综合图区| 亚洲国产系列| 亚洲欧洲日韩国产综合在线二区| 欧美成一级| WWW丫丫国产成人精品| 1024国产在线| 国产精品免费久久久久影院无码| 久久a毛片| 亚洲第一区欧美国产综合| 无码福利视频| 国产性生交xxxxx免费| 91小视频在线| 国产一线在线| 99er这里只有精品| 成人看片欧美一区二区| 四虎影视无码永久免费观看| 国产黄色免费看| 国产在线视频自拍| 欧美精品亚洲二区| 国产成人亚洲综合A∨在线播放| 99色亚洲国产精品11p|