











摘" 要: 為提升遠距離采集音頻信號的強度,深度濾除音頻信號噪聲以提取有用音頻部分,提出一種基于AI的噪聲環境下遠距離高清音頻采集方法。構建遠距離高清音頻采集結構,分別通過模擬增益和數字增益技術進行音頻信號增益處理,以提升音頻信號強度。依據短時傅里葉變換提取音頻增益信號頻域特征,輸入到長短期記憶網絡中,實現音頻信號深度噪聲去除,得到高清音頻頻域信息;再通過短時傅里葉逆變換處理該信號,實現音頻信號重構,最終達到噪聲環境下遠距離高清音頻采集的目的。實驗驗證結果表明:依據音頻信號增益能夠有效提升采集音頻信號的強度,并避免信號受距離、噪聲影響而逐漸衰減,繼而有效濾除音頻信號噪聲數據,提取其中有用的音頻信號,確保音頻信號高清度;且最終采集音頻信號信噪比均高于18 dB,可懂度均高于97%,有效驗證了所提方法的有效性和準確性。
關鍵詞: 高清音頻采集; AI; 噪聲環境; 信號強度; 遠距離; 長短期記憶網絡; 短時傅里葉變換
中圖分類號: TN912.3?34; TP399" " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2025)04?0130?05
Research on AI?based remote HD audio acquisition in noisy environment
HUANG Lina
(Jiangxi University of Science and Technology, Ganzhou 341000, China)
Abstract: In order to enhance the strength of long?distance audio signal acquisition and deeply filter out audio signal noise to extract useful audio parts, a method of AI?based remote high?definition (HD) audio acquisition in noisy environments is proposed. The remote HD audio acquisition structure is constructed, and the analog gain and digital gain techniques are used to conduct the audio signal gain processing, so as to improve the strength of audio signal. The frequency domain features of audio gain signals are extracted based on short?time Fourier transform, which are inputted into long short?term memory network to realize the deep noise removal of audio signals and obtain HD audio frequency domain information. The signal is processed by means of short?time Fourier inverse transform, to realize the audio signal reconstruction, ultimately achieving the goal of remote HD audio acquisition in noisy environments. The experimental verification results show that the gain of the audio signal can effectively enhance the strength of the collected audio signal, and avoid the gradual attenuation of the signal due to distance and noise, effectively filtering out the noise data of the audio signal, extracting useful music signals, and ensuring HD of the audio signal. The final collected audio signal signal?to?noise ratio was higher than 18 dB, and the comprehensibility was higher than 97%, effectively verifying the effectiveness and accuracy of the proposed method.
Keywords: high?definition audio acquisition; AI; noisy environment; signal strength; remote; long short?term memory network; short?time Fourier transform
0" 引" 言
音頻采集在音頻技術中具有重要作用,能夠確保信息的準確傳達,便于教學、會議等后期分析和回顧,提升音頻、娛樂等用戶體驗[1]。實際的音頻采集環境可能較為復雜,但實現噪聲環境下遠距離高清音頻采集能夠捕捉較為清晰的音頻信號[2],有助于提升音頻信息完整性,為后期的分析和處理提供良好的依據。
文獻[3]構建了一種聲源定位模型,獲取聲源方位、距離等關鍵信息。在目標區域內合理部署傳感器節點,全面覆蓋音頻信號區域;依據靜音區檢測技術檢測音頻信號中的靜音部分并置零,實現降噪;分析音頻信號特性,設置采樣頻率,實現多路音頻信號采集。但所提出的聲源定位模型易受環境噪聲、麥克風陣列布局等多種因素影響,導致最終的音頻采集效果較差。文獻[4]在復數譜支路上采用模擬人耳臨界頻帶劃分輸入信號,包括幅度和相位信息,設計幅度補償支路處理信號全頻帶。依據復數譜支路輸出恢復語音頻譜,并將子帶特征輸入至幅度補償支路,以逼近原始干凈語音頻譜;依據交互補償恢復語音信號,實現信號采集。但該方法中的模擬人耳臨界頻帶劃分方法易受信號特性等多種因素影響,不利于提升音頻采集的精準度。文獻[5]結合運算放大器與場效應管,設計一種根據音頻信號強度實時、精準、自動調節增益的電路。該電路配合音頻編解碼器,實現機載音頻采集。但該方法只針對機載音頻數據進行采集,適用性較差,難以實現不同種類的音頻采集,影響最終的音頻采集效果。文獻[6]設計了一個嵌入式多聲道聲音采集系統,該系統搭載于四軸飛行器上,利用8個麥克風進行聲音捕捉,基于Bela音頻處理嵌入式計算平臺構建,同步記錄來自多個麥克風的聲音信號。依據飛行器上本地存儲進行音頻信號存儲以供后續處理,同時能夠通過無線通信方式將信號實時傳輸至地面終端進行遠程分析。但該方法中的麥克風陣列易受噪聲干擾,嵌入式系統處理能力較弱,導致最終的音頻采集效果較差。
噪聲環境能夠對音頻信號產生干擾,影響最終音頻采集的信號質量,且在遠距離傳輸過程中音頻信號強度會逐漸衰減和失真。而通過AI技術能夠動態處理音頻信號中的噪聲數據[7],顯著提升音頻信號的清晰度和質量。基于此,本文提出一種基于AI的噪聲環境下遠距離高清音頻采集方法,以期有效提升遠距離音頻采集的清晰度。
1" 基于AI的噪聲環境下遠距離高清音頻采集
1.1" 遠距離高清音頻采集結構
音頻在復雜的噪聲環境中進行傳播,其信號強度隨著距離的增加而逐漸衰減,會影響音頻清晰度和質量。依據AI技術能夠深度抑制噪聲,精準分辨噪聲與有用的音頻信號,確保在遠距離情況下采集高質量的音頻。本文基于高清音頻采集需求,構建噪聲環境下遠距離高清音頻采集結構,如圖1所示。
在圖1所示的遠距離高清音頻采集結構中,首先通過模擬增益模塊和數字增益模塊對初始音頻信號進行處理,以提高經過遠距離傳輸的音頻信號強度,彌補音頻信號遠距離傳輸過程中的損失。依據現場可編程門陣列(FPGA)集成短時傅里葉正、逆變換以及AI技術中的長短期記憶網絡,實現音頻信號的變換、重構以及音頻信號深度噪聲抑制處理,從而獲得高清質量的音頻,實現噪聲環境下遠距離高清音頻采集。
1.2" 遠距離音頻信號自動增益
在遠距離音頻傳輸中,信號強度受傳輸距離、障礙物等多種因素影響,而依據自動增益能夠提升音頻信號強度,解決信號強度隨著距離逐漸增加而衰減的變化導致的音頻音質下降問題[8]。在遠距離音頻信號自動增益中,主要通過圖1所示的遠距離高清音頻采集結構中的模擬增益模塊和數字增益模塊進行處理,采取上下雙門限方式,這兩個門限值之間存在緩沖區間,避免了輸入的遠距離音頻信號在單一門限值附近振蕩導致增益穩定性差的問題。通過模擬增益模塊對遠距離音頻信號進行處理,主要指音頻信號被轉換為數字格式之前的增益處理過程,以有效提升音頻信號強度。依據數字增益模塊對模擬增益模塊處理后的遠距離音頻信號進行增益處理,主要是對已轉換成數字格式后的遠距離音頻信號進行調整,彌補音頻信號遠距離傳輸過程中的損失。
依據模擬增益模塊和數字增益模塊對遠距離音頻信號的處理,最終得到增益后的遠距離音頻信號,表示為:
[xAGCn=βaβdx]" " " " " (1)
式中:[βa]表示模擬增益放大倍數;[βd]表示數字增益放大倍數;[x]、[xAGC]分別表示增益處理前后的遠距離音頻信號。
針對音頻信號強度隨著距離和噪聲干擾強度逐漸增大而逐漸降低,從而導致音頻信號質量下降的問題,本文方法首先進行遠距離音頻信號自動增益處理,提升音頻信號的強度。為驗證本文方法實現音頻信號增益的效果,對距離不斷增長過程中噪聲不斷增大條件下的音頻信號強度進行統計,得到的結果如圖2所示。
由圖2可知,依據本文方法進行音頻信號增益處理,能夠有效提升音頻信號強度。在通過本文方法進行增益前,隨著距離、噪聲逐漸增加,音頻信號強度逐漸減弱,進行音頻采集時音頻質量較差;通過本文方法進行音頻信號增益,音頻信號受距離、噪聲影響較小,音頻信號質量得到顯著提升,在較遠的距離和較高的噪聲環境下采集的音頻信號具有較高清晰度。
1.3" 音頻信號頻域特征提取
基于1.2節方法能夠實現遠距離音頻信號的自動增益,但經過增益后的音頻信號中存在大量噪聲。為深入了解音頻信號的內在特性,依據圖1所示遠距離高清音頻采集結構中FPGA集成的短時傅里葉變換提取音頻信號的頻域特征[9],將噪聲與音頻中有用的音頻信號頻譜不同的頻率成分,作為后續音頻信號噪聲抑制的支撐。
經過增益處理后的音頻信號[xAGCn]中包含有用的音頻信號[mn]和噪聲信號[en],本文通過加窗過程處理[xAGCn],以分析音頻信號的連續性變化情況。通過分析窗之間的重疊,依據漢明窗技術進行處理,設置為漢明窗長大于滑動步長,從而降低窗函數對音頻信號處理過程中的信號丟失風險。經過加窗處理后的音頻信號表示為:
[x′AGCn=xAGCn?wn]" " " "(2)
通過短時傅里葉變換對加窗處理后的音頻信號進行頻域特征提取,該變換將音頻信號從時域轉換到頻域,通過分析不同頻率成分的分布和強度,依據噪聲與音頻中有用音頻信號頻譜不同的頻率成分,提取出能夠反映音頻信號特性的頻域特征,為后續高清音頻采集提供支撐。
1.4" 基于長短期記憶網絡的高清音頻采集
在噪聲環境中,遠程捕獲的音頻信號通常以時間序列的形式呈現,其中夾雜著多種噪聲成分,導致音頻信號品質較差。長短期記憶網絡作為AI領域中的一種神經網絡,具有較為出色的時間序列分析能力[10],能夠精準區分并有效削弱音頻信號中的背景噪聲,進而實現音頻采集質量的顯著提升。
將1.3節中提取的音頻信號頻域特征輸入到長短期記憶網絡中,通過其中遺忘、輸入、輸出三種門處理分析,最終實現音頻信號的深度噪聲抑制。長短期記憶網絡結構如圖3所示。
依據遺忘門對輸入的音頻信號頻域特征進行處理,表示為:
[oft=sigmoidμfht-1,Xt+δf]" " " "(3)
式中:[sigmoid·]表示激活函數;[μf]、[δf]分別表示遺忘門權值向量、偏置;[Xt]、[ht-1]分別表示[t]時刻輸入的音頻信號頻域特征、[t-1]時刻的記憶單元。依據上述處理,最終確認記憶單元內信息的保留和丟棄情況。
依據輸入門對音頻信號頻域特征和記憶單元進行處理,確定當前時刻記憶單元狀態是否進行更新,公式為:
[oit=sigmoidμiht-1,Xt+δi]" " " " "(4)
[l′t=tanhμlht-1,Xt+δl]" " " " " " (5)
式中:[μi]、[δi]分別表示長短期記憶網絡輸入門的權重向量、偏置;[l′t]表示記憶單元的狀態更新情況;[μl]、[δl]分別表示記憶單元更新過程的權重向量、偏置;[tanh·]表示激活函數。
依據長短期記憶網絡的輸出門對處理后的音頻信號頻域特征進行輸出,表示為:
[oot=sigmoidμoht-1,Xt+δo]" " "(6)
[ht=oot?tanhlt]" " " " " " (7)
式中:[μo]、[δo]分別表示長短期記憶網絡輸出門的權值向量、偏置;[ht]表示最終輸出的噪聲抑制后的音頻信號頻域特征。
針對長短期記憶網絡得到的去噪后的音頻信號頻域特征,依據短時傅里葉逆變換對音頻信號進行重構[11?13],最終能夠得到去噪后的遠距離高清音頻信號[x]。
2" 實驗與分析
為驗證本文方法實現噪聲環境下遠距離高清音頻采集的有效性,進行噪聲環境下遠距離高清音頻采集模擬,依據傳聲器對某高層住宅樓下的遠距離音頻信號進行采集,輸入至FPGA模塊進行處理,通過基于AI技術的網絡模型實現深層次降噪,最終實現遠距離高清音頻采集,具體流程如圖4所示。
在圖4所示噪聲環境下遠距離高清音頻采集流程中,音頻信號的采集和處理分析過程涉及相關硬件設備,故對硬件設備的參數進行統計,具體如表1所示。
依據表1所示相關硬件的詳細參數情況,對存在噪聲干擾的音頻信號進行采集,依據本文方法進行處理,最終實現噪聲環境下遠距離高清音頻采集,從而驗證具體效果。
為驗證本文方法實現噪聲環境下遠距離高清音頻采集的有效性,依據本文方法采集噪聲環境下的遠距離音頻信號,對本文方法處理前后的音頻信號幅值進行統計,以驗證音頻采集后音頻信號的質量。音頻信號處理結果如圖5所示。
如圖5所示,通過本文方法能夠實現效果較好的音頻信號采集。依據本文方法進行音頻信號采集前,音頻信號幅值波動范圍較大,音頻中有用的音頻信號完全被噪聲覆蓋,導致最終的音頻質量較差。通過本文方法進行音頻信號采集,能夠有效濾除音頻信號中的噪聲數據,提取出其中有用的音頻信號,確保了提取的音頻信號的高清度,為用戶提供了更清晰的聽覺體驗。
為進一步驗證本文方法實現噪聲環境下遠距離高清音頻采集的有效性,引入信噪比和可懂度進行音頻信號采集效果的評估。其中信噪比表示了音頻信號中有用信號與噪聲的比值,可懂度能夠評估接收者準確理解音頻信號內容的程度,兩個參數值越高表明音頻信號采集效果越好。
分別模擬距離不同情況、不同音頻聲源幅值情況下,通過本文方法進行噪聲環境下遠距離高清音頻采集的效果。對本文方法采集音頻信號后音頻信號信噪比和可懂度進行分析統計,得到的結果如表2所示。
由表2可知,通過本文方法進行噪聲環境下遠距離高清音頻采集效果較好,針對不同距離的音頻信號采集,不同信號幅值情況下,最終采集的音頻信號信噪比均能夠高于18 dB,可懂度均高于97%,證明了通過本文方法進行噪聲環境下遠距離高清音頻采集能夠有效提取音頻信號中的有用部分,從而確保采集到的音頻信號既清晰又易于理解,能夠為音頻分析相關領域提供良好技術支持。
3" 結" 論
實現噪聲環境下遠距離高清音頻采集,能夠確保音頻信息的準確傳遞和接收,為遠程會議、音頻制作等相關領域提供更準確的音頻信息,為用戶提供更清晰的音頻體驗,提升用戶的滿意度。本文提出一種基于AI的噪聲環境下遠距離高清音頻采集方法,該方法能夠實現效果較好的噪聲環境下遠距離高清音頻采集,有效提取并保留音頻信號中的有用部分,提升音頻信號的整體質量。
參考文獻
[1] 桑晉秋,黃冰,秦朝琪,等.虛擬聲場用于測量智能音頻設備采集指向性的可行性探究[J].計量科學與技術,2023,67(11):24?32.
[2] 陳永,汪子楓.多通道音頻信號采集系統仿真研究[J].工業控制計算機,2022,35(7):118?120.
[3] 湯敏,顧煒江.多路音頻傳感信號低功耗實時采集方法設計[J].傳感技術學報,2024,37(4):690?695.
[4] 葉中付,趙紫微,于潤祥.基于臨界頻帶的交互性雙支路單通道語音增強模型[J].數據采集與處理,2023,38(2):262?273.
[5] 尹占芳,張慶華,朱梅梅.一種機載自適應音頻采集電路的設計與實現[J].電子制作,2024,32(15):41?43.
[6] CLAYTON M, WANG L, CAVALLARO M P. An embedded multichannel sound acquisition system for drone audition [J]. IEEE sensors journal, 2023, 23(12): 13377?13386.
[7] 張燁,肖啟陽.電子通信多徑信號強干擾濾波抑制仿真[J].計算機仿真,2023,40(6):245?249.
[8] 李勝輝,王文敏.通信音視頻編解碼技術的研究與應用[J].微型電腦應用,2022,38(11):202?205.
[9] 楊超,李波,胡緒權,等.基于解析插值離散時間傅里葉變換的精確頻率估計[J].電工技術學報,2022,37(6):1338?1350.
[10] 陳孝文,蘇攀,吳彬溶,等.基于改進長短期記憶網絡的時間序列預測研究[J].武漢理工大學學報(信息與管理工程版),2022,44(3):487?494.
[11] 李珠海,郭武.基于自注意力機制的音頻對抗樣本生成方法[J].數據采集與處理,2024,39(2):416?423.
[12] 吳科獻,金華標,王琪,等.基于Opus算法的船舶音頻傳輸系統設計[J].船海工程,2024,53(4):18?23.
[13] 皓然,萬書芹,蔣穎丹,等.基于FPGA的多通道音頻信號評估系統[J].電子技術應用,2022,48(2):78?83.作者簡介:黃麗娜(1978—),女,江西安遠人,碩士研究生,副教授,研究方向為音頻數據采集。