摘要:自動音頻標注的目的是從音頻輸入生成能夠描述此音頻的一段文字。目前,音頻標注模型的效果欠佳,并且在改善音頻標注效果的過程中很少有應用預加載模型。自動音頻標注的目標為音頻片段產生合適的描述語句,要能夠擁有處理音頻模態和文本模態數據的能力。為此,對音頻模態及文本模態的預加載模型進行研究,并提出基于音頻模態的自動標注和基于文本模態的自動標注,解決傳統標注方法中訓練和測試階段目標不一致的問題。
關鍵詞:音頻標注自動標注深度學習預加載模型
中圖分類號:TN912.3
ResearchontheApplicationofDeepLearningTechnologyinAutomaticAudioTagging
WANGPeigang
HubeiCommunicationsTechnicalCollege,Wuhan,HubeiProvince,430202China
Abstract:Thepurposeofautomaticaudiotaggingistogenerateaparagraphoftextthatcandescribetheaudiofromtheaudioinput.Currently,theeffectivenessofaudiotaggingmodelsisnotgood,andtherearefewapplicationsofpreloadingmodelsinimprovingtheaudiotaggingeffect.Thegoalofautomaticaudiotaggingistogenerateappropriatedescriptivestatementsforaudiosegments,andtohavetheabilitytoprocessaudioandtextmodaldata.Therefore,researchisconductedonthepreloadingmodelsofaudioandtextmodalities,andautomatictaggingbasedonaudiomodalityandtextmodalityareproposedtosolvetheproblemofinconsistentgoalsinthetrainingandtestingstagesoftraditionaltaggingmethods.
KeyWords:Audiotagging;Automatictagging;Deeplearning;Preloadingmodel
隨著機器學習技術在各個領域的深入應用,很長時間以來機器學習的研究領域不斷豐富,近期對單音頻模態的研究也愈發成熟,機器學習用于單音頻模態領域的典型代表就是音頻分類[1]。作為機器學習的一種,深度學習在信息技術領域尤其是計算機視覺領域有廣泛的應用。然而,由于音頻中攜帶的信息通常遠遠小于圖像所攜帶的信息,因此深度學習在此領域的應用程度和成熟度遠遠比不上在計算機視覺領域的應用。
伴隨深度學習應用浪潮的興起以及大模型的誕生,將深度學習方法用于音頻處理又開始逐漸成為新的潮流。借助神經網絡模型這一工具,并在使用GPU設備過程中輔助大量參數來對訓練大規模音頻數據集的神經網絡,可以使神經網絡模型具有良好的分析和處理能力。深度學習的這一特性使其在音頻處理領域的效果要明顯比傳統機器學習算法好,因此目前研究人員的目光不再局限于傳統單一音頻模態的音頻分類,而是開始轉向比其更復雜的多模態領域。
作為一項復雜的多模態文本生成任務,自動音頻標注的最終目標是從一個原始的音頻片段生成恰當的描述語句,這一過程需要將音頻片段輸入音頻標注系統中,最終得到的描述語句要能夠以抽象的方式描述輸入音頻。為此,自動音頻標注系統不僅要可以處理音頻模態,還應該具有處理文本模態數據的能力[2]。
1音頻自動標注的模型及算法
現有音頻標準模型使用的通常都是編碼器-解碼器結構,其中編碼器的作用是對音頻模態的輸入數據進行處理,加碼器的作用是轉換編碼器的輸出成為文本描述語句,也就是常說的音頻標注。合適的神經網絡模型對于處理音頻模態數據非常重要,而且也有利于音頻標注前的預訓練。
音頻數據是由序列流構成的,循環神經網絡(recurrentneuralnetworks,RNN)非常適合用于處理序列流,在應用到音頻標注任務的時候,有一個RNN網絡用作編碼器,另外一個RNN網絡作為解碼器[3]。和傳統的深度神經網絡相比,循環神經網絡在音頻標注應用中可以接受變長的輸入,而且輸出結果的長度也可以改變。最重要的是,循環神經網絡的層次不是固定的,而是可以根據需要進行定制,這樣的神經網絡結構使得音頻輸入信息可以在神經網絡內部按照時序向后傳遞,提高了音頻標注的效果。
循環神經網絡最大的問題是當網絡結構較深時可能會產生梯度消失現象。為了解決這一問題可以為每個神經元添加狀態,狀態可讓每層網絡結構中的神經單元據此添加或刪除部分信息,這種改進的循環神經網絡稱為LSTM(LongShortTermMemory)[4]。LSTM的上述特性使得網絡中越接近末端的神經網絡層越容易得到關鍵信息。LSTM用于音頻標注時網絡結構中神經元包括3個狀態門:輸入門、遺忘門以及輸出門,它們分別接收輸入數據、降低冗余數據、整合輸出數據。LSTM進行自動音頻標注時,編碼器負責提取輸入音頻特征,輸入音頻片段在經過函數分割后提取其對數梅爾譜;解碼器使用指定的數學函數當作輸出激活函數。LSTM應用于自動音頻標注會受到數據集質量的限制,因此實際效果欠佳,但是這種編碼器-解碼器形式的網絡框架成為以后音頻標注工作的基礎。
為解決LSTM算法存在的問題,業界后來嘗試使用卷積神經網絡(ConvolutionalNeuralNetworks,CNN)來處理音頻輸入,即以CNN作為編碼器。
卷積神經網絡主要包括特征提取部分和分類器兩個環節,其中特征提取部分根據功能可以分成兩種主要的網絡層[5]:卷積層和池化層。卷積層的輸入是音頻輸入以及卷積核,并對這二者進行卷積操作,以此提取特征并進行特征壓縮;接下來會使用一個激活函數對輸出特征進行調整。池化層會對輸入完成下采樣工作,所以池化層也被稱為下采樣層。池化層中常見的操作包括平均池化和最大池化兩種,平均池化的作用是對卷積操作后的數據取平均值,最大池化直接選取卷積窗口中最大的數據。經過池化層下采樣后,數據量會得到指數級別的降低,這樣可以通過降低維度的方式去掉冗余數據。
在計算出特征后,就可以使用分類器計算它們的得分,這也是卷積神經網絡的最后一層,在這一層中輸入的各種特征會被組成一個向量,以便全連接的前向反饋神經網絡完成分類操作。需要注意的是,全連接層需要大量運算,因此一般情況下卷積神經網絡的分類器只包含兩層全連接網絡。
卷積神經網絡的運算規則使其不必擔心音頻輸入包含大量高維數據,而且由于運算對象主要是音頻輸入特征,因此借助卷積操作在高效提取音頻輸入特征的同時也能夠很好地完成對數據規律的學習。最重要的是卷積神經網絡不會刪除音頻輸入數據相鄰空間的關系,因此其效果要優于RNN編碼器。
2基于音頻模態的自動標注
目前并沒有性能強大的多模態預加載模型,因此本文探索使用不同單模態預加載模型的組合來改進音頻標注這一多模態任務的性能。序列到序列模型的編碼器-解碼器結構目前在音頻標注領域得到廣泛應用,因此可以選擇序列到序列模型結構,并選擇CNN卷積神經網絡充當編碼器,而解碼器方面選用的是在處理文本上更有優勢的Transformer。編碼器之后連接一個分類器完成標注的輸出工作。
我們設計的編碼器由4個卷積塊構成,其中每個卷積塊都包含兩個3×3的卷積層,然后使用ReLU當作激活函數[6]。為了加快模型的訓練速度,還使用了批量標準化。為了克服傳統CNN在數據集不足時產生的訓練問題,本文還利用預訓練模型對編碼器參數進行初始化。標準的Transformer通常由兩部分構成,即編碼器和解碼器,但由于標準的轉換器能夠處理的輸入長度只有512字節,而提取出的音頻特征長度可能遠遠超過此長度,所以本文僅使用Transformer的解碼器部分生成音頻輸入特征的標注內容。Transformer的解碼器部分如圖1所示。
在進行模型訓練前需要完成一項前置工作:輸入數據的預處理,對于原始音頻輸入而言需要先提取其對數梅爾譜圖。本文使用44.1kHz的采樣率,并且快速傅立葉變換的窗口長度是1024。另外,本文還對標注語句進行了預處理,即將標注語句內的標點符號都去除,并且把所有的單詞全部轉化為小寫字符。
模型選定并且數據預處理完成后,本文借助音頻標注數據集AudioCaps對其進行預訓練,目的是對編碼器進行參數微調,以此提升音頻標注的整體表現。模型參數調整完畢后,本文使用Clotho數據集進行正式的訓練。這是一個專門進行音頻自動標注的數據集,雖然為便于訓練而去除了標注中的特殊單詞、符號等內容,導致其數量上比AudioCaps數據集少,但它的標注語句相對而言更加可靠[7],而且不同音頻片段的標注語句側重點及長短都不一樣,因此更加適用于音頻標注任務的正式訓練。
3基于文本模態的自動標注
目前的文本訓練任務中雖然常見的訓練方式能夠解決模型訓練速度的問題,但是訓練時為提高模型的精度通常要求為每一層輸入真實數據,從而導致模型對真實數據的依賴性非常高。在測試階段的標準工作缺乏真實數據,此時根據實際輸入進行預測就會因為當前輸出的不斷累積而導致整個模型的預測結果出現偏差,這就是曝光誤差。
傳統的音頻標準模型在處理過程中可能存在曝光誤差問題,本文使用的編碼器-解碼器結構在兩者間并沒有注意力機制,所以編碼器的工作與解碼器的工作可以認為是相互獨立的,這樣從解碼器的角度看音頻標注任務就是一項多模態的文本生成任務,因此也難以避免上述問題。
為此本文將SCST(Self-criticalSentenceTraining)這種文本模態預訓練手段應用到音頻標注系統中,其算法流程如圖2所示。
SCST算法使用CIDEr指標來對文本標注進行評價,它計算每個詞組的TD-IDF獲得權重,并把每個句子轉換為向量形式,然后計算模型輸出語句和標注預計的余弦相似度。從圖中可以看出,訓練過程中任意時刻會產生兩個輸出:分別是基于采樣得到的輸出以及模型測試階段的輸出;測試階段,本文使用貪心算法分別計算這兩個輸出的CIDEr,然后更新模型的參數。本文采用的SCST方法主要針對的是解碼器部分進行優化,也就是改進的模態生成任務,這樣就可以生成一個更符合文本評價指標的預加載模型。
這種文本模態自動標注方法在訓練時能夠把評價指標以前向傳播的方式進行,這樣就能夠保持測試階段評價指標與訓練過程中目標的一致性,解決了常見自動標注方法的訓練和測試階段目標不一致的問題。另外,模型訓練過程中的訓練對象是“句子文本”,并以此更新模型參數,這也一定緩解了曝光誤差問題。
4結語
本文對深度學習技術在音頻自動標注中的應用進行研究,研究音頻模態及文本模態的預加載模型,對音頻模態及文本模態的預加載模型進行改進。結果表明使用此模型的音頻自動標注可以得到更高得分的標注文本。
參考文獻
[1]陳耕耘,李圣辰,邵曦,等.基于遷移學習與強化學習的自動音頻標注系統[J].復旦學報(自然科學版),2022(10):520-526.
[2]劉暢.數字音頻工作站作為音樂標注工具的功能研究[D].上海:上海音樂學院,2023.
[3]李海濤.基于深度學習的弱標注多聲音事件檢測研究事件檢測研究[D].青島:青島科技大學,2022.
[4]于超,盛萱竺,崔翛龍.基于圖卷積神經網絡的分布式半監督自動標注方法[J].網絡安全與數據治理,2023(12):231-235.
[5]蔡杰鋒.基于隱私感知的自動精確圖像標注方法研究[J].信息記錄材料,2023(12):236-239.
[6]趙潔,袁永勝,張鵬宇,等.輕量化Transformer目標跟蹤數據標注算法[J].中國圖象圖形學報,2023(10):3176-3190.
[7]范靜.考慮音符序列的鋼琴演奏和弦指法自動標注算法[J].常州工學院學報,2022(10):39-45.