丁文博 許玥



摘? 要:為了解決計算機深度學習時標注數據工作量大、準確度不高、耗時耗力等問題,需要將預先訓練好的模型中的數據進行跨領域跨任務遷移學習。基于對不同數據集的遷移效果的研究,試驗時將視覺領域中表現良好的ImageNet預訓練模型遷移到音頻分類任務,通過剔除無聲部分、統一音頻長度、數據轉換和正則化處理這4個步驟,采用經典圖像增強和樣本混淆兩種數據增強方法,以5種不同的方式訓練數據集,實驗證明:ImageNET目標訓練模型的跨領域遷移學習效果顯著,但源領域的模型效果和目標領域的最終效果并沒有必然聯系,且使用同領域相似數據分布的數據集的預訓練效果比ImageNet上的預訓練效果更差。
關鍵詞:遷移學習? 預訓練? 數據集? 數據預處理? 數據增強
中圖分類號:TP391.4 ? ?文獻標識碼:A 文章編號:1672-3791(2020)01(b)-0107-04
Abstract: In order to solve the problems of? large workloads, low accuracy and time-consuming in data-labeling in deep learning, it is necessary to transfer the data from the pre-trained model to cross-domain/cross-task learning. Based on the study of the migration effect of different dat sets, the ImageNet pre-training model, which is good in the visual field, is migrated to the audio classification task. By eliminating the silent part, unifying the audio length, data conversion and regularization processing, classical image enhancement and sample confusion are used to enhance the data, five different training methods to train datasets. Experiments show that ImageNET target training model has significant effect on cross-domain migration learning, but the effect of source domain model is not necessarily related to the final effect of target domain,and the pre-training effect of datasets with similar data distribution in the same field is worse than that on ImageNet.
Key Words: Transfer learning; Pre-train; Dataset; Data preprocessing; Data augmentation
近年來,深度學習算法在諸多應用領域取得了突破性進展,模型復雜度和訓練數據量持續增長,大量的訓練數據成為了解決復雜問題的必需。如計算機視覺領域的ImageNet數據集[1]就具有千萬級別的圖像數據和標注。而在實際應用中,獲取大量標注數據并從頭開始訓練是十分困難的。
為了解決實際應用場景中標注數據獲取難度大、成本高等問題,可通過遷移學習方法將某一領域學習到的知識或模式應用到不同但相關的領域或問題中,這樣不僅能避免昂貴且費時的數據標注工作,還能提升目標領域或任務中學習效果。
1? 相關工作
通常遷移學習分為兩大類:一類是全網絡微調,即將預訓練模型用于新模型參數的初始化,而后在新任務數據上訓練新模型參數;另一類是用預訓練模型作為特征提取器,無需更新無論是預訓練模型還是新任務模型的參數。但所有遷移學習的成功運用都基于一個假設:訓練數據與測試數據位于同一特征空間,并且具有相同的分布特性。一個常見的假設就是在ImageNet上表現良好的模型也能在其他視覺任務上表現良好。如在計算機視覺領域中,當面臨一個新的視覺分類、識別和分割任務時,通常會使用ImageNet數據集上預訓練的1000類分類模型進行遷移。
已有案例證明,采用遷移學習方法,將現成數據集(如ImageNet)預訓練好的模型作為新任務模型的基礎,能夠減少新任務訓練數據的規模,還可以有效避免過擬合等情況的發生。文獻[2]中系統地分析了16種卷積神經網絡在12個圖像分類數據集上的效果,分別以3種方式展開實驗:ImageNet預訓練模型用于特征提取,預訓練模型作為新模型參數的初始化,使用與預訓練模型相同的網絡結構但隨機初始化參數。得出了兩個結論:好的預訓練模型能夠提供好的遷移學習效果;好的網絡結構也能提供好的遷移學習效果。
盡管文獻[2]系統地驗證了遷移學習的效果,但仍局限在計算機視覺領域。在部分音頻分類任務中,使用預訓練的視覺模型進行遷移學習也曾取得成功,如文獻[3]在聲音事件檢測時將ImageNet預訓練的卷積神經網絡模型融入整體的卷積循環神經網絡(CRNN)模型框架中;又如在文獻[4]中使用6種視覺領域表現優異的不同結構的模型,分別以從頭訓練和使用預訓練模型作為初始模型這兩種方式訓練。在文獻[4]的兩項工作中,雖然音頻標注質量參差不齊,且音頻任務進展遠遠落后于計算機視覺領域的相似任務,但將ImageNet預訓練模型用于音頻分類任務依然取得了不錯的效果,其再一次證明,預訓練模型能進行一定程度上的跨領域遷移。
該文正是基于這些跨領域遷移學習的成功案例,以聲學場景識別與事件檢測DCASE2019挑戰賽[5]中的音頻標簽分類為目標領域任務,以ImageNet圖像分類為源領域任務,從音頻分類問題入手,分析(在ImageNet 上訓練好的)視覺模型能否遷移到語音領域中,并通過系統實驗驗證了跨領域遷移學習的效果。
2? 實驗方法
2.1 數據集
該次實驗共采用了3種數據集:一是ImageNet數據集,該數據集為模型的預訓練數據集,并遷移學習到了語音領域;二是Freesound 數據集,用于實驗中的無噪聲訓練和測試;三是Yahoo Flickr Creative Commons 100M (YFCC100M)數據集,其為實驗中的噪聲數據集。
ImageNet[1]:ImageNet數據集建立在WordNet[6]提供的層次結構之上,是視覺研究界可用的最大的清潔圖像數據集。目前,此數據集的12個子集共有320萬個清晰注釋的圖像,分為5247類,并且平均每個同義詞集合收集了600多個圖像。
Freesound Dataset(FSD)[7]:FSD是一個基于AudioSet Ontology[8]中自由聲音內容開發出來的新的音頻數據集。由于經過了人工標注,FSD數據較為準確。數據集中的音頻數據共80類,涵蓋了不同的主題:如吉他和其他樂器、呼吸聲、人類聲音、機動車輛(道路)和各種家庭聲音等。它包括共4970條約10.5h的音頻,每個音頻時長從0.3~30s不等。
Yahoo Flickr Creative Commons 100M (YFCC100M)[8]:YFCC100M數據集是迄今為止發布的最大的公共多媒體集合,包括1億個媒體對象,其中約9920萬個對象是照片,80萬個是視頻。此數據集同時提供一系列相關的元數據,如標注、時間跨度和位置等。YFCC的音頻使用自動啟發式標注,會帶來大量的標注噪聲,這也是其在實驗中作為帶噪聲訓練的原因。視頻中共有19815條長約80h的音頻,每個音頻時長從1~15s不等。
2.2 數據預處理
在進行數據預處理時,輸入的是采樣率為44.1kHz的音頻文件。由于每個音頻文件的時長不一,且可能包含部分無意義無聲(或低分貝噪聲)時間,因此分四步進行數據預處理:剔除無聲部分、統一音頻長度、數據轉換和正則化處理。
2.2.1 剔除無聲部分
根據分貝情況剔除音頻中的無聲數據,閾值設為60dB。
2.2.2 統一音頻長度
統一所有音頻數據的長度。在該文中設置為5s,對于大于5s的音頻,截取其中一段;對于小于5s的音頻,重復堆疊該段音頻直到長度為5s。
2.2.3 數據轉換
將一維音頻數據轉為二維的梅爾頻譜圖數據。視覺領域的預訓練模型,由于處理對象是二維的圖像或三維的視頻數據,往往使用二維或三維卷積神經網絡。而原始音頻信息是一維的連續變化信號,不能直接作為在視覺領域預訓練模型的輸入。通常的做法是將一維的音頻信息轉為二維的梅爾頻譜,即通過短時傅里葉變換將時域信號轉為頻域信號,取平方值得到能量譜,經過梅爾濾波后獲得一段一維音頻數據對應的一張二維梅爾頻譜圖像。通過這種方法將音頻分類問題轉化為圖像分類問題。
2.2.4 正則化處理
將第三步中得到的128波段的梅爾頻譜圖進行均值為0、方差為1的正則化處理,并復制到3個通道中。
圖1描述了音頻數據從輸入到模型輸出的整體流程。
2.3 數據增強
數據增強是一種在數據集量級較小的情況下防止訓練過擬合的有效方法,在計算機視覺領域中常用隨機旋轉/裁剪、水平/豎直翻轉、加入隨機噪聲、圖像亮度/色彩變化等方式。由于數據預處理轉換完的頻譜圖像的特殊性,不能完全照搬視覺中的數據增強方法,本次實驗采用了以下兩大類數據增強方法。
2.3.1 經典圖像類增強方法
水平翻轉、隨機裁剪、隨機背景噪聲、高斯模糊、隨機水平(時間維度上)平移和拉伸、隨機圖像掩碼。
2.3.2 樣本混淆
訓練時,在一個批次樣本中隨機選取兩個屬于不同類別的樣本數據,按一定概率進行數據和標簽的混淆,如公式(1)和(2)所示。
2.4 模型
此次實驗選取了VGG16[9]、VGG19[9]、Xception[10]、DenseNet121[11]、DenseNet169[11]、DenseNet201[11]、InceptionV3[12]和NASNetLarge[13]作為訓練模型,分別按照以下5種方式訓練。為了保證實驗結果的可重復和可對比,均使用FSD的20%數據作為驗證集,并固定劃分數據的隨機種子。
遷移YFCC100M預訓練模型,在YFCC100M數據上訓練出一個最優模型作為預訓練模型,并使用該模型的結構和參數作為80%的FSD數據上訓練的初始化參數。
2.5 實驗結果
每個模型采用Adam優化器,初始學習率為1e-4,損失函數為交叉熵。每一次完成所有樣本的迭代后,模型在驗證集上進行損失函數評估,當損失在連續5次沒有下降時,將學習率降為初始的0.5倍。此外,為了保障模型得到充分訓練并避免過擬合,訓練過程使用早停策略,當驗證集上的損失在連續15次完整數據集迭代均沒有下降時,模型訓練過程自動停止。
評價指標與DCASE2019挑戰賽一致,采用類別加權的類別排序平均精度(label-weighted label-ranking average precision,lwlrap)。lwlrap測量了對每個測試片段,模型給出的標簽排序列表的平均精度。類別排序平均精度(lrap)的計算公式如公式(3)所示[14],lwlrap是每類標簽的lrap的平均值。
章節2.4中每個模型和實驗方法對應的結果如表1所示。由于模型訓練和數據增強部分會有一定的隨機性,每個模型都以多次訓練取最好評估結果的方式進行。
2.6 結果分析
通過分析表1數據可以得到以下結論。
(1)使用在ImageNet上預訓練的模型作為初始化能取得更好的效果(FSD_no對比FSD_pre,FSD_YFCC_no對比FSD_YFCC_pre),盡管肉眼看來,梅爾頻譜圖和ImageNet圖像的特征差別很大,但實驗依然證明了跨領域的遷移學習效果顯著。
(2)目標領域由于其問題、數據和源領域存在一定差異,源領域的模型效果和目標領域的最終效果并沒有必然聯系(ImageNet上準確率對比FSD_no/FSD_pre/FSD_YFCC_no/FSD_YFCC_pre),在ImageNet上表現好的NASNetLarge和Xception模型,無論是遷移網絡結構,或者是遷移結構和模型參數,均不能保證目標領域的效果。
(3)對比FSD_pre和FSD_YFCC可發現,使用同領域相似數據分布的數據集進行預訓練,其效果比ImageNet上的預訓練效果更差,原因有兩個:一是YFCC數據量較ImageNet小得多;二是YFCC中存在標注噪聲會影響預訓練效果。
3? 結語
該實驗系統驗證了從圖像分類到音頻分類的跨領域遷移的學習效果。分析實驗結果可知,通過大量正確運用視覺任務數據預訓練模型,不僅能解決計算機視覺領域本身的問題,還能夠在很大程度上輔助解決語音領域的問題,特別是在任務標注數據有限的情況下。
當然,遷移學習也有前提,即遷移學習的兩個領域要有共通點(語音的波形圖需經過傅里葉變換轉換為頻譜圖,從而與圖像領域相連),因為如果源域和目標域的相似度不夠,便無法遷移;另外,目標域也需一定量的標注數據,并且標注數據必須清潔準確。
總之,該文的實驗結論能夠為跨領域遷移學習的方法提供啟發,也證明了跨領域遷移學習方法能夠為更多領域的成功應用提供幫助。
參考文獻
[1] Jia Deng,Wei Dong,Richard Socher,et al.Imagenet: A large-scale hierarchical image database[A].2009 IEEE Computer Society conference on computer vision and pattern recognition[C].2009.
[2] Kornblith,Simon, Jonathon Shlens,Quoc V.Le.Do better imagenet models transfer better?[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019.
[3] De ZhiWang,Lilun Zhang,Changchun Bao,et al.Weakly supervised CRNN system for sound event detection with large-scale unlabeled in-domain data[EB/OL].https://www.arxiv.org/abs/1811.00301?context=cs.
[4] Xu,K,Zhu,B,Wang,D,et al.Nudt Solution for Audio Tagging Task of Dcase 2018 Challenge. DCASE2018 Challenge,1-3[Z].2019-08-01.
[5] DCASE2019 Challenge[EB/OL].https://www.dcase.community/challenge2019/.
[6] Miller,George A.WordNet:An electronic lexical database[M].MIT press,1998.
[7] Jort F.Gemmeke,Paniel P.W,Ellis,Dyian Freedman,et al. "Audio set: An ontology and human-labeled dataset for audio events[A].2017 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C].2017.
[8] Bart Thomee,Benjamin Elizalde,David Ayman Shamma,et al.YFCC100M: The new data in multimedia research[J].Communications of the ACM,2016,59(2):64-73.
[9] Simonyan, Karen, Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[Z].2014.
[10] Chollet, Fran?ois.Xception: Deep learning with depthwise separable convolutions[A].Proceedings in IEEE conference on computer vision and pattern recognition(CVPR)[C].2017.
[11] Gao Huang,Zhuang Liu,Kilian Weinberger.Densely connected convolutional networks[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2017.
[12] C.Szegedy,V.Vanhoucke,S.Ioffe,et al.Rethinking the inception architecture for computer vision.[Z].2015.
[13] Zoph, Barret.Learning transferable architectures for scalable image recognition[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2018.
[14] 3.3.Metrics and Scoring:quantifying the quality of predictions[EB/OL].ttps://www.scikit-learn.org/stable/modules/model_evaluation.html#label-ranking-average-precision.
[15] 部分模型ImageNet分類準確率[EB/OL].https://www.keras.io/applications/.