999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網絡的知識蒸餾數據增強

2022-04-18 10:56:18魯統偉徐子昕
計算機工程 2022年4期

魯統偉,徐子昕,閔 鋒

(1.武漢工程大學 計算機科學與工程學院,武漢 430205;2.智能機器人湖北省重點實驗室,武漢 430205)

0 概述

隨著深度卷積神經網絡(Deep Convolutional Neural Network,DCNN)[1-2]的不斷改進和發展,其在圖像分類[3-5]、目標檢測[6-7]、語義分割[8-9]、視頻分析[10-11]等計算機視覺任務中得到廣泛應用并取得重要研究成果。為進一步提高DCNN 分類器訓練效果,研究人員提出了數據增強[12]、正則化[13-14]等一系列方法,并且設計區域丟棄算法(dropout),將dropout 用于刪除隱藏的激活層,防止卷積神經網絡(Convolutional Neural Network,CNN)過于關注圖像中某塊的小區域特征。dropout 算法還可以直接應用在輸入數據樣本中,通過隨機丟棄部分像素區域得到新樣本,現已被證明可使模型注意力不局限于樣本的局部區域,更好地學習樣本特征的整體分布,提高分類器的訓練準確率[15]。由于dropout 算法去除的區域通常被簡單地歸零或填充隨機噪聲,因此對于小尺寸的圖像,減少了訓練圖像上特征像素的比例,不利于進一步分類與定位。在基于工業視覺的語義分割任務中,直接采用dropout 算法會產生兩方面的問題。一方面,由于工業零部件正負樣本區別小,在人工標注時會產生錯誤標簽,因此直接采用dropout 算法會忽略錯誤標簽對模型的誤導[16-17]。另一方面,工業零部件的訓練集樣本具有重復性與相似性[18],現有的填充策略和圖像融合策略會引入非信息噪聲,降低樣本信噪比[19-20]。

DEVRIES 等[21]提出Cutout 數據增強算法,對原樣本圖像使用掩模遮擋一個矩形區域以得到新樣本圖像,新樣本圖像標簽采用原始標簽。YUN 等[22]在此基礎上提出CutMix 數據增強算法。該算法與Cutout 算法相似,不同之處在于CutMix 使用其他樣本的隨機區域進行填充,并先分別按照兩個樣本的原始標簽進行損失計算,再將兩者求和得到最終損失值。這兩種數據增強方法在提高分類器訓練效率上取得了較好的結果,但僅對原標簽做簡單的線性變化或直接使用原標簽作為新樣本標簽的方法是無法表示標簽中離散信息的,這會導致網絡模型無法將離散信息也作為一種特征進行學習。為解決上述問題,本文提出一種基于生成對抗網絡(Generation Adversarial Network,GAN)的知識蒸餾數據增強方法。對區域丟棄算法中的丟棄運算進行改進,在生成對抗網絡[23]的基礎上,對其生成器和判別器結構進行優化,設計一種補丁生成網絡。補丁生成網絡通過學習原樣本的像素分布生成填充補丁,以減少隨機噪聲。同時,在區域丟棄算法中引入基于知識蒸餾的標簽生成算法,通過教師網絡獲得Soft-lable并輔助學生網絡進行訓練[24]。Soft-lable 比普通的One-Hot 標簽具有更高的信息熵,能有效輔助學生網絡學習不同類別間的類間差距,減少錯誤標簽對模型的影響,提高分類器的精度。

1 區域丟棄算法

區域丟棄算法作為一種正則化方法被廣泛應用于防止神經網絡過擬合,通過在網絡的前向傳播過程中按照一定比例舍棄節點的激活值的方式增強網絡分類器的訓練效率。與全連接層相比,區域丟棄算法在卷積層中的效果較差,這是由于卷積層使用了卷積核,使得卷積層的參數量遠少于全連接層,因此在解空間中對正則化的要求更少,并且在卷積層中特征圖的相鄰像素信息相似,舍棄掉的像素信息又存在于其他的像素中,繼續向后傳遞。

為提高區域丟棄策略在卷積層中的正則化效果,將卷積層中的丟棄操作設置到輸入層。通過直接移除輸入圖像的連續區域迫使網絡去學習全局信息,而不僅關注于局部區域。在許多視覺任務中常常存在目標物體被遮擋的情況,區域丟棄算法也可以看作是對遮擋的模擬,定義如下:

其中:x∈RW×H×C表示原始樣本,W表示原始圖像的寬度、H為圖像高度、C為圖像通道數;表示生成的新樣本,采用原始樣本標簽y作為新樣本的標簽;M∈{0,1}W×H表示一個尺寸為ssize×ssize的矩形二值掩模。掩模M的中心位置是隨機生成的,像素坐標(x,y)范圍如式(2)所示:

其中:wwidth表示圖像寬度;hheight表示圖像高度。

掩模左上角(x1,y1)、左下角(x1,y2)、右上角(x2,y1)、右下角(x2,y2)這4 個角點坐標與中心坐標的關系如式(3)所示:

對分類任務常用的CIFAR-10 數據集使用區域丟棄算法后的樣本效果見圖1。

圖1 區域丟棄后的CIFAR-10 數據集樣本Fig.1 CIFAR-10 dataset sample after dropout

區域丟棄算法雖然能通過單樣本進行數據增強,并提高網絡訓練效率,但是直接應用于工業攝像機獲取到的工業數據集還存在如下問題:1)在使用二值掩模對原樣本進行遮擋時,會引入二值噪聲,需要對所有樣本的所有像素值進行歸一化操作,這會增加額外的計算量;2)使用原樣本的標簽進行網絡損失計算,這對于圖像分類任務和語義分割任務都是不合適的,在圖像分類任務中每張圖像僅對應一個標簽,原標簽無法體現出不同類別之間的差異信息,在語義分割任務中每一個像素點都對應一個One-Hot 標簽,丟棄的像素點被二值填充,此時仍采用像素點的原始標簽是不合理的。針對以上問題,本文對區域丟棄算法在標簽生成方式上進行改進和優化。

2 基于GAN 的知識蒸餾數據增強算法

本文主要從非監督單樣本數據增強方式和新標簽生成方式2 個方面對區域丟棄算法進行改進。

2.1 改進的數據增強算法

為進一步提高數據增強算法的生成樣本質量,引入補丁填充算法。補丁填充算法被使用在CutMix算法中,能減少丟棄像素導致的信息缺失、訓練困難問題。受補丁填充算法的啟發,構造一種補丁生成網絡,并將其應用在區域丟棄算法中。

補丁生成網絡整體采用常規GAN 模型中的生成器-判別器結構作為網絡骨架,受到PATHK 等[25-26]在圖像修復任務中的啟發,本文算法將生成器G 設計為一個編碼器-解碼器(Encoder-Decoder)結構。對于生成器G 輸入一張512×512 大小的三通道圖片,設置區域丟棄使用的掩模尺寸為128×128,即生成器需要生成一個128×128 大小的補丁。輸入圖片經過4 次卷積池化下采樣為32×32 大小的512 維特征,再經過2 次上采樣(UpSampling)恢復尺寸得到最終的三通道128×128 的填充補丁。補丁生成網絡生成器G 和常規GAN 生成器G 結構見圖2。

圖2 補丁生成網絡生成器與常規GAN 生成器結構Fig.2 Structure of patch generation network generator and conventional GAN generator

從圖2 可以看出,與常規GAN 生成器相比,補丁生成網絡將編碼器中的全連接層替換為卷積層,在解碼器中增加了上采樣層以控制最終獲得的補丁尺寸。同時,在激活函數選擇上,改用系數為0.2 的LeakyReLu 激活函數替代tanh 激活函數,以防止在訓練過程中的梯度震蕩問題。

在生成器中的編碼器Encoder 設計為一個典型的卷積結構,共使用4 層卷積層,這4 個卷積層分別使用32 個步長為2 的3×3 卷積核、64 個步長為2 的3×3 卷積核、128 個步長為2 的3×3 卷積核和512 個步長為2 的1×1 卷積核。輸入圖像經過4 次卷積層后,特征圖的尺寸縮小為原圖的1/16。生成器中的解碼器Decoder 通過兩次上采樣恢復特征圖尺寸。在上采樣的具體實現中,直接采用反卷積(Deconv)層雖然更簡單,但其存在棋盤效應,必須人為設計卷積核尺寸才能整除步長。為了減少網絡設計的難度,通過2 次疊加使用上采樣層和卷積層實現上采樣操作。第1 次使用上采樣層與128 個步長為1 的3×3 卷積層將32×32×512 的特征圖擴大為64×64×128,第2 次使用上采樣層與64 個步長為1 的3×3 卷積層將64×64×128 的特征圖繼續擴大為128×128×64,之后通過一個卷積層將特征圖的尺寸調整為128×128×3。僅進行兩次上采樣操作的原因為:與常規GAN 的解碼器需要將特征圖尺寸還原到原圖大小不同,補丁生成網絡僅需要將特征圖尺寸還原到與補丁相同的大?。ㄔ瓐D大小的1/4)。

在判別器的設計上,常規GAN 判別器結構與補丁生成網絡判別器結構見圖3。

圖3 補丁生成網絡判別器與常規GAN 判別器結構Fig.3 Structure of patch generation network discriminator and conventional GAN discriminator

從圖3 可以看出,補丁生成網絡判別器的設計參考常規GAN 判別器的結構,但在卷積層后沒有再使用最大池化層,而是將這些信息最后直接平化(Flatten)輸入到全連接層中。在經過激活函數后,補丁生成網絡判別器還加入了BN 層加快收斂速度。

判別器的輸入為生成器生成的128×128×3 尺寸的補丁,經過3 個卷積層和1 個平化層,最后輸出1 個一維概率值。3 個卷積層分別使用64 個步長為2 的3×3卷積核、128 個步長為2 的3×3 卷積核和256 個步長為1 的3×3 卷積核。加入平化層是將32×32×256 的特征一維化成26 244個一維向量,使卷積層與全連接(Dense)層進行過度。最終通過sigmoid 激活函數輸出一個表示該補丁是否為真的一維概率值。

基于生成對抗網絡的補丁填充算法定義如下:

其中:X表示新樣本;新樣本的標簽Y先使用原始樣本標簽y,本節僅討論圖像的非監督數據增強變化規則,在下節中將會對樣本標簽的生成方式進行詳細討論;M∈{0,1}W×H表示區域丟棄算法中使用的二值掩模;E(M·x)表示將區域丟棄樣本作為編碼器的輸入;D(E(M·x))表示解碼器生成的填充補丁。

對圖像分類數據集和語義分割數據集分別使用補丁填充算法后的樣本效果見圖4??紤]到生成像素分布完全擬合的樣本需要大量的時間,為方便討論,本文設置epoch 為1 000,batch_size 大小為8 以提高補丁生成效率。從圖4(a)、圖4(b)、圖4(c)和圖4(d)中可以看出補丁像素會隨著迭代次數的增加,逐漸接近原樣本像素分布。同時,本文算法生成的補丁并非僅還原原樣本圖,而是與原樣本的低尺度圖像像素分布接近,這樣在一個mini-batch 中還能夠增加多尺度信息。但在CIFAR-10 數據集中,考慮到樣本尺寸過小,生成低尺度圖像意義不大,本文將補丁的擬合對象調整為全局圖像,見圖4(e)。

圖4 填充補丁后的圖像樣本Fig.4 Image sample after padding patch

2.2 改進的標簽生成算法

知識蒸餾是一種模型壓縮方法,目的是將知識從性能好、參數量大的高精度網絡轉移到易于部署、參數量小的模型中。這種訓練模式也被稱為教師-學生模式。教師模型是由一個或者多個網絡組成的復雜模型,學生模型是一個網絡結構簡單、易于調整參數的模型。教師模型在訓練中給予學生模型的指導稱為知識,知識的定義如下:

其中:j表示樣本集合;z表示教師模型最后一層的輸出;T表示蒸餾所采取的溫度,同時反映了標簽的軟化程度,在知識蒸餾過程中取T為1。

引入知識蒸餾算法生成數據增強樣本的標簽,將其與標簽平滑方法相融合,提出一種基于知識蒸餾的標簽生成算法?;谥R蒸餾的標簽生成算法流程見圖5。

圖5 基于知識蒸餾的標簽生成算法流程Fig.5 Procedure of label generation algorithm based on knowledge distillation

改進的基于知識蒸餾的標簽生成算法引入了標簽融合模塊,見圖5 中的虛線框。將教師網絡訓練學習到的知識通過與真實標簽混合的方式傳遞給學生網絡,設教師網絡由N個復雜CNN 組成,則傳遞的知識共有N個。相較于直接使用未采取知識蒸餾的One-Hot 離散標簽,使用經過蒸餾的知識對學生網絡進行訓練可以學習到不同類別間的相似度信息,從而提高分類與分割任務的精度。同時,在語義分割數據集的數據清洗過程中,通常發現人工標定錯誤的樣本,通過標簽混合的方式也能減少錯誤的標簽信息所占的權重比例,降低訓練過程中錯誤標簽對模型產生的誤導。

基于知識蒸餾的標簽生成算法定義如下:

其中:生成的標簽L由Ltrue與Lsoft按比例混合得到,Ltrue表示人工標注的真實標簽,Lsoft表示通過教師網絡獲取到的知識,為保證Ltrue真實標簽的所占比例更高,兩者按照Beta 分布取值,約束兩者之和為1;α與β表示混合系數,取α為0.3、β為0.7;pi表示教師網絡對第i個樣本的預測值;N表示樣本數量。

3 實驗結果與分析

3.1 數據集

為驗證本文數據增強算法和標簽生成算法的有效性,分別在圖像分類和語義分割兩個任務上進行實驗。對于圖像分類任務采用CIFAR-10 和CIFAR-100 數據集[27]。CIFAR-10 數據集是一個被圖像分類任務廣泛使用的數據集,包含10 個類別的32×32 大小的三通道RGB 圖像,每個類別包括50 000 張訓練樣本和10 000 張測試樣本,部分樣本見圖6。

圖6 CIFAR-10 數據集部分樣本Fig.6 Partial sample of CIFAR-10 dataset

CIFAR-100 數據集是在CIFAR-10 數據集的基礎上進行擴充得到,包含20 個父類(superclass),每個父類又包含5 個子類(classes),即100 個類別的32×32 大小的三通道RGB 圖像,其中每個子類包含500 個訓練樣本和100 個測試樣本。CIFAR-10 和CIFAR-100 數據集的每個樣本按照固定的命名格式進行命名,每張圖像的標簽為其名字的首個數字,例如樣本名“2_403.jpg”表示樣本的標簽為2。

由于目前沒有用于語義分割的工業數據集,因此語義分割任務采用汽車轉向器軸承數據集,該數據集由軸承裝配線上的工業相機拍攝得到,共2 020張樣本圖像,訓練集共1 212 張樣本圖像,測試集和驗證集分別為404 張樣本圖像。汽車轉向器軸承數據集中正負樣本的4 種不同位姿見圖7,凹槽用圓圈標出,非凹槽用矩形標出。汽車轉向器分為內側與外側,當且僅當內側與外側均為凹槽時才是正樣本,見圖7(a),其余位姿均為負樣本見圖7(b)、圖7(c)和圖7(d)。該數據集包括正樣本和負樣本2 個類別,其中負樣本存在3 種位姿,正樣本存在1 種位姿。

圖7 汽車轉向器軸承數據集樣本Fig.7 Sample of automobile steering gear bearing dataset

汽車轉向器軸承數據集全部由手工標注,數據集標注示例見圖8(a),示例圖像對應的json 文件見圖8(b),其中,label 表示標簽名,points 表示識別目標的像素點坐標。

圖8 數據集標注示例Fig.8 Example of dataset annotation

3.2 評價指標

通過以下指標[28]評價基于生成對抗網絡的知識蒸餾數據增強算法的性能:

1)最低k錯誤率(Top-kError)。Top-kError 表示對每一類最終預測結果中最大的k個值不包含真實標簽的概率。Top-kError 越小表示分類精度越高。

2)特征曲線下面積(Area Under the Receiver Operating Characteristic,AUROC)。AUROC 表示模型隨機預測到的正樣本次數比負樣本次數多時的數學期望,其大小為以假正例率(False Positive Rate,FPR)為橫坐標、真正例率(True Positive Rate,TPR)為縱坐標的ROC 曲線下的面積。TPR 與FPR 計算公式如式(7)所示:

其中:TTP表示預測為正樣本、實際為正樣本的樣本個數;FFN表示預測為負樣本、實際為正樣本的樣本個數;TTN表示預測為負樣本、實際為負樣本的樣本個數;FFP表示預測為正樣本、實際為負樣本的樣本個數。在實際統計中,TTP、FFN、TTN和FFP均由混淆矩陣獲得。AUROC 越大表示分類器的精度越高,效果越好。

3)平均交并比(mean Intersection over Union,mIoU)。mIoU 表示預測值與真實值的平均交并比。mIoU 越大,表示兩者重疊越多,分割精度越高,計算公式如式(8)所示:

其中:n表示測試樣本數;設第i個樣本的預測像素點連通域為Pi、真實標簽像素連通域為Ti,表示Pi?Ti時的Pi均表示Pi為非Ti子集時預測面積與真實標簽的非重合面積。

雖然mIoU 是像素級別的評估標準,但是在實際檢測任務中可能存在mIoU 值大,但分割不準確的情況,見圖9,彩色效果見《計算機工程》官網HTML 版。在圖9 中,background 為模型預測存在凹槽的區域,target 為真實標簽區域。對于測試樣本2,雖然模型對所有凹槽預測正確,但預測區域面積遠大于真實標簽面積。對于測試樣本3,雖然僅預測出一個凹槽,但預測錯誤的像素面積極小。然而,測試樣本3的mIoU 甚至比測試樣本2 的mIoU 更大,這對于檢測任務顯然是不合理的。

圖9 語義分割示意圖Fig.9 Schematic diagram of semantic segmentation

為更直觀地分析模型檢測效果,針對圖像級別的轉向器凹槽識別任務對式(8)進行修改,得到適用于本文任務的凹槽識別率評估指標。凹槽識別率定義如式(9)所示:

設第i個樣本實際凹槽連通域像素點集為Ti,i∈(1,2,…,n),模型預測的像素連通域點集為Pi。當Pi?Ti時,預測凹槽區域正確增加1。當Pi的部分像素屬于Ti的非真子集時,代表部分凹槽預測正確也增加1。當Pi為非Ti子集時,代表預測區域全部為非凹槽區域,預測全部錯誤增加1。

3.3 結果分析

在PyCharm 中編程實現本文算法,編程語言為Python3.6.10,深度學習框架為PyTorch1.0.0,實驗硬件平臺包括Intel?CoreTMi7-7700HQ CPU@ 2.80 GHz處理器,以及GeForce GTX 1070 GPU 用于加速模型訓練。

在教師模型Net-T 的選擇上,僅使用一個網絡模型作為教師模型Net-T。學生模型Net-S 使用與教師模型相同的數據集訓練,采用五折交叉檢驗方式來訓練教師模型Net-T。將數據集隨機分為等量的5 份,其中,4 份作為訓練集,1 份作為測試集,重復5 次上述過程訓練得到教師模型。這樣的目的是促使模型從多方面學習樣本,避免得到局部最優值。將Net-T 每次對數據集的Softmax 預測值作為知識蒸餾得到的軟標簽(Soft-label),將軟標簽與真實標簽(True-label)進行混合獲得訓練學生模型Net-S 使用的標簽。生成的軟標簽保存至csv 文件中,部分CIFAR-10 數據集軟標簽csv 文件見圖10。

圖10 教師網絡生成的軟標簽Fig.10 Soft-label generated by Net-T

從圖10 可以看出,軟標簽學習到離散標簽所沒有體現的類間距離信息。例如,在圖10 中image_id為Train_0_0 的樣本,該樣本在轎車(automobile)上的最大預測值為0.515,在卡車(truck)上的第二大預測值為0.288,說明該樣本最有可能為轎車,同時該樣本與卡車的特征最接近??梢姡ㄟ^知識蒸餾可以為學生網絡Net-S 提供原標簽中所沒有的知識。

學生模型在訓練中不對數據集劃分,直接使用完整的數據集訓練。教師網絡訓練流程見圖11。

圖11 教師網絡訓練流程Fig.11 Procedure of Net-T training

設置mini-batch 為32,max_iter 為1 000,訓練周期(epoch)為350。為系統地評估本文算法,使ImageNet2017 分類競賽中的最佳網絡SE-ResNet50作為骨架網絡,該網絡模型具有25M 的參數量,采用交叉熵函數作為損失函數。

為防止數據集在訓練過程中存在過擬合現象,同時為減少模型訓練中復雜的調參步驟,采用余弦退火和熱重啟[29]算法作為學習率調整算法,學習率計算公式如式(10)所示:

圖12 學習率曲線Fig.12 Learning rate curve

3.3.1 本文算法與區域丟棄算法的對比

區域丟棄算法與本文算法在CIFAR-100 數據集上的損失對比見圖13。從圖13 可以看出,在訓練初期采用本文算法的損失值會大于區域丟棄算法,這是因為在訓練初期生成補丁的像素分布不能很好地與原數據集像素擬合。但隨著迭代次數的增加,像素分布越來越接近真實分布,在訓練結束時,采用本文算法能得到更低的損失值,并且能更快地達到收斂??傮w而言,本文算法能在一定程度上提高網絡的訓練效率。

圖13 區域丟棄算法與本文算法的損失對比Fig.13 Comparison of loss between dropout algorithm and the proposed algorithm

為更直觀地對檢測結果進行比較,圖14 給出了采用3 種不同數據增強算法的熱力圖。從圖14 可以看出,對于測試圖片的凹槽檢測,本文算法和區域丟棄算法均能正確識別內側凹槽,但在識別準確率上,特別是對于汽車轉向器軸承的外側區域,僅使用原始數據集而未采用任何數據增強方式的檢測效果最差,將轉向器外側凸起和其他區域均錯誤識別為凹槽。區域丟棄算法會受到背景的影響,將轉向器其他區域也識別為凹槽。可見,本文算法的檢測效果明顯優于區域丟棄算法。

圖14 語義分割熱力圖Fig.14 Semantic segmentation heatmap

3.3.2 本文算法與其他數據增強算法的對比

為進一步驗證本文算法的有效性,將本文算法與Cutout 和CutMix 這兩種數據增強算法進行比較,在CIFAR-100 數據集上的分類結果見表1。選擇常用的Top-1 Err 和Top-5 Err 作為Top-kErr 評價標準,Top-1 Err 和Top-5 Err 越小代表分類效果越好。由表1 可以看出,無論采用何種算法,Top-1 Err 均比Top-5 Err 高約20 個百分點,這是因為預測概率最大的1 個結果即為真實標簽的情況要少于預測最大的5 個結果中包含真實標簽的情況。本文算法在CIFAR-100 數據集上取得了較好的分類效果,與Cutout 算法相比,Top-1 Err 降低了1 個 百分點,Top-5 Err 降低了0.4 個百分點。與CutMix 算法相比,Top-1 Err 雖然提高了1 個百分點,但Top-5 Err 降低了0.1 個百分點。

表1 在CIFAR-100 數據集上的分類結果比較Table 1 Comparison of classification results on the CIFAR-100 dataset %

在CIFRA-10 數據集上的分類結果見表2。從表2可以看出,本文算法在CIFAR-10 數據集上也具有一定的有效性,相較于dropout算法在Top-1 Err 和Top-5 Err上分別降低了0.5 和0.6 個百分點,相較于Cutout 算法在Top-1 Err 和Top-5 Err 上分別降 低了0.2 和0.5 個百分點,但與CutMix 算法相比,在Top-5 Err 上雖然降低了0.3 個百分點,但在Top-1 Err 上卻增加了0.1 個百分點。

表2 在CIFAR-10 數據集上的分類結果比較Table 2 Comparison of classification results on the CIFAR-10 dataset %

導致CutMix 算法相較于本文算法在CIFAR-100和CIFAR-10 兩個數據集上Top-1 Err 上更好的原因為:兩個CIFAR 數據集的圖像大小僅為32×32,圖像特點為像素少而像素間包含的語義信息和特征信息多。本文算法不適用于此類特點的圖像,因為通過擬合樣本像素生成的“假”補丁所包含的特征信息遠少于所丟棄的真實圖像。CutMix 算法雖然丟棄了部分真實圖像區域,但填充的補丁是數據集中其他樣本圖像的真實像素區域,避免了該問題。如果僅使用原樣本標簽,則生成的補丁與真實區域相比效果會略差。CutMix 算法與本文算法在汽車轉向器軸承數據集樣本上的應用效果見圖15(a)~圖15(c)。在CIFAR-10 數據集上,圖15(d)中的真實補丁與圖15(e)中本文算法生成的“假”補丁區別甚大,可以證實上述分析。

圖15 填充補丁后的CutMix算法與本文算法樣本應用效果對比Fig.15 Comparison of sample application effect of CutMix algorithm and the proposed algorithm after padding patch

除了在CIFAR-10 和CIFAR-100 兩個數據集上,本文還在汽車轉向器軸承數據集上進行數據增強算法性能對比,選用Google 提出的DeepLabv3+作為語義分割的骨架網絡,該網絡在多項指標中均獲得最高分類精度[30],結果見表3。從表3 可以看出,本文算法在語義分割任務上具有較好的效果,相較于dropout、Cutout 或CutMix 算法在準確率 和mIoU 上均有一定的提升,相較于CutMix 算法在識別準確率和mIoU 上均提升了0.4 個百分點。這是因為在語義分割任務中,網絡模型的預測是像素級別的,CIFAR-10與CIFAR-100 數據集中包含32×32 大小的圖像,而汽車轉向器軸承數據集中包含512×512 大小的圖像,在分類數據集中生成的補丁像素對總像素的像素分布影響更大,所以在分類任務中本文算法較CutMix 算法的性能優勢并不明顯,但在語義分割任務中本文算法性能更優。

表3 在汽車轉向器軸承數據集上的語義分割結果Table 3 Semantic segmentation results on the automobile steering gear bearing dataset %

3.3.3 消融實驗結果與分析

為驗證標簽生成算法能提升數據增強算法在圖像分類與語義分割任務中的精度,設置消融實驗。將算法分為3 組進行訓練:第1 組為原始區域丟棄算法;第2 組為將數據增強算法改為本文提出的基于生成對抗網絡的數據增強算法;第3 組在第2 組的基礎上增加了基于知識蒸餾的標簽生成算法。在CIFAR-100 數據集上的消融實驗結果見表4,其中,“√”表示包括該算法,“×”表示未包括該算法。從表4 可以看出:對于第1 組實驗,僅使用原始CIFAR-100 數據,Top-1 Err 和Top-5 Err 分別為28.4% 和5.7%;對于第2 組實驗,僅采用基于生成對抗網絡的數據增強算法,Top-1 Err 和Top-5 Err 相較于第1 組實驗提升了1.9 和0.5 個百分點,原因是補丁尺寸占整個像素面積過大,反而會降低信噪比;對于第3 組實驗,同時使用本文提出的兩種算法時卻能提高準確率,Top-1 Err 和Top-5 Err 相較于第1 組實驗分別降低了3.1 和0.8 個百分點,達到最優分類精度,這說明知識蒸餾提取到的Soft-label 對提高分類精度有一定的效果。

表4 在CIFAR-100 數據集上的消融實驗結果Table 4 Ablation experimental results on CIFAR-100 dataset

在CIFAR-10 數據集上的消融實驗結果見表5。從表5 可以看出:對于第1 組實驗,僅使用原始CIFAR-10 數據,Top-1 Err 和Top-5 Err 分別為4.4%和1.9%;對于第2 組實驗,與CIFAR-100 數據集實驗結果類似,由于兩個數據集樣本尺寸一樣,因此僅采用基于生成對抗網絡的數據增強算法對Top-1 Err 和Top-5 Err 的提升效果不明顯,甚至會降低準確率;對于第3 組實驗,同時采用本文提出的兩種算法相較于第1 組實驗分別在Top-1 Err 和Top-5 Err 上降低了0.5 和0.6 個百分點,達到最優分類精度。

表5 在CIFAR-10 數據集上的消融實驗結果Table 5 Ablation experimental results on CIFAR-10 dataset

針對表4 中的第2 組實驗均會受到掩模尺寸影響,降低本文算法效果的問題,在CIFAR-100 數據集上分析丟棄區域所使用掩模M尺寸對實驗結果的影響。使用與之前實驗相同的基準網絡與訓練策略進行網絡訓練。評估掩模M的尺寸分別為0×0、4×4、8×8、16×16 時的Top-1 Err,其中0×0 表示直接采用原圖訓練,實驗結果見圖16。從圖16 可以看出,選擇掩模尺寸為4×4(即圖像尺寸的1/8)時,Top-1 Err 取到最小值為25.5%,若繼續擴大掩模尺寸為圖像尺寸的1/4(即8×8)和1/2(即16×16)均會增加Top-1 Err,降低分類精度。這也證實了表4 中第2 組實驗精度下降主要是由掩模尺寸導致。在后續實驗的掩模尺寸上采用效果最好的4×4 掩模尺寸。

圖16 掩模尺寸對Top-1 Err 的影響Fig.16 Influence of the size of the mask on Top-1 Err

通常而言,只要提供足夠多的訓練樣本,神經網絡的魯棒性能就能得到極大提升,但當某個樣本的特征在已知特征空間以外時,神經網絡存在不能以較低的置信度表示沒有學到的特征。為了驗證本文算法與CutMix 和Cutout 兩種數據增強算法的泛化性能,在OOD 樣本[31]上對2 種數據增強算法與本文數據增強算法進行對比。使用CIFAR-100 預訓練模型對CIFAR-100 數據集中的OOD 樣本進行預測,通過預測結果來判斷泛化性能。OOD 樣本選取CIFAR-100 預訓練模型預測的Top-1 Err 值與真實標簽不同的樣本。使用在CIFAR-100 上預訓練的SE-ResNet50 模型,在1 000 個測試樣本中選出283 個OOD 樣本,然后分別采用基于CutMix 算法、Cutout算法和本文算法這3 種數據增強算法訓練出的網絡模型對283 個OOD 樣本進行預測評估。網絡模型采用與3.3 節中相同的網絡模型訓練參數和訓練策略,預訓練模型上的OOD 樣本預測結果見表6。從表6可以看出,本文算法會受到樣本尺寸的影響,AUROC 相較于CutMix 算法降低了0.9 個百分點,相較于Cutout 算法提高了1.3 個百分點。

表6 預訓練模型上OOD 樣本預測結果Table 6 OOD sample prediction results on the pre-trained model %

4 結束語

為解決圖像分類任務中網絡模型無法從離散的標簽中學習到不同類別間的相似度信息以及工業視覺檢測任務中存在正負樣本難區分、樣本量少等問題,本文改進區域丟棄算法,提出一種基于生成對抗網絡的知識蒸餾數據增強算法,通過生成器-對抗器學習樣本的像素分布,生成填充補丁,提高生成數據的信噪比。將知識蒸餾中的教師-學生模型應用到擴充樣本的標簽生成中,通過教師網絡獲得Soft-label對學生網絡的訓練進行指導,將離散的標簽信息進行軟化,使網絡模型對樣本的離散空間特征進行更充分的學習。實驗結果表明,相較于區域丟棄算法,該算法在CIFAR-100 數據集和CIFAR-10 數據集的Top-1 Err上分別降低了3.1和0.5個百分點,在Top-5 Err上分別降低了0.8 和0.6 個百分點。在汽車轉向器軸承數據集的語義分割任務中,相較于區域丟棄算法、CutMix 算法和Cutout 算法,該算法在mIoU 上分別提高了2.8、0.4 和1.3 個百分點,在識別準確率上分別提高了2.3、0.4 和0.8 個百分點。由于本文所選用數據集均來自理想光照環境,因此下一步將考慮光照變化等因素來改變數據生成方式,同時通過在原樣本上增加濾波生成補丁等策略降低補丁生成耗時,提升數據生成質量和實時性。

主站蜘蛛池模板: 久久综合色视频| 国产成人亚洲综合a∨婷婷| 中文字幕在线视频免费| 国产自在线拍| 亚洲电影天堂在线国语对白| 美女免费黄网站| 国产亚洲高清视频| 欧美综合一区二区三区| 91福利一区二区三区| 91精品久久久无码中文字幕vr| 亚洲精品制服丝袜二区| 最近最新中文字幕在线第一页| 国产综合另类小说色区色噜噜| 99一级毛片| 在线国产91| 亚洲第一黄色网| 啪啪啪亚洲无码| 2021最新国产精品网站| 国产成人精品一区二区不卡| 亚洲国产成人无码AV在线影院L| 中文字幕 91| 色综合天天操| 久996视频精品免费观看| 欧美视频在线观看第一页| 91无码视频在线观看| 午夜毛片福利| 五月婷婷亚洲综合| 亚洲电影天堂在线国语对白| 88av在线| 97在线国产视频| 欧美第九页| 国产91高清视频| 性视频久久| 全部免费毛片免费播放| 亚洲无码高清视频在线观看| 日韩激情成人| 国产打屁股免费区网站| 婷婷色婷婷| 国产成人91精品| h视频在线播放| 欧美怡红院视频一区二区三区| 午夜啪啪网| 最新国产麻豆aⅴ精品无| 欧美日韩成人在线观看| 九九久久99精品| 亚洲精品综合一二三区在线| 精品99在线观看| 99久久国产综合精品2020| 国产一区免费在线观看| 亚洲精品色AV无码看| 久久亚洲黄色视频| 伊人久久综在合线亚洲91| 国产精品黑色丝袜的老师| 凹凸精品免费精品视频| 日韩a在线观看免费观看| 少妇人妻无码首页| 91无码人妻精品一区二区蜜桃 | 1024国产在线| 亚洲视频二| 激情综合网激情综合| 国产自产视频一区二区三区| 伊人久久大香线蕉aⅴ色| 国产高清国内精品福利| 亚洲精品午夜天堂网页| 久久精品亚洲专区| 亚洲Va中文字幕久久一区 | 无码内射中文字幕岛国片| 国产亚洲欧美日韩在线观看一区二区| 国产精品无码AV片在线观看播放| 午夜不卡视频| 日本午夜精品一本在线观看| 欧美日韩资源| 91蝌蚪视频在线观看| www.日韩三级| 久久精品国产999大香线焦| 久久精品无码一区二区日韩免费| 五月婷婷亚洲综合| 国产精品永久久久久| 欧美一道本| 国产美女视频黄a视频全免费网站| 国产精品亚洲专区一区| 久久国产精品无码hdav|