張 晉,謝 珺,梁鳳梅,續欣瑩,董俊杰
1(太原理工大學 信息與計算機學院,山西 晉中 030600) 2(太原理工大學 電氣與動力工程學院,太原 030024)
磁瓦是電機的重要組成部件,在生產過程中,由于原料、加工工藝等因素的影響,其表面會產生各種復雜缺陷,而這些磁瓦中的缺陷會直接影響電機的性能和壽命,因此生產過程中必須將表面有缺陷的磁瓦檢測出并剔除[1].目前磁瓦表面缺陷檢測主要由人工檢出,存在檢測效率低、穩定性差和成本高等問題.一些研究人員試圖通過視覺檢測和圖像處理方法來實現磁瓦表面缺陷的自動化檢測與識別過程[2].
林麗君[3]等人提出一種基于圖像加權信息熵和小波模極大值相結合的磁瓦表面缺陷檢測方法,該方法通過一種自適應改變截止頻率的BHPF濾波器,對磁瓦的裂紋缺陷背景紋理和噪聲進行抑制后,利用小波多尺度分辨的特點,檢測出磁瓦圖片中的缺陷部分.楊成立[4]等人提出一種非下采樣Shearlet變換的磁瓦表面缺陷檢測識別方法(NSST),該方法將含有磁瓦缺陷圖像中的缺陷和背景分別分解為低頻和高頻兩個子帶圖像,從而實現對磁瓦表面缺陷的檢測.HuangYi-bin[5]等人提出一種MCuePush U-Net的實時多模塊神經網絡模型,在較短時間內實現了對磁瓦圖像表面缺陷的檢測.劉暢[6]等人使用空洞卷積替代U-Net模型的部分卷積層和池化層,并加入分類神經網絡,實現了磁瓦表面缺陷的檢測與分類識別功能.這些基于機器視覺的磁瓦缺陷自動檢測及分類方法,在一定程度上實現了很好的效果.目前,在磁瓦表面缺陷檢測的研究中,所需要的待檢測圖像樣本均通過CCD相機等圖像采集裝置獲得,而圖像采集設備價格昂貴、搭建較為復雜.此外,含有缺陷的磁瓦并不是大量存在的,在生產過程中,磁瓦表面缺陷的類型也是隨機產生的,而且同一類型缺陷也會有各種不同的樣式,如圖1所示.因此如何更好的獲取大量含有不同樣式缺陷的磁瓦圖像用于檢測分類模型的訓練,是一個亟待解決的任務.

圖1 磁瓦表面常見缺陷類型及樣式圖Fig.1 Common defects types and styles on the magnetic tile surfaces
生成圖像建模是計算機視覺領域一項重要的研究內容,通過使用深度學習網絡學習已有圖像的特征,從而生成含有該特征的新的圖像數據.目前,對于生成圖像建模的相關研究已取得了顯著進展.Alexey Dosovitskiy[7]等人將訓練的生成卷積神經網絡用于生成不同形狀與顏色的桌椅,進一步評價桌椅圖像之間的相似性以及對應關系.Aaron van den Oord[8]等人在使用改進的深度神經網絡對自然圖像生成方法的研究中,獲取了清晰的圖像樣本.何新宇[9]等人提出了一種基于深度卷積神經網絡的肺炎圖像識別模型,用于解決肺炎圖像識別準確率低的問題.
隨著生成圖像建模的不斷研究,2014年,Goodfellow[10]等人提出的生成對抗網絡(GAN)得到的大家的廣泛關注,其算法已經在各類圖像合成、修復以及視頻、音樂等的生成中展示出了良好的效果.趙樹陽[11]等人提出一種非監督的由已有圖像生成新圖像的低秩紋理生成對抗網絡(Low-rank generative adversarial network,LR-GAN)算法,用于解決低秩圖像的校正問題.Zhao Zhi-xuan[12]等人將GAN和自編碼結合起來用于重建缺陷圖像,并使用LBP特征進行圖像局部對比以檢測織物表面缺陷.田思洋[13]等人采用生成對抗網絡對不同生產線上的鋼板缺陷圖像樣本進行圖像翻譯,從而獲得新生產線的缺陷樣本,實現跨域圖像轉換.陳方杰[14]等人利用生成對抗網絡生成可分性更高的高光譜圖像,用于解決在高光譜圖像分類領域中特征利用不足的問題.
為了解決磁瓦圖像采集困難、含缺陷磁瓦樣本少、不同缺陷樣本數不均勻、缺陷類型單一的問題,本文將深度卷積生成對抗網絡的輸入空間參數化為混合模型,提出一種高斯混合模型的深度卷積生成對抗網絡(Gaussian Mixture Model-Deep Convolution GenerativeAdversarial Networks,GMM-DCGANs)用于生成磁瓦缺陷圖像.由最大類間方差(Otsu)算法將磁瓦缺陷圖像轉換為二值圖像,在對圖像強化缺陷弱化背景后,將該二值圖像作為高斯混合模型的深度卷積生成對抗網絡的輸入,用于生成大量不同缺陷樣式的磁瓦缺陷圖像,并使用基于局部感受野的極限學習機(ELM-LRF)算法對生成的缺陷圖像分類,以驗證所生成圖像的質量.
由Goodfellow[10]等人在2014年提出的生成對抗網絡(Generative Adversarial Networks,GAN)是一種無監督深度學習網絡模型,如圖2所示.其結構主要由生成網絡G(Generator)和判別網絡D(Discriminator)兩部分組成.生成網絡G將輸入噪聲z生成圖像樣本,判別網絡D用來判別輸入圖像是真實圖像還是生成器生成的假圖像.通過兩個網絡相互博弈學習,不斷提高兩個網絡的性能,最終達到動態平衡,從而可以生成以假亂真的圖像.生成網絡G和判別網絡D的目標函數如公式(1)所示:

(1)
其中:z是輸入噪聲,G是生成網絡,D是判別網絡,G(z)是由生成網絡G生成的圖像數據,x是G(z)所對應的真實圖像數據.

圖2 生成對抗網絡(GAN)結構圖Fig.2 Generative adversarial network(GAN)structure
2015年,Alec Radford[15]等人將卷積神經網絡與生成對抗網絡相結合,將生成對抗網絡的生成器用反卷積神經網絡替換,判別器用卷積神經網絡替換,提出了深度卷積生成對抗網絡(DCGANs),并對其結構做了改進:
1)使用全卷積網絡,在生成器上使用微步卷積網絡,使其可以學習空間的上采樣部分;在判別器上使用帶步長的卷積層網絡,使其可以學習空間的下采樣部分.
2)在卷積特征上,使用全局平均池化來代替全連接層,從而提高模型的穩定性.
3)生成器上,輸出層上使用Tanh激活函數,其他層上則使用Relu激活函數;在判別器上,所有層上都使用LeakyRelu激活函數.
4)在生成器和判別器中,除最后一層外,每一層都使用批標準化,從而使梯度能夠傳播到更深的層次,避免了生成器崩潰以及模型的不穩定情況.
高斯混合模型的深度卷積生成對抗網絡(GMM-DCGANs)是在深度卷積生成對抗網絡的基礎上,將生成器用于生成圖像的輸入噪聲z的潛在空間定義為高斯混合模型[16],生成網絡中將簡單分布的潛在變量映射成高維數據改為將復雜分布的潛在變量映射成高維數據.這一改變提高了深度卷積生成對抗網絡對有限數量且具有類間及類內多樣性的訓練樣本的學習能力.
(2)
其中,μi為高斯分布的均值向量,Σi為協方差矩陣,ωi為每一個高斯分布的權重,N為自變量的維數,g(z|μi,Σi)為第i個高斯分布函數.對于磁瓦缺陷種類而言,每一類缺陷都將影響磁瓦的質量,因此,對于N個高斯分布,每一個高斯分布的權重均為1/N,所以原公式即為:
(3)
在高斯混合模型中,每一個高斯分布稱為一個組件,為了使高斯混合模型中各組件存在一定的相關性,先隨機生成均勻噪聲,得到噪聲各維均值μ={μ1,μ2,…,μN}和噪聲間協方差對角矩陣σi=[σj1,σj2,…,σjN].通過均值μ和協方差對角矩陣σi構建高斯混合模型,并將該高斯混合模型作為生成器的輸入部分.
z~N(x;μ,σi)
(4)
(5)
高斯混合模型的深度卷積生成對抗網絡結構如圖3所示,圖3(a)部分為生成網絡的輸入.將均勻噪聲復雜化,重構為高斯混合模型,生成網絡每次迭代生成圖像時,隨機選取一組高斯混合模型.通過增加生成網絡先前分配的能力,使模型能夠在訓練數據數量有限且具有多樣性時表現出更好的性能.圖3(b)為生成網絡.在生成網絡的卷積上使用全局平均池化來取代全連接層,并使用4層反卷積取代原生成網絡中的池化層;除了生成網絡的輸出層激活函數使用Tanh函數外,其余層激活函數均使用Relu函數且都使用批處理Batch Normalization,這將有助于訓練梯度實現更深層次網絡.輸入噪聲z映射通過生成網絡4層反卷積后,轉換為64*64像素的圖像.圖3(c)為判別網絡.在判別網絡的卷積上同樣使用全局平均池化來取代全連接層,并使用4層步幅卷積取代原判別網絡中的池化層;除了輸入層以外,其余層均使用批處理Batch Normalization,判別網絡所有層上均使用LeakyRelu激活函數.將生成網絡訓練完成的假樣本輸入已訓練學習過真實樣本信息的判別網絡中,判斷其輸入是真實樣本還是假樣本,并將結果反饋給生成網絡和判別網絡,從而不斷優化生成網絡和判別網絡的性能.

圖3 高斯混合模型的深度卷積生成對抗網絡(GMM-DCGANs)結構圖Fig.3 Gaussian mixture model based deep convolution generative adversarial networks(GMM-DCGANs)structure
在已有的生成對抗網絡用于圖像生成的研究中,對于生成圖像質量以及生成對抗網絡性能的評判,并沒有統一的標準,大多學者采用直觀對比來評判生成圖像質量的好壞[17],也有一些學者通過Inception score、Maximum Mean Discrepancy等評價指標來評判生成對抗網絡的性能[18].對于本文生成磁瓦缺陷圖像的研究,除了通過直觀對比不同生成對抗網絡生成圖像的質量外,我們還采用基于局部感受野的極限學習機(ELM-LRF)對5類磁瓦缺陷圖像進行分類來檢測生成圖像是否符合實驗要求.
基于局部感受野的極限學習機(ELM-LRF)是機器學習中一種分類速度快、效率高的分類算法,該分類算法最大的特點是將深度學習中單層卷積和池化網絡結構融入到極限學習機中,從而實現對輸入圖像的特征自提取,并通過ELM的輸出權重公式對輸入圖像進行分類[19].在ELM-LRF的網絡結構中,為了使輸入的圖像更加充分,采用個不同的輸入權重,從而得到個不同的特征圖[20].ELM-LRF網絡具體功能實現可分為以下3部分內容:
1)隨機生成初始權重Ainit.計算公式如公式(6)所示.
(6)
其中,其中Ainit是初始權重,K是特征圖個數,r2是局部感受野大小,Ainit中每一列αk都是Ainit的一組正交基.
在獲取初試權重后,采用奇異值分解(SVD)將初始權重Ainit正交化,可以得到其正交化后的結果A.第k個特征圖卷積節點(i,j)值ci,j,k的計算公式如公式(7)所示:

(7)
其中,d×d是輸入圖像的大小,(d-r+1)×(d-r+1)是特征圖的大小,αk∈Rr×r是αk逐列排成的第k個特征圖的輸入權重.
2)平方根池化.計算公式如公式(8)所示.

(8)
其中,e為池化大小,表示池化中心到邊的距離[21],池化圖大小與特征圖大小均為(d-r+1)×(d-r+1).第k個特征圖中的節點(i,j)和第k個池化圖中的組合節點(p,q)分別用ci,j,k和hp,q,k來表示,如果當(i,j)超出范圍,那么ci,j,k則等于0.
3)計算輸出權重矩陣.第1步,先計算各個輸入樣本對應的池化圖和特征圖;第2步,將池化圖中的每一個組合節點合并成一個行向量;第3步,將所有輸入樣本的行向量連接起來,從而得到組合層矩陣為H∈RN×K·(d-r+1)2.輸出權重β可以由正則化最小二乘法計算得到,其計算公式如公式(9)、公式(10)所示:
如果N≤K·(d-r+1)2
(9)
如果N>K·(d-r+1)2
(10)
其中,N為輸入樣本的個數,C為可調參數,T為輸入樣本對應的標簽.此外,ELM-LRF分類網絡的平衡參數設置為0.0001,特征圖個數設置為50,局部感受野大小設置為4×4.
本文實驗環境配置為:操作系統Windows 8.1 64位,處理器Intel Core i5-4200M @ 2.50GHz,內存(ARM)8GB,軟件MATLAB R2018a.

表1 磁瓦缺陷圖像數據集說明Table 1 Description of magnetic tile defect image data set
磁瓦缺陷圖像生成實驗采用的數據集來自中科院自動化所收集的磁瓦缺陷檢測數據集[5].數據集共1344張,包括有缺陷和無缺陷圖像共6種類型,數據集具體說明如表1所示.
實驗中,選用5類缺陷圖像(共391張)作為GMM-DCGANs網絡的訓練樣本,由于不同磁瓦的ROI不同,所以數據集中圖像的大小也不同,為此在訓練前,將數據集中圖像統一轉化成64×64大小,如圖4(a)所示.訓練中,將磁瓦缺陷原圖像輸入GMM-DCGANs網絡,經過訓練后,發現所生成的磁瓦缺陷圖像質量較差,未能得到符合要求的磁瓦缺陷圖像,如圖4(b)所示.考慮到在后續的磁瓦缺陷檢測及分類實驗研究中,需要將原磁瓦圖像轉換為二值圖像來進行進一步的實驗,因此,我們采用最大類間方差(Otsu)算法將磁瓦缺陷原圖像轉換為二值圖像,如圖4(c)所示,將該二值圖像作為GMM-DCGANs網絡的輸入,訓練得到生成的缺陷圖像如圖4(d)所示.可以看出,采用經過預處理后的磁瓦缺陷二值圖作為GMM-DCGANs網絡的輸入時,可以生成質量更好的圖像樣本,因此,我們將所有5種含缺陷的磁瓦原圖如圖5(a)所示,轉換為二值圖像后,如圖5(b)所示,再經過GMM-DCGANs網絡訓練,得到生成的缺陷圖像如圖5(c)所示.訓練中,設置網絡迭代次數1000次,學習速率為0.001.為了對比本文所提生成對抗網絡生成圖片的質量,采用GAN和DCGAN網絡分別對磁瓦缺陷圖像進行訓練,得到生成的磁瓦缺陷圖像如圖5(d)、圖5(e)所示.

圖4 磁瓦磨損缺陷原圖和二值圖生成實驗結果對比圖Fig.4 Comparison of the original and binary image generation results of the magnetic tile fray defect

圖5 5種磁瓦缺陷圖像生成實驗結果對比圖Fig.5 Comparison of five categoriemagnetic tile defect images generation experimentresults
通過生成磁瓦缺陷圖像對比實驗,可以看到在使用相同數據集訓練生成圖像時,GMM-DCGANs網絡生成的圖像存在的噪點雜質最少,且生成圖像的缺陷特征更接近原圖像二值特征.另外,GMM-DCGANs網絡由于對輸入噪聲做復雜化處理,使得生成的圖像可以將多個缺陷融合在一張圖像中,如圖6所示,進一步擴充了數據集中磁瓦缺陷類型.

圖6 GMM-DCGANs生成多個缺陷融合圖像Fig.6 GMM-DCGANs generate multiple defect fusion images
在檢測生成的磁瓦缺陷圖像是否與實際生產中磁瓦缺陷圖像相符時,我們采用ELM-LRF分類網絡對生成的缺陷圖像進行分類,共進行4組對比實驗,每組實驗重復30次,取分類準確率的平均值作為該組實驗的分類準確率.將分類準確率作為評判生成圖像質量好壞的標準,分類準確率計算公式如公式(11)所示:
準確率=正確分類樣本數/樣本總數
(11)
第1組,只選取原磁瓦缺陷數據集中的缺陷圖像樣本進行實驗,訓練集和測試集樣本數量設置如表2所示.

表2 第1組實驗訓練集和測試集樣本數量設置Table 2 Training and test sets sample number settings for the first experimental
第2組,選擇原磁瓦缺陷數據集中所有缺陷圖像樣本作為訓練集,選擇生成的磁瓦缺陷圖像作為測試集,訓練集和測試集樣本數量設置如表3所示.

表3 第2組實驗訓練集和測試集樣本數量設置Table 3 Training and test sets sample number settings for the second experimental
第3組,選擇生成的磁瓦缺陷圖像作為訓練集,選擇原磁瓦缺陷數據集中所有缺陷圖像樣本作為測試集,訓練集和測試集樣本數量設置如表4所示.

表4 第3組實驗訓練集和測試集樣本數量設置Table 4 Training and test sets sample number settings for the third experimental
第4組,按照1:1比例選擇原磁瓦缺陷數據集中所有缺陷圖像樣本(391張)和生成的磁瓦缺陷圖像樣本(391張),共782張.將選取的圖像樣本按缺陷類型隨機混合后,選擇各缺陷類型圖像樣本的前一半作為訓練集,后一半作為測試集進行分類實驗,訓練集和測試集樣本數量各為391張.
4組分類實驗的30次分類準確率對比結果,如圖7所示,每組實驗的平均分類準確率如表5所示.
通過ELM-LRF分類實驗結果可以看到,4組實驗中,第2組和第3組實驗的平均分類準確率較低,其中,第3組實驗的平均分類準確率最低,為86.83%,第4組實驗的平均分類準確率最高,為90.29%,兩者相差3.46個百分點.這是因為

圖7 ELM-LRF分類實驗準確率對比圖Fig.7 Comparison of the ELM-LRF classification experimentsaccuracy
雖然原圖像和生成圖像中大部分缺陷樣式是一致或相似的,但原圖像中含有個別缺陷樣式是生成圖像中所沒有的,而生成圖像中也存在一些新型缺陷和融合缺陷是原圖像中所沒有的,因此在分別單獨使用原圖像和生成圖像做訓練集和測試集時,訓練得到的分類模型對測試集中一些新缺陷樣式無法準確分類,造成了平均分類準確率較低.第4組實驗將原圖像和生成圖像混合后進行訓練,進一步豐富了訓練數據的缺陷樣式,使訓練得到的分類模型具有更高的泛化性能,因此第4組實驗的平均分類準確率較高.

表5 ELM-LRF分類實驗平均分類準確率Table 5 Average classification accuracy of the ELM-LRF classification experiments
另外由于第1組實驗僅包含原圖像且數據樣本大小與后3組不同,將第1組實驗作為后3組實驗的參考,可以看到后3組實驗的分類準確率與第1組實驗的分類準確率相近.分類實驗結果表明,生成的磁瓦缺陷圖像與原磁瓦缺陷圖像相符合,可以滿足后續磁瓦缺陷檢測及分類實驗的需求.
本文針對訓練磁瓦缺陷檢測及分類模型時,圖像樣本采集困難、樣本數據較少、缺陷樣本類型不足的問題,提出一種高斯混合模型的深度卷積生成對抗網絡(GMM-DCGANs)用于生成磁瓦缺陷圖像.利用高斯混合模型作為生成網絡的輸入噪聲,一方面可以提高生成網絡生成圖像的質量,另一方面也可以生成含有更多缺陷樣式的磁瓦圖像.通過4組磁瓦缺陷類型分類的對比實驗結果可以看出,本文所提GMM-DCGANs模型生成的磁瓦缺陷圖像可以用于擴充磁瓦缺陷圖像數據集,利用擴充的數據集訓練檢測及分類模型時,可以更好地提升模型的泛化性能.未來進一步的研究中將著眼于對生成圖像質量進行多重標準的評判.