崔雪紅,劉 云,王傳旭,張 巖,李 輝
(青島科技大學 信息科學技術學院,山東 青島 266061)
目前輪胎生產企業對輪胎缺陷的檢測過程一般常采用360°全景X光機首先對整條輪胎進行掃描成像,然后再根據成像圖片人工檢測缺陷并給定其缺陷類型。這一過程并沒有實現工業的全自動化,既費時又費力,而且存在工人疲勞或工作態度的問題給輪胎檢測及分類帶有很大的主觀性,從而會影響對輪胎缺陷產生原因的分析及對輪胎質量的判定,這將帶來潛在的經濟損失甚至生命安全。近年來,我國相關人員也提出了許多輪胎缺陷檢測算法[1-9],而這些系統只帶有檢測缺陷的功能,而沒有分類缺陷的功能,這就需要在后期的工作中人工再次對其確認并且進行歸類,沒有實現完全的自動化。現在許多從業者對被檢測出的輪胎缺陷分類方法也有一定的研究,如文獻[10,11]中的方法只能對胎側簾線缺陷進行識別分類,而不能分類其它缺陷。雖然文獻[11]中的算法能夠高效分類出各區域的缺陷,但是它的特征提取復雜,通常需要相關專業人員的參與。又因為很多不同類輪胎缺陷的特征具有較大的相似性,而相同類缺陷之間又存在較大的差異,這些復雜的特征對設計特征提取器和分類器設計都帶來了巨大的挑戰,通常需要較專業的知識或啟發式方法[12]。而且人工設計的分類器與人工提取的特征之間往往適應性也較差。總之,在傳統分類任務中,為了刻畫復雜的真實數據,監督和半監督的學習方法及精致的特征被選擇來捕捉有關的信息。
然而,一方面,為每個任務來刻畫特定區域的精致特征是昂貴的、耗時的并且要求專業的知識;另一方面,能夠很好提取圖像局部信息的wave小波、gabor小波及ICA濾波器[13-15]等,它們與人類視覺系統中簡單細胞的視覺刺激響應非常相似[16,17],具有良好的方向選擇和尺度選擇特性,對于圖像的邊緣敏感,然而它們的濾波器是人為預先定義的、固定的,其缺點不能適應各種缺陷圖像特征。與此相反卷積神經網絡[18,19],其權重(濾波器)是利用監督式的后向傳播自學習的,能夠適應缺陷圖像的特征。CNN具有更強的特征提取能力而且不要求人的參與。又鑒于近來深度網絡在基準數據集上已取得很多先進的結果,并解決了許多人工智能的困難問題。因此,本文為了探索高性能的輪胎缺陷分類算法在實際工業中的應用,提出一個由5通道卷積神經網絡(convolutional neural networks,CNN)組成的多對比度卷積神經網絡(multi-streams convolutional neural networks,MS-CNN),其中5個單CNN網分別在不同對比度圖像庫上訓練。單個CNN可以是任何經典的網絡結構,例如:Alexnet復現模型、LeNet、VGG、Googlenet等網絡模型。鑒于運行時間與分類準確率之間的考慮,本文選擇Alexnet復現模型作為本模型的單網。
本文的主要貢獻概括如下:①探索基于深度學習的圖像分類算法能否應用到具有多紋理、類內特征變化較大,而類間特征卻又存在較大相似性的輪胎缺陷圖像分類任務中。②本文利用數據擴充來緩解網絡的過擬合問題,進一步提高識別的準確率。③提出一個多對比度卷積神經網絡,并將其應用到輪胎缺陷的分類任務中,與其它先進方法相比獲得了最好的表現。
作為深度卷積神經網絡的里程碑,AlexNet復原模型是一個具有深遠意義的結構,即結構圖為圖1(a),其卷積層與最大池化層基本交替出現,每一層的輸入只來自于上一層的輸出,如圖1所示。這一結構已在文獻[24]中驗證,并在分類準確率上取得96.51%的好成績,它由輸入層、卷積層、池化層和全連接層組成的。是一個從輸入層Input輸入圖像,卷積層(Conv)卷積提取特征、最大池化層來降采樣(Max-poling)、全連接層逐層融合特征直到最后使用softmax函數輸出分類結果的過程。對于輸入層的輸入圖片,鑒于輪胎缺陷的尺度和網絡對輸入數據的要求,每個輸入圖像都被縮放成127×127的固定大小。其中5個卷積層(其卷積濾波器的大小分別為11×11,5×5,3×3,3×3和3×3,卷積步幅為4)與3個降采樣層(3×3的最大池化)基本成間隔出現,當前卷積層輸出的每個特征圖是由卷積核與前一層一個或幾個特征圖進行卷積組合的結果。以Layer1為例,卷積濾波器的大小是11×11,卷積步幅為4,本層共有96個卷積濾波器,本層的輸出則是96個30×30大小的特征圖。3個最大池化層,將不同位置的特征進行聚合。池化技術不僅可以降低特征的維數,改善結果(緩解過擬合),還可以保持平移不變性,提高特征的魯棒性,所以經過卷積池化后所提取的特征依然能夠對畸變的輸入樣本表達其本質的特征,以避免誤分類。網絡的最后3層是全連接層,分別簡稱為fc6、fc7和fc8,其中fc6和fc7是含有4096個神經元的隱層,而fc8層則為6類的softmax函數輸出。此網絡用到了Hinton的改進方法(在全連接層加入ReLU+Dropout),緩解了嚴重的梯度消失問題及網絡的過擬合問題并且大大縮短了學習周期。
訓練單路CNN的過程如圖圖1(b)所示:訓練前,首先預處理(P0-Pn,其中P0表示無預處理操作)現場采集的數據庫,然后經過不同的扭曲操作(D0-Dn,其中D0表示無扭曲操作)分別在指定范圍內隨機扭曲所有的原數據庫和預處理數據庫3次來擴充各自的數據庫作為各單路網絡的輸入。其中扭曲操作(D)是在指定的范圍內隨機的扭曲,例如在0.9-1.1范圍內圖像縮放,在±10%范圍內進行平移以及在±5°的范圍內進行旋轉。最后,通過雙線性插值把預處理圖像和其扭曲圖像統一縮放到127×127的固定大小。使用擴充數據訓練具有大量參數的CNN以此來解決網絡的過擬合問題,進一步提高識別率。本文采用隨機梯度下降法來訓練網絡。

圖1 多對比度卷積神經網絡結構
構造多對比度卷積神經網絡的過程是對原始數據庫進行不同的預處理操作P;然后對所有的原數據庫和預處理數據庫在指定范圍內隨機扭曲圖像3次作為訓練網的輸入來訓練網絡;最后平均各路CNN的輸出作為MS-CNN的最后類概率輸出。本文通過組合5個單路CNN來構造MS-CNN,其每類的概率輸出是平均化5路CNN輸出概率的結果。在訓練前,本文網絡5路CNN的權重參數是在[-0.05,0.05]范圍內通過均勻隨機分布取值。原始數據和它的扭曲數據作為1個單路CNN的輸入來訓練其網絡,另4種不同方式的預處理(具體實現在2.2節)圖像和它們的扭曲(具體實現在2.3節)圖像分別作為另4個單路CNN的輸入來訓練其各自的網絡。最后的結果是這5路CNN概率輸出的均值。其中一個關鍵問題是是否需要優化組合多個模型的輸出?然而在文獻[20],已實驗驗證了僅通過簡單的平均化多路DNN輸出概率的表現要高于多路DNN線性組合的表現。又如果P個不同模型的誤差具有零均值和不相關性,那么平均誤差也只通過平均化這P個模型的誤差就可以降低[21]。而實際上,在相似數據上訓練的多個模型具有非常高的相關性。為了克服這種問題,本文模型MS-CNN是組合5個不同輸入的CNN,然后采取簡單的平均化各路CNN輸出作為MS-CNN的類概率輸出。但是,在本文配置環境下,無論訓練還是測試階段,5路聯合網所需的時間都是單個網絡的5倍,測試時每秒可以處理9張圖片。然而在實際工業應用中,對實時性具有較高的要求。為了提高實時性,可以在5個不同的GPU上并行運行這5路不同輸入的網絡來實現和單網一樣的速度,即每秒可以處理45張圖片,但是增加了硬件成本。
輪胎是由尼龍絲、簾布及橡膠等不同材料相互交疊而制成的多種結構,在生產過程中易受設備及工藝水平等因素的影響而出現多種缺陷,如:胎冠異物、胎側異物、胎側氣泡、胎冠連線開和胎側連線開根等。目前對子午線輪胎進行無損缺陷檢測通常先用全景X光進行透射成像。但是由于輪胎內部結構復雜并且各區域又由多種不同的材質組成,這使得X射線透過輪胎時,不同材質的區域對X射線的吸收率不同,致使傳感器上采集到的輻射量就不同,從而會形成灰度等級不同的輪胎X射線圖像[15]。一段輪胎X射線圖像結構如圖2所示(圖像由軟控股份有限公司提供),自左至右的分割區域依次為:胎圈、胎側、胎冠、胎側、胎圈。
本文原數據集由1582張屬于5類缺陷圖像和1類正常圖像組成,即胎冠雜質、胎側雜質、胎側氣泡、胎冠連線開和胎側連線5類缺陷和1類胎側正常圖像。這些圖像都來源于中國某一著名輪胎生產企業生產線上的缺陷檢測系統的檢測結果。并且保持數據集中每種缺陷樣本的比例與生產線上缺陷出現的比例一致,每幅圖像由人手工標注,并對其組成輪胎缺陷庫。然后依據文獻[22]的比例把缺陷庫隨機劃分訓練集、驗證集、測試集(即按每類缺陷的20%隨機選取作為驗證集,再隨機選取20%作為測試集,把剩余的圖像作為網絡的訓練集)數據樣例如圖3所示,從上到下依次是胎側雜質、胎冠雜質、胎冠連線開、胎側氣泡和胎側連5種缺陷和1類正常胎側圖像。

圖3 原數據集樣例
本文使用對比度歸一化圖像預處理操作來提高圖像之間的對比度。下面簡要介紹4種標準的對比度歸一化方法。
直方圖均衡化:是通過變換原始圖像的像素值使其擴大像素灰度值的動態分布范圍以提高圖像整體對比度的效果。即是把原始圖像的直方圖變換為均勻分布的形式。該算法對像素值分布比較均衡的圖像來說,算法的效果較好,因為它是對整幅圖像像素使用相同的直方圖變換方法。在MATLAB R2009b,Histeq函數可以實現該功能,該算法作用于整幅圖像,可以對整幅圖像提高其全局對比度。
自適應直方圖均衡化:它可以通過計算圖像的局部直方圖,重新分布亮度來改變圖像對比度。該算法更適合改進圖像的局部對比度來獲得更多的圖像細節。在MATLAB R2009b軟件中,Adapthisteq函數提供該功能,該算法作用于圖像塊而不是整幅圖像。
圖像灰度變換:將原灰度圖像中的亮度值映射到輸出圖像中的新值,增強輸出圖像的對比度。在MATLAB R2009b圖像處理工具箱中,Imadjust函數可以實現該功能。
Sermanet對比度方法:文獻[23]提出的圖像對比度增強方法,是用不同的高斯濾波器濾波輸入圖像來增強圖像邊沿。本文使用5×5的濾波器。
以上4種對比度歸一化操作均在灰度空間上執行,圖4顯示出輪胎缺陷圖像進行各種對比度歸一化前后的對比。

圖4 輪胎缺陷圖像各種對比度歸一化前后對比
在輪胎的工業生產中,由于諸多生產工藝和輪胎結構復雜的因素,使缺陷產生具有不確定性,產生的缺陷大小、長寬比及形狀各異,其缺陷大小分布在50×50~200×500像素之間。為了滿足卷積神經網絡對輸入圖像的要求,需統一缺陷圖像的大小,并且要使統一尺寸后的圖像能較好的保留其圖像內部的缺陷特征,同時也要考慮計算成本。在本文中,首先通過雙線性插值法將檢測分割出來的每幅缺陷樣本縮放到127×127像素大小,即:給定一個矩形圖像,首先把圖像的短邊長度縮放成127,然后從結果圖像的中心剪輯出127×127圖像塊,最后用這些圖像組成輪胎缺陷庫。在基于深度學習的任務中,足夠數量的訓練樣本能夠避免嚴重的過擬合問題。不同的應用下,可以使用圖像幾何變換方法來增加訓練模型的輸入數據。在本文中,我們使用圖像扭曲的方法來擴充訓練集。其中,扭曲是在指定范圍內隨機的平移、縮放、旋轉并把其應用到原圖像及每種預處理圖像上,例如:圖像大小以0.9-1.1的比例隨機縮放,±10%的圖像平移和±5°的旋轉。
本文算法的仿真環境為3.60 GHz 4-core CPUs和16 GB RAM電腦配置及Ubuntu 16.04,caffe和python 2.7軟件平臺。訓練集包括原始圖像、預處理圖像及分別聯合它們的諸如旋轉、平移、縮放的扭曲圖像來訓練各種CNN;而驗證集僅包括沒有變形的原圖像及每種預處理圖像。當驗證誤差接近于零或者達到指定次數的迭代時模型訓練結束。本文網絡的5路CNN權重參數是在[-0.05,0.05]范圍內通過均勻隨機分布取值,使用ReLU作為每個神經元的激活函數。
單路CNN共計12層,表1給出網絡的各層參數。使用127*127固定大小的圖像作為本章網絡的輸入,通過反復卷積和池化激活操作,然后結果納入全連接層將數據流分成6類;考慮到輪胎缺陷庫是小規模數據集,為了防止錯誤率下降過快,可以將初始學習速率LR值設為0.001。網絡訓練時的各參數使用文獻[22]網絡訓練時所設置的參數,在此仍使用CPU求解模型(slover_mode)來求解。

表1 網絡各層參數
圖5中,圖5(a)是網絡第一個卷積層的已訓練好的96個濾波器,圖5(b)是第二個卷積層的256個濾波器,圖5(c)和圖5(d)分別是其濾波器的各自濾波特征。在訓練前,這些濾波器被隨機的初始化,然后學習輸入圖像的點、邊及形狀的響應。從圖5可以看出,第一個卷積層的卷積核權重是非常平滑的,這暗示著具有很好的收斂性;第二個卷積層的卷積核權重雖然是不可解釋的,但是它們的濾波圖像仍然是平滑的、能保持良好的形狀并且不含有噪聲。

圖5 已學習的濾波器和其相應的濾波特征
在Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz電腦上,訓練5路MS-CNN用時41小時。測試時,每秒處理9張圖片。本文多對比度卷積神經網絡共包含5個單網,每個單網的輸入分別為原圖像聯合它的扭曲圖像及4個不同的對比度圖像聯合各自的扭曲圖像。表2顯示出每個單網在不同歸一化圖像上的分類準確率以及組合網(MS-CNN)的分類準確率。從表2可以看出,5路單網組合的多對比度卷積神經網絡(MS-CNN)獲得了高達98.43%的分類準確率,相對于任何單個CNN的識別率都取得了較大幅度的提高。

表2 MS-CNN算法和它的5個單CNN的測試識別率
為了探索用多少個單路CNN構造的MS-CNN能獲得的識別率最高,本文給出了1路、3路、5路MS-CNN在驗證集上的性能對比(如圖6所示)。從圖6可以看出5路的MS-CNN識別率最高,達到99.12;其次是3路MS-CNN,識別率是98.87;最低的是1路MS-CNN,其識別率為98.33。無論在實驗上還是在理論上都表明用更多的單路CNN來構造的MS-CNN會對分類效果有所提高。但是每增加1路都會增加計算圖像預處理操作和1路CNN的計算成本或硬件成本,故可以根據實際應用的要求來確定MS-CNN的路數。

圖6 不同個數CNN的組合算法識別率對比
為了驗證本文算法的性能,在相同數據集下,采用目前最為廣泛使用的算法(如:PCA+BP神經網絡、空間金字塔匹配算法(KSPM)、具有空間位置關系的稀疏編碼分類算法(ScSPM、LLC)以及LeNet網絡)與本文算法的性能作比較并給予分析。表3顯示了各算法的實驗結果,其中KSPM-400-2和KSPM-200-3算法中的400和200分別代表字典的大小,2與3表示金字塔層數。
從表3可以看出,本文算法的驗證分類正確率都明顯高于其它算法的分類準確率,測試識別率也都略高于其它算法的分類正確率。導致測試識別率低于驗證識別率的因素較多,例如,缺少足夠的、全面的訓練樣本或參數設置沒有最優化等因素,又因CNN本身就具有大量的參數,所以訓練出泛化能力強的卷積神經網絡就需要大量的訓練樣本。近年來,ScSPM09和LLC10是經典的成功算法,在自然圖像分類方面均取得了較好的成績。但是KSPM、ScSPM09和LLC10等傳統的機器學習算法都需要相關工程人員的參與或以專業知識為指導來設計特征提取器和分類器,并且設計的好壞直接影響算法分類的效果。在本文中,這3種算法均采用sift特征提取器提取特征,前一個算法使用的是線性SVM分類器,而后兩個算法則使用的是非線性SVM分類器。
該文不僅給出與其它6種算法測試識別率的比較,還給出每類缺陷的識別情況,每類缺陷的識別情況見表4。

表4 每類測試樣本的分類結果
由表4數據可知:
(1)輪胎氣泡缺陷的識別率最低,其次是正常胎側圖像,這兩類圖像很容易被互為誤判。正如文獻[22]所分析的:由于輪胎氣泡缺陷圖像具有弱邊緣的特點,這使得與正常胎側圖像的特征極為相似,這是導致互為誤判的主要因素。
(2)除氣泡缺陷識別率較低外,其余所有類型的缺陷識別率都比較高。這主要歸功于深度CNN多層性結構,能夠對輸入的缺陷圖像進行逐層的分布式抽象表示,然后網絡的全連接層再把分布式特征表示映射到樣本標記空間以此達到缺陷圖像的分類,其過程仿生能力強。而且采取多路網絡策略本身具有更強的分類識別能力。
本文提出的多對比度卷積神經網絡的輪胎缺陷X光圖像分類算法,在高校軟控提供輪胎缺陷數據庫的實驗中,本文方法較表3列出的前6種方法在識別率上均有明顯的提高。實驗結果表明,組合單網的個數越多識別率就越高,但其計算成本也隨之增大。綜合正確率和計算成本及硬件成本來看,本文方法在多紋理輪胎缺陷圖像識別上有所提高,驗證了將深度學習應用到實際工業中是切實可行有效的。
[1]ZHANG Chuanhai.Texture_invariant detection method for trie crack[D].Jinan:Shandong University,2013:33-37(in Chinese).[張傳海.紋理無關的裂紋缺陷檢測算法[D].濟南:山東大學,2013:33-37.]
[2]ZHANG Ling.The research and implementation of tire defection system with image scaling function[D].Jinan:Shandong University,2015:25-30(in Chinese).[章玲.基于圖像放縮算法的輪胎缺陷檢測系統研究與實現[D].濟南:山東大學,2015:25-30.]
[3]Liu Q,Wang G,Guo Q.Tire defect detection based on radon transform[J].Journal of Computational Information Systems,2015,11(21):7841-7848.
[4]XIANG Yuanyuan.Defect detection algorithm based on image dictionary representation[D].Jinan:Shandong University of Finance and Economics,2015:26-32(in Chinese).[向媛媛.基于圖像字典表示的缺陷檢測算法[D].濟南:山東財經大學,2015:26-32.]
[5]Xiang Y,Zhang C,Guo Q.A dictionary-based method for tire defect detection[C]//IEEE International Conference on Information and Automation.IEEE,2014:519-523.
[6]Zhang Y,Lefebvre D,Li Q.Automatic detection of defects in tire radiographic images[J].IEEE Transactions on Automation Science & Engineering,2015(99):1-9.
[7]Zhang Y,Li T,Li Q L.Detection of foreign bodies and bubble defects in tire radiography images based on total variation and edge detection[J].Chinese Physics Letters,2013,137(30):084205.
[8]Zhang Y,Li T,Li Q.Defect detection for tire laser shearography image using curvelet transform based edge detector[J].Optics & Laser Technology,2013,47(4):64-71.
[9]Guo Q,Zhang C,Liu H,et al.Defect detection in tire X-ray images using weighted texture dissimilarity[J].Journal of Sensors,2016(1):1-12.
[10]SHAO Minghong.Treatment and algorithm research of tires defects detection[D].Jinan:Shandong University,2012:31-36(in Chinese).[邵明紅.輪胎缺陷檢測的處理和算法研究[D].濟南:山東大學,2012:31-36.]
[11]ZHANG Yan.Research on nondestructive tire defect detection using computer vision methods[D].Qingdao:Qingdao University of Science and Technology,2014:45-47,75-90(in Chinese).[張巖.基于計算機視覺的輪胎缺陷無損檢測關鍵問題研究[D].青島:青島科技大學,2014:45-47,75-90.]
[12]Anand R S A,Kumar P.Flaw detection in radiographic weldment images using morphological watershed segmentation technique[J].Ndt & E International,2009,42(1):2-8.
[13]Tsai Z D,Perng M H.Defect detection in periodic patterns using a multi-band-pass filter[J].Machine Vision and App-lications,2013,24(3):551-565.
[14]Hoyer P O,Hyv?rinen A.Independent component analysis applied to feature extraction from colour and stereo images[J].Network Computation in Neural Systems,2000,11(3):191.
[15]ZHANG Bin,LIN Sen,GAO Shuzheng.Tire impurity detection technology for X-ray image based on image processing[J].China Rubber/Plastics Technology and Equipment,2016(9):50-54(in Chinese).[張斌,林森,高書征.基于圖像處理的輪胎X光圖像雜質檢測技術[J].橡塑技術與裝備,2016(9):50-54.]
[16]Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE Xplore,2005:994-1000.
[17]Mutch J,Lowe D G.Object class recognition and localization using sparse features with limited receptive fields[J].International Journal of Computer Vision,2008,80(1):45-57.
[18]Guo Y,Liu Y,Oerlemans A,et al.Deep learning for visual understanding:A review[J].Neurocomputing,2015,187(C):27-48.
[19]Girshick R,Donahue J,Darrell T,et al.Rich feature hie-rarchies for accurate object detection and semantic segmentation[C]//27th IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:580-587.
[20]Karpathy A,Toderici G,Shetty S,et al.Large-scale video classification with convolutional neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:1725-1732.
[21]Bishop CM.Pattern recognition and machine learning[J].Journal of Electronic Imaging,2006,16(4):140-155.
[22]CUI Xuehong,LIU Yun,WANG Chuanxu,et al.Defect classification for tire X-ray images using convolutional neural network[J].Electronic Measurement Technology,2017,40(5):168-173(in Chinese).[崔雪紅,劉云,王傳旭,等.基于卷積神經網絡的輪胎缺陷X光圖像分類[J].電子測量技術,2017,40(5):168-173.]
[23]Sermanet P,Lecun Y.Traffic sign recognition with multi-scale convolutional networks[C]//International Joint Conference on Neural Networks.IEEE,2011:2809-2813.
[24]Shi J,Zhou S,Liu X,et al.Stacked deep polynomial network based represetation learning for tumar classification with small ultrasound image dataset[J].Neurocomputing,2016,194(C):87-94.