董長青,劉永賢,趙 甲,胡 葳,趙 濤
(1.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072;2.中國汽車技術(shù)研究中心有限公司,天津 300300;3.工業(yè)和信息化部裝備工業(yè)發(fā)展中心,北京 100846;4.天津卡達克數(shù)據(jù)有限公司,天津 300300)
近年來,我國汽車制造業(yè)蓬勃發(fā)展,2017年中國汽車的產(chǎn)銷量均超過2800萬。然而,根據(jù)國家質(zhì)檢總局公布數(shù)據(jù),截至2017年12月28日,國內(nèi)車輛生產(chǎn)企業(yè)總計執(zhí)行了251次汽車召回行為,涉及到的車輛達2004.8萬輛(國內(nèi)生產(chǎn)汽車占91%),增幅高達77%。汽車行業(yè)所存在的質(zhì)量問題,不容小覷。在實際調(diào)研過程中,發(fā)現(xiàn)因為車輛外觀問題引起的糾紛層出不窮。
針對企業(yè)這一痛點,本文著重圍繞車輛外觀質(zhì)量檢測方案進行研究,將深度學(xué)習(xí)技術(shù)應(yīng)用于車輛外觀質(zhì)量檢測過程中,通過神經(jīng)網(wǎng)絡(luò)識別車輛制造過程中產(chǎn)出的表面劃痕、凹陷等外觀問題。本文旨在幫助企業(yè)解決實際生產(chǎn)中的迫切問題,同時探索前沿技術(shù)在汽車實際生產(chǎn)中的應(yīng)用,提升汽車行業(yè)外觀質(zhì)量檢測自動化、智能化水平。
隨著科技發(fā)展,近年來用于車輛外觀檢測的方式越來越多,最常應(yīng)用的有模板匹配[1,2]、支持向量機[3]以及機器視覺[4]等。然而因為數(shù)據(jù)采集的多元化和計算程序的繁雜性致使大多數(shù)檢測方法均沒有得到理想的檢測效果。當(dāng)前逐漸興起的深度學(xué)習(xí)方式,本質(zhì)上為更大范圍的多層次人工神經(jīng)網(wǎng)絡(luò)模式,來逼近某個函數(shù)或展現(xiàn)某種邏輯策略,表現(xiàn)出強大的深層抽象與整體優(yōu)化計算的效果。Hinton提議對BP(Back Propagation)算法[5]進行完善,并實施了超過七層的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,至此深度學(xué)習(xí)逐漸興起,同時對認知智能的探究也朝著縱深領(lǐng)域發(fā)展起來。2015年,郭聯(lián)金等人[6]提出利用人工神經(jīng)網(wǎng)絡(luò)的分類器,以實現(xiàn)對鋼板表面缺陷進行實時有效的分類辨識。這種方式在辨識準確率、訓(xùn)練速度、追加樣本等領(lǐng)域的整體性能與常規(guī)的檢測方式相比顯著升高;2017年,崔熾標[7]等研究人員研究提出基于神經(jīng)網(wǎng)絡(luò)的塑件劃痕檢測方式,由此極大程度上提升了劃痕檢測工作的可操作性,并且為神經(jīng)網(wǎng)絡(luò)應(yīng)用在車身劃痕檢測領(lǐng)域奠定了堅實的理論基礎(chǔ)。
深度學(xué)習(xí)(Deep Learning)是由人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)發(fā)展而來的,其模型通常由多層的非線性運算單元組合而成。以較低層的輸出作為更高一層的輸入,以此結(jié)構(gòu)來對海量訓(xùn)練數(shù)據(jù)實施自動化的分析并得到相關(guān)特點的抽象表達。與淺層網(wǎng)絡(luò)相比較,包含多隱藏層的網(wǎng)絡(luò)模型可以更完整的挖掘出數(shù)據(jù)特征。近幾年,計算機硬件的發(fā)展日新月異,深度學(xué)習(xí)模型實現(xiàn)突飛猛進的發(fā)展[8]。
卷積神經(jīng)網(wǎng)絡(luò)相比于常見的多層感知機理模型,架構(gòu)更豐富,網(wǎng)絡(luò)層數(shù)也更多。卷積網(wǎng)絡(luò)具體包含卷積層、激活層、池化層以及全連接層等。
其中,卷積層處于該網(wǎng)絡(luò)的中心區(qū)域,發(fā)揮著提高網(wǎng)絡(luò)非線性化水平的作用。具體的構(gòu)成如圖1所示,將圖像(矩陣)和濾波矩陣(一組通過訓(xùn)練樣本獲得的權(quán)重矩陣)進行卷積(各個元素依次相乘,然后求和)處理的行為叫做卷積操作。如圖1展示的為卷積層在具體運用中的流程圖,首先lm-1層包含4個通道特征,作為卷積核,負責(zé)抓取特征,卷積開始后卷積核會在lm-1層上做卷積,并輸出一個特征平面,輸入到lm層。

圖1 卷積層計算
激活層具有非線性映射的作用,由于卷積核相關(guān)的參數(shù)一般經(jīng)過樣本訓(xùn)練得到,所以會產(chǎn)生低于零的值,該情況和模擬人腦思維過程中神經(jīng)元的興奮性不一樣,故而借助構(gòu)建激活函數(shù)的形式實施模擬。
卷積神經(jīng)網(wǎng)絡(luò)中常見的激活函數(shù)有Sigmoid,tanh,ReLU以及Leky ReLU等ReLU函數(shù)的其他變種。

以上各公式為運用最廣的激活函數(shù),在神經(jīng)網(wǎng)絡(luò)興起之初,一般運用Sigmoid當(dāng)做激活函數(shù),然而其不足之處在于輸入的數(shù)值過大、過小都會致使梯度消失,Sigmoid的輸出均值并不是零,并且進行指數(shù)計算需要較長的時間。對于tanh函數(shù),即便其均值保持為0,也面臨著與Sigmoid同樣的問題。而ReLU激活函數(shù)表現(xiàn)出下降迅速,計算簡便的優(yōu)勢,而這樣將會出現(xiàn)激活函數(shù)消失的問題。而Leaky ReLU、P ReLU等函數(shù)有效的避免了上述問題。
池化層的作用為縮小特征圖并確定強激活點。假如第1層為該層的輸出特征圖,且第l-1層是該層的輸入特征圖。那么對池化層計算方法為:

其中,down(·)為池化函數(shù)。
池化函數(shù)通常情況用來描述特征圖的部分池化,通常細化成均值池化與極大值池化兩類。前者一般將n×n像素塊內(nèi)全部的像素進行加和,然后計算均值,用作下一層相應(yīng)的激活值;后者一般把n×n像素塊內(nèi)像素最高的值當(dāng)做下一層相應(yīng)的激活值。
此外還擁有被叫做Avg Pooling的全局平均池化層。基于全連接層參數(shù)數(shù)量非常大且易于過擬合,然而Avg Pooling為針對最后的特征圖實施平均池化,也就是說每個特征圖都對應(yīng)一個特征輸出,這個輸出代表相關(guān)類別的特征。Avg Pooling不但能夠最大程度上降低網(wǎng)絡(luò)參數(shù),并且能夠計算空間信息的總和,所以表現(xiàn)出較高的穩(wěn)定性。此外,存在一類獨特的池化層是全局平均池化,主要用來替代全連接層,實施特征映射,同時獲得比FC更佳的檢測精度和更少的參數(shù)。
全連接層是卷積層的最后輸出,全連接層是由BP神經(jīng)網(wǎng)絡(luò)組成的分類器構(gòu)成,相當(dāng)于把前期卷積得到的特征圖轉(zhuǎn)變成一維特征向量。假如將卷積層、池化層以及激活函數(shù)等的處理解釋為把初始值映射至隱藏的特征空間,如此全連接層就是把學(xué)到的特征代表映射至樣本標記空間。
全連接層之間的計算公式如下:

在以上表達式中,f是激活函數(shù),Siin是輸入向量的第i個特征值,Sjout是輸出向量的第j個特征值,wij是輸入節(jié)點i與輸出節(jié)點j間的權(quán)值,m、n分別代表輸入與輸出向量的長度。
借鑒以上的神經(jīng)網(wǎng)絡(luò)研究成果,文中把神經(jīng)網(wǎng)絡(luò)運用在車輛生產(chǎn)環(huán)節(jié)的外觀檢測中。于傳統(tǒng)的檢測方式而言,車身劃痕的檢測一般是由操作人員依據(jù)經(jīng)驗和標準通過人為設(shè)定一系列的判定方法,而神經(jīng)網(wǎng)絡(luò)也可以較好地得到外觀問題圖像的深層特點,同時具有擬合一些非線性特征的能力。因此應(yīng)用深度神經(jīng)網(wǎng)絡(luò)建立針對車身外觀問題的檢測模型,同時將模型應(yīng)用于汽車生產(chǎn)環(huán)節(jié),有利于降低人工消耗,提升檢測的精準度,此外將此模型內(nèi)嵌入生產(chǎn)檢測系統(tǒng)中,增強汽車制造過程外觀檢測方法的適用性和實用性。

圖2 實驗環(huán)境設(shè)計圖
由于本文算法應(yīng)用場景的特殊性,研究中要求問題圖像的數(shù)量達到數(shù)萬張以上,而在汽車實際生產(chǎn)中外觀問題發(fā)生的次數(shù)并沒有這么高。為了保證研究成果的通用性和訓(xùn)練樣本的多樣性,硬件平臺設(shè)計的合理性至關(guān)重要。
通過對汽車制造過程中各個生產(chǎn)環(huán)節(jié)的研究,依據(jù)實際的生產(chǎn)場景特點來抽離實驗場景構(gòu)建所需核心要素,包括燈光布置、生產(chǎn)節(jié)拍、物件位置等。針對性布置實驗環(huán)境,使其可以同時滿足各個具體工位上對不同拍攝角度位置的需求。其次確定實驗所需硬件,對其核心部件的選型進行分析,對比不同工業(yè)攝像頭型號的優(yōu)劣,研究其布局,選擇適合的光電開關(guān)等。
硬件主要包括深度學(xué)習(xí)服務(wù)器、工業(yè)攝像頭、機器視覺光源、RFID讀寫器等設(shè)備,其中深度學(xué)習(xí)服務(wù)器和工業(yè)攝像頭作為研究過程中的核心硬件,重點對典型硬件進行選型分析:
1)深度學(xué)習(xí)服務(wù)器,完成對樣本圖片的存儲、處理、計算等工作。由于深度網(wǎng)絡(luò)訓(xùn)練過程對樣本圖片數(shù)量的要求很大,為了滿足計算要求,本文中選擇了容天EVTOP AIX2950深度學(xué)習(xí)服務(wù)器,裝有Intel i9 7960X處理器16核心32線程、4TB 7200轉(zhuǎn)企業(yè)級SATA機械硬盤、兩張NVIDIA Geforce Titan XP/1080T,性能滿足研究過程中對處理器的要求;
2)工業(yè)攝像頭,為了滿足工業(yè)現(xiàn)場采集圖像穩(wěn)定高效的要求,與一般的攝像頭對比,這種攝像頭在分辨率、幀率以及對光線的要求等方面表現(xiàn)均需十分突出,工業(yè)攝像頭中最重要的部分是CCD感光芯片。從本質(zhì)上來說,CCD攝像頭是一種半導(dǎo)體的成像器件。CCD攝像頭具有靈敏度高、抗強光性、畸變小、壽命長、抗震動等其他種類的攝像頭所不具備的優(yōu)點,這些特點使得CCD攝像頭適用于工業(yè)領(lǐng)域。CCD攝像頭是整個視覺檢測系統(tǒng)最重要的部件,本文中采用了MV-GE1400C 1400萬像素工業(yè)攝像頭。
如圖3所示為針對車門局部劃痕檢測的模擬實驗環(huán)境。

圖3 模擬實驗環(huán)境
由于汽車自身具備比較繁復(fù)的背景與紋理特征,同時在拍攝的過程中還會受到光照等方面的因素的影響,這樣就會導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型在對圖像中車輛外觀問題特征的提取精度受到制約,因此在把圖像輸入神經(jīng)網(wǎng)絡(luò)訓(xùn)練與檢測前,應(yīng)當(dāng)對圖片實施預(yù)處理;針對原始圖像,預(yù)處理操作如下:第一,對它實施灰度映射操作,調(diào)節(jié)劃痕與復(fù)雜背景彼此的對比度;第二,實施噪聲濾除操作,防止工業(yè)攝像頭在拍攝的過程中受到影響;第三,實施小波分解,以分離背景信息分量與問題區(qū)域信息分量;第四,二值化,以分離背景區(qū)域與問題區(qū)域。流程圖如圖4所示。

圖4 圖像預(yù)處理流程
經(jīng)過預(yù)處理的圖像,進行圖形標記,包括問題位置、類型等信息,制作成訓(xùn)練集,由于本文檢測目標的復(fù)雜性,對訓(xùn)練樣本的數(shù)量也有更高的要求。在本文中,共采集并標記完成訓(xùn)練集3個,每個訓(xùn)練集含圖像10000張。在標記過程中,對外觀問題按照“劃痕”、“凹陷”、“缺失”、“破損”等四類標簽進行分類。不同問題在標記過程中對應(yīng)不同標簽。
本文以TensorFlow為網(wǎng)絡(luò)模型框架,設(shè)計多層神經(jīng)網(wǎng)絡(luò)。在本文中,通過對R-FCN模型的改良,建立雙通道卷積神經(jīng)網(wǎng)絡(luò),最大的優(yōu)勢在于該網(wǎng)絡(luò)模型可對多種目標同時進行識別定位。所以,此處首先介紹R-FCN網(wǎng)絡(luò)。R-FCN模型為代季峰等人[9]對Faster R-CNN進行改良而獲得的一類網(wǎng)絡(luò),兩者最終獲得結(jié)果的精準性相當(dāng),但R-FCN的運行效率遠遠超出Faster R-CNN。R-FCN網(wǎng)絡(luò)嚴格來說屬于全卷積神經(jīng)網(wǎng)絡(luò)的范疇,不但具備較快的運行速度,而且精準性較高,同時網(wǎng)絡(luò)不會對輸入圖像的尺寸存在過多的約束。R-FCN的網(wǎng)絡(luò)構(gòu)成如圖5所示,base Net是共同的特點提取模塊,這里既可用VGG、也可用Res Net,也可使用其他網(wǎng)絡(luò)。convs代表多個卷積層。3×3conv代表卷積核大小是3的卷積層。P代表借助RPN獲得的前景框數(shù)目。Avg Pooling為全局平均池化,就像是目前一層的特征圖維數(shù)是8×M×N,也就是存在8個M×N大小的特征圖,通過Avg Pooling計算之后,獲得8維向量。圖5所顯示的bbox為事前測得的P個框的位置,8代表前景與背景實施回歸獲得的位置框。Cls是P個框的類別,21內(nèi)包括20個前景,1個背景。借助R-FCN模型能夠在短時間內(nèi)獲得圖像中問題的位置以及種類。如圖為網(wǎng)絡(luò)模型框架。

圖5 網(wǎng)絡(luò)結(jié)構(gòu)圖
綜上所述,最終選擇R-FCN網(wǎng)絡(luò)作為本文的檢測網(wǎng)絡(luò)模型。運用google公司在Image Net 2012數(shù)據(jù)集中訓(xùn)練106次獲得的模型inception-resnetV2網(wǎng)絡(luò)恢復(fù)默認值,輸入圖像歸一化為299×299,訓(xùn)練過程中運用初始化參數(shù),batch_size是8,迭代31070次之后,網(wǎng)絡(luò)收斂。
訓(xùn)練損失曲線如圖6所示,能夠看出其訓(xùn)練損失函數(shù)慢慢下降,同時達到穩(wěn)定狀態(tài),所以選擇最后一次存儲的模型當(dāng)作最終模型。

圖6 訓(xùn)練損失圖
完成訓(xùn)練后,我們使用訓(xùn)練集中20%的數(shù)據(jù)作為測試集對網(wǎng)絡(luò)模型進行測試,最終網(wǎng)絡(luò)在測試中的檢測準確率96%。本文使用平均精確率均值MAP做為評價指標。在對三個測試集共2000張圖片進行測試后,獲得的識別結(jié)果中“劃痕”的MAP為0.961,“凹陷”的MAP為0.959,“缺失”的MAP為0.965,“破損”的MAP為0.957。網(wǎng)絡(luò)的檢測效果良好,對外觀問題的識別和分類都達到了生產(chǎn)要求。圖7為檢測效果圖。

圖7 檢測效果圖
與人工檢測的傳統(tǒng)方法相比,視覺檢測在檢測過程的穩(wěn)定性、檢測結(jié)果的準確性以及經(jīng)濟效益等方面具有明顯的優(yōu)勢。視覺檢測技術(shù)的應(yīng)用將極大地提高車輛制造過程中外觀檢測工作的操作質(zhì)量和效率,降低勞動強度。
本文將基于機器視覺技術(shù)的在線檢測方式應(yīng)用在復(fù)雜的汽車生產(chǎn)制造環(huán)節(jié)中。通過梳理現(xiàn)有汽車制造過程中的相關(guān)業(yè)務(wù),總結(jié)不同制造環(huán)節(jié)對檢測部位、拍攝角度、檢測問題等的不同要求。針對這些不同的要求,通過搭建通用性實驗平臺的方式,使算法滿足不同生產(chǎn)環(huán)節(jié)的不同檢測需求,提高檢測算法的通用性和普適性。
本文通過應(yīng)用TensorFlow深度學(xué)習(xí)框架和R-FCN網(wǎng)絡(luò)模型,區(qū)別于傳統(tǒng)模式識別算法,提高了檢測系統(tǒng)在實際生產(chǎn)中的魯棒性,面對不同生產(chǎn)環(huán)境,不同在產(chǎn)車輛,系統(tǒng)都具有較好的適應(yīng)性。該框架特有的輕量化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計會加快計算機的處理速度,使系統(tǒng)更好地配合生產(chǎn)節(jié)拍,同時該框架也滿足了生產(chǎn)中對檢測結(jié)果實時獲取的要求。通過對工業(yè)大數(shù)據(jù)的應(yīng)用,提升企業(yè)在車輛制造環(huán)節(jié)中對質(zhì)量問題的追溯能力,使企業(yè)在問題發(fā)生后有據(jù)可查,有助于企業(yè)明確責(zé)任,避免部門糾紛,提高生產(chǎn)效率,助力整車生產(chǎn)企業(yè)向智能制造邁進。