




關鍵詞:圖像分類;卷積神經網絡;汽車產品檢測
0引言
隨著科技革命和產業變革的深入推進,“信息科技+”的“嫁接對象”越來越廣泛,人工智能等先進技術正逐步對傳統產業的基礎設施、作業模式等進行全方位、全鏈條的改造。在汽車行業中,企業在申報產品準入時需要在工信部平臺網站上填報新車型的備案參數。目前大多數汽車檢測機構在備案參數的校核工作上,仍主要依賴于檢測人員根據填寫規范和視同條件進行逐項人工比對,這不僅導致重復性勞動強度大,而且在面對企業申報量增多、填報水平參差不齊等情況下,參數校核的質量難以得到保障,進而可能妨礙檢測申報業務的順利進行。因此,汽車檢測行業急需信息技術的創新與應用,以提高生產效率、推進行業高質量發展。
汽車企業填報的產品備案數據類型多樣,除了包含文字與數字信息外,還涉及各種角度的汽車產品照片,如產品的右前45°方向、左前45°方向照片,以及正后部、側后下部防護裝置照片等。這些照片在《備案參數表》及其填報指南中有著嚴格的排列位置和方位要求。如果企業上傳的圖像內容與要求不匹配,將無法通過審查。作為一種深度學習模型,卷積神經網絡(Convolutional Neural Networks,CNN)在圖像識別與分類領域已得到廣泛應用…,例如交通場景下的車輛識別和定位,以及對車輛類型、車型大小、車輛承重等屬性的分類。然而,在車身方向檢測方面的應用尚需進一步完善。
基于上述背景,本文通過分析卷積神經網絡的演化進程和性能特點,選取出適用于汽車產品檢測場景的模型。隨后,通過采集和標注大量圖像數據,利用這些數據對模型進行訓練,并通過調節相關參數來優化模型性能。最終,使模型能夠準確識別車身朝向,從而助力檢測工作的精細化、智能化發展,加快檢測行業的信息化、現代化轉型。
1卷積神經網絡發展綜述
1.1卷積神經網絡的基本特征
傳統神經網絡在圖像數字化處理時,難以有效保留原有圖像特征,因此圖像識別率較低。然而,卷積神經網絡憑借聯結稀疏、參數權值共享、能夠提取多維特征等優勢,顯著提升了圖像識別率。特別是在2012年的ImageNet大賽中,卷積神經網絡大幅度超越了傳統方法。
卷積神經網絡主要由卷積層、池化層和全連接層構成。在卷積層中,卷積核在原始圖像上進行滑動,通過卷積操作提取特征,見公式1:
池化層的作用是對卷積層輸出的特征圖像進行降維,減少參數量。全連接層的功能則是整合卷積層和池化層提取到的特征,完成對計劃的識別和分類。
1.2卷積神經網絡的常用模型
1998年,利用二維卷積進行圖像處理的LeNet-5模型實現了卷積核共享,奠定了現代CNN的基礎,但該模型的應用對象主要為手寫字符和英文字符,不擅長處理復雜問題。2012年提出的AlexNet模型通過ReLU激活函數緩解了梯度消失的問題,設置隨機失活以減少過擬合,在ILSVRC 2012競賽中將分類準確率提升至80%以上。2014年,牛津大學計算機視覺組提出的VGGNet模型在當年的ImageNet競賽中斬獲定位任務(Localization Task)第1名和分類任務(ClassificationTask)第2名。與AlexNet相比,VGGNet具有更深的網絡深度和更簡潔的形式,模型使用3x3的小卷積核代替大尺度卷積核,在不影響感受野的前提下減少了參數量,提高了對圖像特征的學習能力,其采用的2x2小尺寸池化核也可增加通道數,使得提取的圖像特征更加豐富。同樣在2014年,Szegedy等人提出GoogLeNet模型,在其中加入Inception結構,通過融合不同尺度的特征信息,提高網絡的性能和效率,并在接下來的幾年中不斷優化Inception結構或添加其他結構,陸續發布InceptionV2、InceptionV3、InceptionV4、Inception-ResNet-V1、Inception-ResNet-V2等模型。2015年面世的ResNet模型,通過殘差模塊有效地緩解了梯度消失和梯度爆炸的問題,但需要比較長的訓練時間。2016年提出的SqueezeNet模型,在保證準確率相同的情況下,降低了參數量,減小了CNN架構,但具有相對較差的實時性。2017年,采用密集連接方式的DenseNet模型實現了特征復用,具有較高的泛化能力和抗過擬合性能,但該模型的計算復雜度大,需要巨量存儲空間,難以得到現有深度學習框架的支持。針對移動設備的使用需求,Howard等人提出了輕量級的MobileNetVI模型,并針對模型性價比低、準確性難以保障等問題,不斷改進模型結構,陸續推出MobileNetV2、MobileNetV3模型,不過MobileNetV3仍然具有訓練難度高、細粒度分類效果差的缺點。2019年提出的EfficientNetV1模型在準確率方面表現優秀,但處理較大圖像的速度很慢。為了在參數量和速度之間取得更加合理的平衡,EfficientNetV2于2021年被提出,實現了更高效的特征提取。
綜上所述,卷積神經網絡經歷了多次演化,在訓練速度、準確率、抗過擬合性能等方面不斷得到提升,并仍在持續改進。不同的CNN模型具有各自的優勢和缺點(見圖1),因此適用于不同的應用場景,研究人員需要根據實際情況進行選擇。目前,車輛的識別和定位主要使用R-CNN、YOLO等模型,車輛的分類則常用LeNet、AlexNet、VGG、GoogLeNet等模型。
為了填報備案參數而給車輛產品拍照時,拍攝角度和距離均相對固定,因此目標車輛在上傳照片中所占比例大小相對穩定,即檢測對象的尺度相對穩定。但是汽車與掛車的種類多樣,對于不同結構或不同用途的車輛,其后部的視覺圖像差異較大,比如欄板式、廂式和罐式車輛的后部外觀具有明顯差別,而同樣屬于罐式運輸車的混凝土攪拌運輸車和危險品運輸車也在外觀上存在差異。因此,企業備案照片的車身方向分類任務,需要模型具有比較優秀的圖像特征學習能力。
VGGNet模型憑借小卷積核獲得了提取豐富圖像特征的性能,具備較強的遷移學習能力,而且結構簡潔,易于在現有的深度學習框架上實現。綜合考慮分類效果與實現成本等因素,本文選擇VGGNet模型對圖片中的車身方向進行分類。
2模型訓練與評估
2.1數據采集與處理
本次研究的圖片數據來自中汽研汽車檢驗中心(武漢)有限公司的整車與智能網聯試驗研究部的電子數據庫,這些照片均為樣車核查照片,拍攝時間為2020年和2021年。
為了進行模型訓練與驗證,本研究在數據庫中隨機挑選了1014張車輛前部照片和1023張車輛后部照片,并分別標注“front”和“rear”的標簽,作為訓練集與驗證集的基礎數據。對于部分格式異常、無法被程序正確讀取的圖片數據,本文利用Python編程語言進行了自動剔除,經過清洗后的有效數據共2003條。
測試集則包含了19張圖片,其中車輛前部圖片6張,車輛后部圖片13張。由于不同商用車的車輛前部外觀差異相對較小,因此用于測試的車輛前部照片相對較少,涵蓋了車身顏色不同、室內室外場景不同等情況。而車輛后部圖片則更加多樣化,覆蓋了多個不同的車輛種類。
2.2模型構建與優化
2.2.1模型結構設計
VGGNet包含5層卷積層、3層全連接層和1層softmax輸出層,層與層之間由maxpool(最大池化)層進行分隔。所有的隱藏層都采用了ReLU函數作為激活函數。Simonyan等人根據不同的卷積層子層數量,設計了A、A-LRN、B、C、D、E6種網絡結構。在本文中,我們選取最常用的D型結構(也被稱為VGG16)作為基礎,并使用TensorFlow深度學習框架構建模型。我們使用的硬件環境是英特爾酷睿15的CPU,操作系統為windowsl0,并使用PyCharm作為編譯工具進行Python編程。基于上述設置,我們構建了初始的VGG16模型。具體的模型結構如圖2所示,圖中的卷積層參數用“conv感受野大小一通道數”的形式表示。例如,conv3-64表示該卷積層使用了尺寸為3x3的卷積核,并具有64個輸出通道。
2.2.2模型參數優化
初始模型經過訓練后,性能并不理想(見圖3左),驗證集的Loss值約為0.3,且與訓練集的Loss值相差較大,這顯示出過擬合現象,同時驗證集的準確率(Accuracy)也并不高,并且過早地趨于穩定,陷入了學習瓶頸。針對這些問題,本次研究通過不斷調節模型的相關參數來提升模型性能。
(1)“學習率”參數指權重在模型訓練期間更新的量,過大的學習率可能導致模型性能在訓練后期產生明顯振蕩,而過小的學習率可能導致模型收斂速度過慢甚至不收斂。學習率衰減的策略可以確保模型在訓練初期使用較大的學習率進行模型優化,而在訓練后期逐漸減小學習率以避免過大波動,從而更接近最優解,有效提高模型的精度。
(2)“dropout”參數的設置,可以在訓練過程中隨機丟棄一定比例的神經元,以減少神經元之間的依賴關系,從而緩解過擬合問題,提高模型的泛化能力。
(3)“epoch”參數表示整個數據集在網絡中完成一次前向計算和反向傳播的過程。epoch數量越大,權重更新的次數也越多。如果epoch過小,權重可能沒有得到充分的更新,模型的特征值曲線可能還未進入優化擬合狀態。
(4)參數的初始化對深度學習模型的訓練也至關重要。采用“截斷正態分布”的初始化方法可以減少異常值的影響,有利于模型擬合。
考慮到以上參數設置對模型的影響,以及初始模型存在的問題,本次研究進行了以下優化:
(1)將初始學習率由0.01減小至0.001,并設置了學習率衰減策略。
(2)在全連接層中添加了dropout,并嘗試了多個dropout取值,最終依據模型性能表現將神經元的丟棄比例確定為0.6。
(3)參數初始化方法采用“截斷正態分布”。
(4)epoch數量在經歷多次試驗后增大至150,以確保模型得到充分的訓練。
優化后的模型性能見圖3右,訓練集與驗證集的Loss值均在epoch為80之后趨于平穩,兩者之間的差距相較于初始模型有所減小。驗證集的Loss值最終低于0.2,Accuracy也高達0.95,顯示出較好的分類能力。
2.3建模結果評估
除了上文提到的Accuracy(準確率),Precision(精確率)和Recall(召回率)也是評價模型性能的重要指標。Precision又稱“查準率”,表示在預測結果為正的樣本中,實際為正的樣本的比例;Recall又稱“查全率”,表示在實際為正的樣本中,預測結果為正的樣本的比例,可反映模型對所有真實正例樣本的識別能力。由于Precision和Recall通常是相互制約的,研究人員常用它們的調和平均值(F1-Score)來衡量二分類(或多任務二分類)模型的精確度。F1-Score可以同時兼顧分類模型的精確率和召回率,計算方法見公式(3),取值范圍為0~1,值越大則意味著模型越好。
優化后的VGG Ixlet模型的各項評價指標值如圖4所示,并整理為表1。模型的Accuracy和F1-Score均取值為0.95,表明該模型具有較為優秀的性能。
模型構建完成后,對測試集的圖片數據進行分類,分類結果全部正確(見表2),且有1/2的預測概率高達95%以上,進一步驗證了該模型優秀的分類準確度。對于不同的車身主體顏色、室內室外環境、車輛類型,模型均能較為準確地識別出車身的朝向,表現出較好的泛化能力與學習能力,因此,該模型特別適合試驗環境多樣、試驗對象種類繁雜的汽車檢測行業。
模型對真實備案照片的分類也非常成功,圖5為某企業上傳至工信部平臺的備案照片,圖6為模型的輸出結果,高達99.82%和98.78%的準確預測概率表明該模型在實際備案核查工作中的應用具有較強的可行性與科學性。
3結束語
本文綜合考慮了多種卷積神經網絡模型的性能特點與汽車產品檢測行業的實際需求,選取了VGGNet模型進行訓練。經過訓練后的模型能夠較為準確地識別出企業備案照片中的車輛朝向(前或后),這一成果有助于節約企業與檢測機構的勞動成本,降低工作失誤率,提升生產效率,從而助力汽車檢測行業實現“科技為擎,賦智賦能”的目標。
在后續的研究中,可以進一步細化車身朝向的分類種類,例如將“前向”細分為“左前45°”“正前”“右前45°”等,以使得模型的應用更加貼近實際工作需求,為汽車檢測行業提供更加全面、細致的服務。