




















摘 要:為解決集裝箱圖像受到外界光線環境的影響造成信息對比度低、暗部細節信息不明顯和圖像信息難以辨認清等問題,提出一種新的圖像增強算法,其重點是利用非線性變換,提高圖像的暗部細節,將原本的RGB模型轉化到HSV模型進行均衡化。利用實際工程中港口所提供的測試數據集,使用已訓練好的模型進行廣泛的實驗。實驗還探究了圖像增強算法對卷積神經網絡性能的影響,利用對比度受限的自適應直方圖均衡化、伽馬校正、拉普拉斯變換以及原始圖像與該算法進行對比,使用10折交叉驗證了該算法的精確率、召回率均大于其他的算法。采用配對T檢驗,比較分析采用各算法間的各項指標差異,結果表明:該算法相比其他算法的效果要好。
關鍵詞:圖像增強算法;卷積神經網絡;目標檢測;直方圖均衡化
中圖分類號:TP391.4" 文獻標志碼:A" 文章編號:1671-5276(2024)05-0234-05
Research on Target Intelligent Detection of Port Container Keyhole
Abstract:In order to solve the problems of low contrast of information, obscure details and difficulty in identifying image information caused by external light environment in container images, proposes a new image enhancement algorithm, which focuses on improving the dark part details of the image by using nonlinear transformation and converting the original RGB model to the HSV model for equalization. Using the test data set provided by the port in the actual project, a wide range of experiments are carried out with the trained model. The experiment explores the effect of image enhancement algorithm on the performance of convolutional neural network. The contrast limited adaptive histogram equalization, gamma correction, Laplace transform and original image are compared with the proposed algorithm, and the 10-fold cross is used to verify the accuracy rate and recall rate of the proposed algorithm, which are greater than other algorithms. The paired T test is used to compare and analyze the differences of each index among the algorithms. And the results show that the proposed algorithm has better effect than other algorithms.
Keywords:image enhancement algorithm;convolutional neural network;target detection;histogram equalization
0 引言
近些年,智能化集裝箱港口逐漸成為全球港口的重點建設項目。港口大型工程機械設備也開始朝著自動化和智能化方向發展。集裝箱鎖孔識別是在集裝箱進閘時的識別,可以實現不停車通閘,節省時間。鎖孔識別主要是為了判斷單雙箱,因為判斷單雙箱是校驗貨車集裝箱進場邏輯的一個基礎,也是集裝箱后續的箱號識別、殘損識別、危標識別算法的一個基礎。只要能識別鎖孔,就能判斷單雙箱,再使用箱號、殘損、危標識別算法來實現這個集裝箱進場的識別。判斷單雙箱不用箱體識別,是因為集裝箱數據集是采用拼接圖,而使用箱體識別來判斷單雙箱不一定穩定,因為會受集裝箱有殘損和拼接效果等的影響。相比而言,鎖孔識別會穩定很多。但是有些貨箱由于長久使用和被雨水腐蝕的鎖孔部分生銹腐蝕,不是很好辨認,并且由于光線的影響所拍攝出來的識別圖片在某些地方比較暗,如圖1所示的集裝箱的左下角部分由于光線暗,可能會造成識別的性能不佳。
一般在深度學習的數據集中,圖像數據集經常會由于拍攝設備、光線照射環境因素或者拍攝時干擾等影響,造成圖片質量低和圖像的對比度或者圖片特征不足。而圖像數據集的質量對模型性能有很大的影響。研究表明[1-2],在訓練CNN模型時,圖像處理是必不可少的,它可以有效地提高CNN模型的識別性能。圖像增強是圖像處理中非常重要的一部分。因此研究圖像增強與CNN模型之間的關系具有重要意義。圖像增強算法是可以將圖像的整體或局部特征加強、放大有用特征或者抑制無用特征和加強圖像中物體的一些不明顯特征[3]。但是在模型的訓練之后使用圖像增強算法的很少。提高圖像質量,豐富信息,增強圖像解釋是為了更適合人類視覺系統和體驗,但是機器視覺終究是與人類視覺有很大區別的。
在本文中,提出了一種新的圖像增強算法,目的是為了提高目標檢測中卷積神經網絡的性能,改善原始圖片中由于環境原因造成過暗的狀況,并能增強有用部分的特征。該方法增強了數據集圖像,方便了目標的檢測。與其他方法相比,本文的方法具有更好的效果。
1 港口集裝箱光照不均勻圖像增強方法
用I來表示M×N尺寸大小的灰度圖像且像素強度為{0,…,L-1}。首先需要對圖像進行非線性校正,非線性校正需要將原始圖像的RGB顏色模型轉化為HSV顏色模型,而且只對HSV中的V通道進行校正,為的就是防止破壞圖像原有的顏色空間。表示為
式中:Iv,I′v分別為圖像的輸入和輸出的灰度值;α、β為校正常數。
將非線性化的圖像劃分為m個16×16固定子塊,且每個子塊之間是互不影響相互連續的,將每個子塊的像素個數平均分到每個灰度級的平均值Nmean:
式中:Nn為子區域的灰度級的數量個數;Nx為子區域x軸方向的像素個數;Ny為子區域y軸方向的像素個數。
為了限制噪聲放大和局部對比度過大,就需要對各個子區域直方圖的高度進行限制,再形成輸入圖像的一維直方圖,用所需的強度值替換單個像素的強度。然后根據相應的概率分布計算出所需的強度值。每個子區域內的一維直方圖均衡化技術使用如下定義的離散變化來生成輸出像素強度。
式中:St表示輸出圖像中的均衡化灰度級;rt表示輸入圖像中像素的灰度級;T(·)表示轉換運算符;p(rk)表示子區域內灰度級rk出現的概率。
式中N(rk) 表示rk 在圖像中出現的次數。
最后把每個子區域的中點作為參考來估算其灰度值,對圖像中的像素使用雙線性插值的方法來進行灰度插值。
2 實驗方案的設計
2.1 實驗數據
實驗數據來源于港口貨車目標檢測圖像數據??紤]到攝像頭抓拍的貨車左右側視角會有區別,故實驗的數據集中有2 000個樣本,包括1 000張左視角和1 000張右視角樣本。
所選的圖像格式都是JPG。DZIUGAITE等[4]的研究表明,神經網絡圖像分類器易受到對抗性圖像的影響,JPG圖像進行壓縮操作通常會在很大程度上降低CNN分類器的精度。為了避免圖像增強過程中對原始圖像的二次壓縮操作,必須在JPG圖像進行圖像增強之前轉換格式,故需要將原始數據格式JPG轉化為PNG。
2.2 實驗方案設計
選取對比度受限自適應直方圖均衡化、伽馬校正、拉普拉斯變換處理圖像以及原始數據集作為對比組。
實驗方案如圖2所示。在數據集中,原始數據集稱為A1,JPG圖像首先轉化為PNG圖像,數據集稱為A2。A2中所有圖像都要從RGB通道轉換為HSV通道,然后再轉換回RGB通道。該數據集稱為A3, A3作為實驗空白對照組。將A2從RGB通道轉換為HSV通道,分別通過對比度受限自適應直方圖均衡化方法和伽馬校正增強V通道,并將增強后HSV通道轉化為RGB通道,此時數據集分別稱為A4和A5。通過拉普拉斯操作對A2中的圖像進行增強,數據集稱為A6。經過本文算法處理的數據集稱為A7。 實驗將在卷積神經網絡(CNN)中比較A3、A4、A5、A6、A7的性能。
本次實驗采用的是YOLOv5網絡。該模型是由Ultralytics LLC公司對YOLOv4的改進版本,是目前目標檢測優秀的檢測網絡[5]。
2.3 模型評價
在本次實驗中,如何比較相同CNN模型在不同數據集中的性能是關鍵。但實際上,比較模型性能是非常復雜的,它一般涉及3個因素。第一,需要比較CNN模型的泛化性能。而一個測試或一個實驗只能獲得測試集中的性能。測試集的性能不同于泛化性能。第二,測試集的性能會受到測試集的選擇、測試集的數量和測試集中樣本的影響。第三,CNN模型并不總是穩定的,即使用相同的參數對同一測試集進行多次測試,結果會有所不同。因此,選擇好的評價方法、績效測量方法和假設檢驗方法是非常重要的。
1)評估方法
機器學習中有很多評估方法,比如:留出法、K折交叉驗證和自舉檢驗等。留出法是最基本的方法,它是將數據集劃分為兩個互斥集,其中一個集為訓練集,另一個集為測試集。由于該方法有較大的偶然性,不同的方法會產生不同的結果,所以該方法是不穩定的。K折交叉驗證通常是與留一法一起使用,將數據集分成K個部分,然后進行K次檢驗;每個子集都用作測試集,這確保所有數據都將被測試一次。而自舉法是將一個數據從原始數據集隨機抽取到測試集,重復m次得到測試集,將原始數據集作為訓練集。當m無窮大時,原始數據集中約有36.8%的數據不會出現在測試集中[6]。有論文表明同時使用K折交叉驗證和留一法在分類算法中具有良好的性能[7]。所以本文就采用K折交叉驗證和留一法,其中K=10。
2)性能指標
在目標檢測領域中,存在著很多精度評價指標。本次實驗所用的評價指標是精確率(Precision)、召回率(Recall)、F1-Score和平均精度(AP)。精確率是整個測試集上,被分類器識別出來的結果中,正確分類個數所占的比率,即衡量的是分類器對數據集錯分的情況。召回率是在測試集中,所有正樣本被正確識別的概率,即衡量的是分類器對數據集的漏檢情況。F1-Score就是為了解決單一的評價指標精確率或召回率很難宏觀地表現分類器的好壞,F1-Score可以聯合評價精確率和召回率。平均精度是Precision-Recall曲線下面的面積。
式中:TP表示被判定為正樣本,真實情況也是正樣本;TN表示被判定為負樣本,真實情況也是負樣本;FP表示被判定為正樣本,但真實情況是負樣本;FN表示被判定為負樣本,但真實情況是正樣本。
3 實驗結果與分析
3.1 視覺評估
圖3所示為基于每種方法生成的圖像增強結果。圖3(a)所示的原圖包括貨車的車頭和集裝箱及一些背景,本文主要關注的是貨車的集裝箱部分。如圖3(b)所示,對比度受限自適應直方圖均衡化從圖像上看只是比原圖的顏色更鮮艷,而且原先較暗的區域還是跟原來一樣,暗部細節還是不夠明顯,也就是說這種方法不能改善亮度。如圖3(c)所示,伽馬校正改善了直方圖的低電平,增強了原圖的暗部細節,但改善后的亮度不均勻,總體上給人一種過度明亮且不自然的感覺。如圖3(d)所示,拉普拉斯變換雖增強了局部特征,但是過多的增強了無用部分。如圖3(e)所示,經過本文算法處理的圖片,可以看到整體的增強效果要比其他算法好,而且也改善了原始圖片中的暗部。
3.2 識別的效果
如圖4—圖8所示,使用對比度受限的自適應直方圖均衡化、伽馬校正、拉普拉斯變換算法與原圖識別出的鎖孔情況一樣。這幾個算法對集裝箱左下角的鎖孔沒識別出來,可能因為左下角的暗部細節不夠明顯,而使用本文算法可以檢測出以上算法所遺漏的那個鎖孔,這說明本文算法可以提高暗部細節,且能提高YOLOv5的性能。
3.3 定量評價
如表1所示,使用本文的算法優于其他的算法,而使用其他的圖像增強并不能提高鎖孔識別的精確率。如表2所示,在召回率的指標上,使用本文的算法和對比度受限的自適應直方圖均衡化都比原圖高,而使用伽馬校正和拉普拉斯算法則低于原始圖像。
3.4 統計假設檢驗
本文采用配對T檢驗進行假設檢驗。有文獻[8]表示,K折交叉驗證的方差無法無偏估計,這就要求假設檢驗應該使用總體方差和總體標準差,而不是樣本方差和樣本標準差。在單側檢驗中,配對T檢驗需要比較Tt與tα,k-1,其中α是置信區間。當Ttgt;tα,k-1時,就能拒絕原假設。當α=0.05時,t0.05,9 = 1.83[9]。Tt的公式為
式中:μ為兩個差值的平均值;σ為兩個差值的總體標準差。
如表3所示,比較原始圖像和對比度受限的自適應直方圖均衡化精確率的Tt≈0.99。由于0.99是小于1.83的,所以說原始圖像與使用對比度受限的自適應直方圖均衡化之后圖像集的精確率之間是沒有顯著差異的。同理對于原始圖像和使用伽馬校正之后圖像集的精確率之間也是沒有顯著差異的。然而比較原始圖像和使用拉普拉斯變換數據集精確率的Tt≈8.56gt;1.83,說明這兩個之間的差異是顯著的,再看表1中原始圖像的平均精確率是明顯大于使用拉普拉斯變換的,可以認為使用拉普拉斯變換的圖像集相比于直接原始圖像對于卷積神經網絡的性能是有下降的。而使用本文算法的Tt≈4.79gt;1.83,說明使用本文算法與直接使用原始圖像是有明顯差別的。再看表1中使用原始圖像的精確度比本文的算法小,故可以得出使用本文算法平均精確率是大于直接使用原始數據集的結論。同理如表4—表6所示,對比度受限的自適應直方圖均衡化與伽馬校正和直接使用原始數據集的召回率、F1-Score、精度之間的差異是沒有明顯差距的。而拉普拉斯變換相比于直接使用原始數據集的召回率、F1-Score、精度是有明顯下降的。而本文算法相比于直接使用原始數據集的各項性能指標都有明顯差距,并且平均值都大于原始數據集。由于本文算法相比于原始圖像之間的各項性能指標有顯著差異,故還比較了本文算法與其他算法的各項指標之間差異,如表7所示。
由表7可以看出本文算法與其他算法的性能指標的Tt均大于1.83,且本文算法的性能指標的平均值都大于其他的圖像增強算法,說明本文算法與其他算法之間的差異顯著。
4 結語
為了提高集裝箱鎖孔的識別,本文設計了一種增強對比度和提高圖像暗部細節的圖像增強算法,實驗使用適當的度量標準和配對T檢驗來確保結論的有效性。此外,為了減少內部效度的威脅,實驗進行了10折交叉驗證測試,可以減少實驗的偶然性。在實驗中,本文的算法明顯優于其他幾種圖像處理算法。
參考文獻:
[1] KOO K M,CHA E Y. Image recognition performance enhancements using image normalization[J]. Human-Centric Computing and Information Sciences,2017,7(1):1-11.
[2] 蘇欣,賴復堯,余容平,等. 基于多視角模板匹配的零件圖像檢索方法[J]. 機械制造與自動化,2023,52(1):222-225,229.
[3] MAINI R,AGGARWAL H. A comprehensive review of image enhancement techniques [EB/OL]. (2010-03-22) [2022-09-12]. https://sites.google.com/site/journalofcomputing.
[4] DZIUGAITE G K,GHAHRAMANI Z,ROY D M. A study of the effect of JPG compression on adversarial images [EB/OL]. (2016-08-02) [2022-09-12]. https://doi.org/10.48550/arXiv.1608.00853.
[5] LIU W T,WANG Z Y,ZHOU B,et al. Real-time signal light detection based on Yolov5 for railway[J]. IOP Conference Series:Earth and Environmental Science,2021,769(4):042069.
[6] 周志華.機器學習[M].北京:清華大學出版社,2016.
[7] WONG T T. Performance evaluation of classification algorithms by k-fold and leave-one-out cross validation[J]. Pattern Recognition,2015,48(9):2839-2846.
[8] GRANDVALET Y, BENGIO Y. Hypothesis testing for cross-validation[J]. Montreal Universite de Montreal, Operationnelle DdIeR, 2006, 1285:1-10.
[9] MILTON J S,ARNOLD J. Introduction to probability and statistics[M]. New York:McGraw-Hill Education, 2002.