韓素月 戴奇林 張律
【摘 要】 近年來,隨著計算機技術的發展,圖像識別技術在各個領域都有了廣泛的應用。同時,圖像識別技術也在不斷地優化,其在人們的日常生活中發揮著越來越重要的作用。本文主要綜述了YOLO模型在圖像識別技術上的研究現狀。
【關鍵詞】 圖像識別 YOLO模型
1 引言
隨著互聯網技術的不斷向前發展,人們可以更加便捷地通過個人終端接入互聯網,通過移動終端帶有的攝像頭,隨時隨地對物體進行拍照,利用互聯網進行共享。由于圖像本身的特點,圖像比傳統文字更加生動形象地傳達了信息,使人們更容易理解,被人們廣泛使用。圖像數據的數據量十分巨大,不僅包含著對人們有用的有效信息,還包含著無用的無效信息。作為機器視覺的一個重要領域,圖像識別不斷滿足人們日益增長的美好生活需要,如何快速和高效地處理圖像信息有力地推動了圖像識別技術的不斷發展。近年來,人工智能和機器學習變得越來越熟悉起來,進入了普通大眾的視野,極大地促進了圖像識別技術的發展。機器識別中的機器視覺是通過模擬人類大腦[1],運用機器來獲取圖像,然后對圖像進行一系列處理,經過抽象、傳遞和反復迭代,最終達到識別相關物體的目的,最終讓機器能夠像人一樣識別和處理圖像信息。YOLO算法大幅提高了圖像識別的識別速度和識別準確率,具有良好的經濟效益,有很高的研究價值。
2.國內外研究現狀
圖像識別技術發展至今,一共經歷了三個階段。①文字識別階段;②圖像處理與識別階段;③物體識別階段。目前,圖像識別領域的重點研究方向是物體識別中的分類識別,目前已經廣泛應用于安防領域、交通領域以及互聯網領域,物體分類識別主要以特征學習為主。
2016年,Redmon J等[2]提出了YOLO算法。利用YOLO算法對圖像中的目標進行特征提取分類識別,可以實現圖像特征提取和分類識別的自動化,摒棄了傳統圖像識別過程中依靠手工標注圖像特征的方法,其網絡結構是在GoogleNet模型之上建立的。YOLO檢測框架把目標檢測問題當成一個回歸問題,通過劃分網格來進行回歸目標的位置和類別。YOLO將圖片進行7×7的劃分,然后通過卷積神經網絡也產生這樣的7×7的輸出,7×7中的每一個輸出都去預測中心點落在這個網格上的目標,預測的目標參數包括目標的類別和目標框的位置。YOLO算法主要通過三步實現,首先,將輸入圖像軟寸歸一化;其次,卷積網絡特征提取,預測邊界框置信度;最后,通過非極大值抑制算法過濾邊界框,得到最優結果。與Faster R-CNN算法相比,采用這種統一模型,實現了端對端的訓練和預測,其檢測速度更快,背景誤判率低,泛化能力和魯棒性較好。但由于每個單元格僅對同一組類別進行邊界框預測,這使得YOLO算法的定位準確率受到影響。由于YOLO劃分網格的方式,使得對于比較密集的目標無法得到足夠的候選網格來對目標進行預測,造成過多的漏檢。YOLO對于小目標也檢測的不好,主要是網格劃分的比較粗糙,對于小目標的特征無法得到很好的保留。這些原因都造成YOLO檢測精度偏低。之后,再次提出了YOLOv2,在VOC 2007測試集上進行測試后,mAP由原來的67.4%提高到了76.8%。v2相對之前的v1版本,在繼續保持處理速度的基礎上,在預測更準確尺,速度更快尺,識別對象更多這三個方面做了改進尺。
YOLO9000[3]是YOLOv2的一個延伸,它在YOLOv2的基礎上做了如下改進,使檢測精度得到大幅提升:(1)YOLOv2使用了自己設計的一個基礎網絡,該網絡在設計上考慮了卷積的計算量,使得YOLOv2速度比較快。在YOLO9000中,在基礎網絡上增加了批量歸一化,來使網絡收斂的更快。(2)在檢測時使用比分類更高分辨率的圖片,在訓練檢測網絡之前,對預訓練的分類器在高分辨率的圖片上進行一次微調,使網絡提前適應檢測圖片的分辨率,這也使得分類網絡的精度得到一定的提升,得到更好的分類器。(3)使用卷積來替代YOLOv2的全連接進行回歸目標的參數。(4)在回歸目標寬高的時候,使用多尺度的基準框來對進行匹配訓練,減小檢測的定位誤差。(5)檢測不僅需要對目標進行分類,還要對目標進行定位,分類需要高層的語義特征,而定位要圖片的細節信息,在該方法中使用跨層的特征融合得到多尺度的特征,得到的卷積特征可以很好的適用于檢測。2018年4月,再次提出了YOLOv3算法,與YOLO 9000算法相比,該算法采用殘差網絡模型Darknet 53進行特征提取,并且利用特征金字塔網絡實現多尺度檢測。同時,通過分析數據集中目標的分布情況,修正anchor box,使得anchor box更加符合目標尺寸,增強了收斂效果。在Pascal VOC數據集上的實驗表明,在不影響檢測速度的情況下,YOLOv3準確率提高了1個百分點左右,且收斂速度變快,這使YOLOv3的目標檢測能力進一步提升。
3 結論
通過YOLO算法系列的改進可以看出:通過不斷優化算法,可以使YOLO算法的檢測速度達到實時分析的要求[4],滿足人們對高效率、高精度目標識別技術的需要。鑒于圖像識別技術的快速發展,YOLO等目標檢測算法擁有無比廣闊的發展空間,推動圖像識別技術不斷向前發展。由于YOLOv3算法良好的檢測性能與檢測精度,其具有比其他版本更廣泛的應用意義。
【參考文獻】
[1] 高浩宇. 基于機器學習的圖像識別研究與應用[D]. 華中師范大學,2018.
[2] Redmon J, Divvala S, Girshick R, et al. You Only Look Once:Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV, 2016:779-788.
[3] 郭澤方. 圖像物體檢測深度學習算法綜述[J]. 機械工程與自動化,2019(2).
[4] 呂鑠, 蔡烜, 馮瑞. 基于改進損失函數的YOLOv3網絡[J]. 計算機系統應用, 2019(2).