韓素月 戴奇林 張律
【摘 要】 本文針對圖像識別問題,首先,從圖像處理流程著手,通過收集原始圖像,先對圖像進行預處理,加強圖像的特征,再根據圖像的差異,結合形狀、顏色與紋理等全局特征和局部特征的提取方法,提取主要特征。其次,通過對YOLO算法進行研究,構建了基于YOLO算法的目標分類檢測算法模型。
【關鍵詞】 圖像識別 YOLO算法 TensorFlow 目標檢測
1. 引言
當今社會,圖像已經成為信息傳輸的主要載體,它在人類活動中發揮著巨大的作用。生活中,人們無時無刻都在接收著圖像信息。為了滿足人們日益增長的美好生活需要,圖像識別技術應運而生。本文主要利用YOLO算法對圖像中的目標進行特征提取分類識別,可以實現圖像特征提取和分類識別的自動化,摒棄了傳統圖像識別過程中依靠手工標注圖像特征的方法,YOLO算法大幅提高了圖像識別的識別速度和識別準確率。
2. YOLO算法理論
YOLO算法模型借鑒了GoogLeNet算法網絡結構,首先將輸入圖像劃分為若干格子,每個格子負責檢測中心位置坐標位于該格子中的目標物體,包括預測出含目標物體的邊界框信息及目標物體類別的概率信息[1]。因此,輸入圖像只要經過一次檢測,就會得到圖像中所有物體的位置及其所屬類別的概率,由于每個格子只能預測兩個邊框信息和一種物體類別,因此會引起相鄰目標間檢測的準確率下降。YOLO算法基礎版的檢測速度可達45FPS的實時檢測,快速版檢測速度可高達155FPS,并且背景誤差率低[2]。
與其它目標檢測識別方法將目標檢測劃分成區域預測和類別預測等多個流程相比,YOLO將區域預測和類別預測整合在一個網絡中,以提高檢測速率[3]。YOLO的網絡結構類似于Google Net,網絡中卷積層用于特征提取,全連接層用于輸出類別分數以及目標所在位置。網絡系統可以讀取任何大小的圖像,并反饋到網絡中。
YOLO將輸入的圖像劃分為個格子,每個格子會預測是否有物體的中心位置坐標落入格子內部。如果某個物體的中心位置坐標落入了某個格子,那么這個格子就負責識別出這個物體。如圖(2-3)所示,圖中人的中心坐標落在了第4行,第4列的格子中,那么這個格子就負責預測這個人。
格子會預測B個邊界框,以向量的形式給出這些邊界框的信息。邊界框的信息包括了位置信息,置信度以及物體的類別信息。置信度代表了當前格子包含一個目標的概率。邊界框的置信度公式為:
當有物體落入格子中時取1,沒有物體落入格子中時取0。是預測邊界框和實際邊界框的交并比:
是預測邊界框,是實際邊界框,area表示面積邊。每一個單元格還要給出預測出C個類別的概率值,其表征的是由該單元格負責預測的邊界框,其目標屬于各個類別的概率。
3.分析
在tensorflow-gpu環境下,基于構建的模型,用數據集的16551張圖像對網絡進行訓練,之后分別用200張圖像進行分類識別測試,運行時間在60ms-70ms之間,測試結果如下:
其中,100張圖片屬于比較簡單的環境,其中99張識別準確,有3張物體并沒有識別完全,但是僅僅只是局部物體。另外100張圖片比較復雜,有2張圖片存在誤識別,除此之外,有超過10張圖片存在未識別完全的情況。
實驗結果表明,本文構建的圖像分類識別模型對圖像識別的效率和準確率都比較高,運行時間在60ms-70ms之間,識別準確率達到了98%。
【參考文獻】
[1] 戴進,劉振宇. 基于深度學習的圖像識別算法研究的綜述[D]. 計算機產品與流通, 2018.
[2] 衣世東. 基于深度學習的圖像識別算法研究[D]. 信息工程大學, 2018.
[3] 周瑤. 基于機器視覺與黃板誘導的有翅昆蟲統計識別系統的研究與實現[D]. 重慶大學, 2017.
[4] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV , 2016: 779-788.