楊 濤,戴 軍,吳鐘建,金代中,周?chē)?guó)家
基于深度學(xué)習(xí)的紅外艦船目標(biāo)識(shí)別
楊 濤,戴 軍,吳鐘建,金代中,周?chē)?guó)家
(西南技術(shù)物理研究所,四川 成都 610041)
本文采用深度學(xué)習(xí)技術(shù)中的YOLOv3(You Only Look Once Version 3)目標(biāo)識(shí)別算法對(duì)紅外成像儀從海面采集的紅外圖像中艦船進(jìn)行識(shí)別。紅外成像儀采集圖像的頻率高達(dá)50幀/s,為了能減少網(wǎng)絡(luò)計(jì)算時(shí)間,本文借鑒YOLOv3的一些思想,采用全卷積結(jié)構(gòu)和LeakReLU激活函數(shù)重新設(shè)計(jì)一個(gè)輕量化的基礎(chǔ)網(wǎng)絡(luò),以此加快檢測(cè)速度。輸出層根據(jù)采集回來(lái)的紅外圖像的特點(diǎn)采用Softmax算法回歸,在提高檢測(cè)速度的同時(shí),也兼顧了檢測(cè)精度。
紅外圖像;目標(biāo)識(shí)別;深度學(xué)習(xí);YOLOv3
近年來(lái)我國(guó)軍事實(shí)力取得了巨大的進(jìn)步,尤其是從遼寧艦成功服役后,我國(guó)的海軍力量上了一個(gè)新的臺(tái)階,在現(xiàn)在的海上戰(zhàn)爭(zhēng)中,要有效地削弱敵方海軍的戰(zhàn)斗力,精確識(shí)別對(duì)方艦船并采用精確制導(dǎo)技術(shù)摧毀對(duì)方的艦船是現(xiàn)代戰(zhàn)爭(zhēng)常用的方式,但精確識(shí)別敵方艦船是一個(gè)難點(diǎn),我們需要高效的目標(biāo)識(shí)別算法才能準(zhǔn)確地鎖定對(duì)方的艦船。不僅如此,我國(guó)海岸線(xiàn)長(zhǎng)達(dá)18000多公里,不僅是防止敵人入侵的重點(diǎn)地帶,也是偷渡、走私、販毒等違法犯罪的高發(fā)場(chǎng)所,要在如此之長(zhǎng)的海岸線(xiàn)上重點(diǎn)監(jiān)測(cè)海岸附近的海面船只也是一個(gè)難點(diǎn),為了維護(hù)海洋資源的可持續(xù)發(fā)展,我國(guó)在1995年制定了“伏休制度”,在此期間,對(duì)海面船只的監(jiān)控也是一件非常棘手的事。為了解決這些問(wèn)題,我國(guó)在一些海岸線(xiàn)上安裝了監(jiān)控?cái)z像頭,但早期的攝像頭都是可見(jiàn)光成像,只能在白天才能有效工作。隨著紅外成像技術(shù)的發(fā)展,紅外成像由于其成像距離遠(yuǎn)、不受白天和夜間限制等優(yōu)點(diǎn)得到了廣泛的應(yīng)用,但是紅外成像只能得到灰度圖像,再加上海天線(xiàn)、魚(yú)鱗波、船只等目標(biāo)航向姿勢(shì)狀態(tài)等干擾因素的影響,要在紅外圖像上高效地識(shí)別出艦船是行業(yè)一大挑戰(zhàn)。
為了解決這個(gè)難題,學(xué)者們進(jìn)行了大量的研究,許多優(yōu)秀的目標(biāo)識(shí)別算法被學(xué)者發(fā)明并得到了廣泛的應(yīng)用,在這些目標(biāo)識(shí)別算法中,大致流程可分為圖像預(yù)處理、圖像特征提取、使用分類(lèi)器對(duì)特征進(jìn)行分類(lèi)。傳統(tǒng)的目標(biāo)識(shí)別算法中,特征提取方法基本都是通過(guò)手工的方式設(shè)置參數(shù)提取特征,針對(duì)不同的圖像檢測(cè)任務(wù),往往要設(shè)計(jì)許多不同的特征提取方法,如為了使檢測(cè)系統(tǒng)適應(yīng)圖像尺度、旋轉(zhuǎn)的變化,尺度不變特征變換(scale-invariant feature transform,SIFT)[1],方向梯度直方圖變換(Histogram of oriented gradient, HOG)[2]被學(xué)者提出并得以廣泛的應(yīng)用。然而,這些傳統(tǒng)的算法往往是在某些特定的場(chǎng)景下能獲得很好的效果,但換一種場(chǎng)景可能就表現(xiàn)的很差。
隨著近幾年來(lái)神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,深度學(xué)習(xí)算法在計(jì)算機(jī)視覺(jué)領(lǐng)域得到廣泛的應(yīng)用,特別是目標(biāo)識(shí)別中,大量的算法被提了出來(lái),從R-CNN[3]到Faster-RCNN[4-7]等一系列基于提取候選區(qū)域(region of interests)的算法到Y(jié)OLO[8](you only look once)、SSD[9-10](single shot multibox detector)等端到端的檢測(cè)算法大量涌現(xiàn)。其中YOLOv3[11-12]以其速度快,準(zhǔn)確率高得到了大部分人的青睞,在VOC2012數(shù)據(jù)集上,YOLOv3在網(wǎng)絡(luò)輸入為416×416,IOU閾值設(shè)置為0.5時(shí),檢測(cè)平均精度值(mean average precision,mAP)達(dá)到了57.9,超越了傳統(tǒng)的目標(biāo)識(shí)別算法。本次任務(wù)是要檢測(cè)海面上過(guò)往的船只,目標(biāo)成像達(dá)到5×10以上分辨率的目標(biāo)。由于目標(biāo)像素分辨率較小且經(jīng)常存在一張圖上有多個(gè)小目標(biāo)的情形,YOLOv3對(duì)小目標(biāo)有良好的表現(xiàn)效果且計(jì)算開(kāi)銷(xiāo)相對(duì)較小。但是YOLOv3計(jì)算開(kāi)銷(xiāo)比較大,在嵌入式平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)檢測(cè)成本太高,所以本次實(shí)驗(yàn)選擇了YOLOv3作為基本算法進(jìn)行改進(jìn)。重新對(duì)YOLOv3提取特征的基礎(chǔ)網(wǎng)絡(luò)進(jìn)行了設(shè)計(jì),通過(guò)減少網(wǎng)絡(luò)層數(shù),減少卷積核的大小,借鑒YOLOv3的思想,采用全卷積和LeakReLu激活函數(shù),增強(qiáng)網(wǎng)絡(luò)擬合能力并減少計(jì)算開(kāi)銷(xiāo),實(shí)現(xiàn)高效的艦船識(shí)別。
YOLOv3把一張圖經(jīng)過(guò)一系列卷積或池化計(jì)算后,輸出3個(gè)不同感受野××[+(×5)]的特征圖。為輸出特征圖的長(zhǎng)和寬,為預(yù)測(cè)類(lèi)別數(shù)量,表示網(wǎng)格內(nèi)是屬于哪一類(lèi)物體的置信度,為每個(gè)網(wǎng)格最多預(yù)測(cè)目標(biāo)的個(gè)數(shù)。5表示網(wǎng)格預(yù)測(cè)每個(gè)目標(biāo)的位置信息和位置的置信度的參數(shù)個(gè)數(shù):每個(gè)目標(biāo)的信息應(yīng)該包含目標(biāo)位置的中心坐標(biāo)和目標(biāo)尺寸信息,這里用(,)(、)來(lái)表示,這4個(gè)參數(shù)可以得到一個(gè)框,得到目標(biāo)所在的區(qū)域。在YOLOv3中,目標(biāo)中心位置(,)是相對(duì)于當(dāng)前網(wǎng)格左上角頂點(diǎn)的偏移值,而(、)則是相對(duì)于整幅圖像寬度和高度,都被歸一化到(0,1)區(qū)間。得到3個(gè)特征圖后,再把低分辨率的特征圖采樣到高分辨率的特征圖上,這相當(dāng)于把圖片劃分為了×個(gè)網(wǎng)格,如果目標(biāo)物體的中心落入了某個(gè)網(wǎng)格,則這個(gè)網(wǎng)格就負(fù)責(zé)檢測(cè)該物體。較高分辨率的特征圖用來(lái)檢測(cè)較小分辨率的目標(biāo),較小分辨率的特征圖主要負(fù)責(zé)檢測(cè)較大分辨率的目標(biāo),這大大提高了目標(biāo)檢測(cè)的準(zhǔn)確率,每個(gè)網(wǎng)格還要預(yù)測(cè)目標(biāo)位置信息的置信度(Confidence),即預(yù)測(cè)的框的準(zhǔn)確率通過(guò)公式(1)計(jì)算得到,之后通過(guò)圖像交并比(intersection-over-union, IOU)和非極大值抑制(non-maximum suppression, NMS)來(lái)排除重復(fù)的目標(biāo)。IOU為預(yù)測(cè)區(qū)域與物體真實(shí)區(qū)域(ground truth)的交集與兩者并集之比。Confidence和IOU的計(jì)算公式如下:


式中:(Object)為預(yù)測(cè)邊界框包含目標(biāo)物體的概率,如果目標(biāo)中心落在邊界框之內(nèi),則置信度為1,相反,如果網(wǎng)格中不存在目標(biāo),則(Object)=0;Areatruth為基于訓(xùn)練樣本標(biāo)注的目標(biāo)真實(shí)區(qū)域的面積;Areapred為預(yù)測(cè)的目標(biāo)物體的邊界框的面積。目標(biāo)位置的置信度表示為預(yù)測(cè)目標(biāo)與真實(shí)目標(biāo)的IOU(檢測(cè)框和真實(shí)框的重疊程度)值乘以目標(biāo)概率,最后再對(duì)輸出的目標(biāo)框使用非最大值抑制得到最后的結(jié)果,YOLOv3實(shí)現(xiàn)了端到端的檢測(cè)。YOLOv3算法示意圖如圖1,YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)如圖2。
YOLOv3的檢測(cè)速度在TitanX上圖像輸入分辨率為416×416時(shí)檢測(cè)幀率為35fps,在日常生活應(yīng)用中,達(dá)到了實(shí)時(shí)性要求,但在普通計(jì)算芯片上,遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)速度。在檢測(cè)精度方面,以mAP為評(píng)價(jià)參數(shù),YOLOv3達(dá)到了55.3%,已經(jīng)遠(yuǎn)遠(yuǎn)地高于傳統(tǒng)的算法。
YOLOv3在目標(biāo)檢測(cè)中表現(xiàn)出了非常好的性能,但是,其網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,卷積層數(shù)很深,這樣可以使網(wǎng)絡(luò)擬合能力大大增加,從而可以進(jìn)行多種目標(biāo)的檢測(cè),原作者是在COCO數(shù)據(jù)集上設(shè)計(jì)的基礎(chǔ)網(wǎng)絡(luò),總共需要檢測(cè)91種目標(biāo),計(jì)算開(kāi)銷(xiāo)特別大,特別是在普通CPU上無(wú)法實(shí)現(xiàn)實(shí)時(shí)性,但是在本次實(shí)驗(yàn)中,原則上只需要檢測(cè)艦船這一種目標(biāo),但是為了減少海天線(xiàn)和魚(yú)鱗波帶來(lái)的干擾,我們實(shí)際檢測(cè)了3種目標(biāo),即艦船、海天線(xiàn)、以及魚(yú)鱗波。由于檢測(cè)目標(biāo)種類(lèi)數(shù)變少了,所以網(wǎng)絡(luò)的擬合能力可以不需要那么強(qiáng),本文將對(duì)YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重新設(shè)計(jì),使得在滿(mǎn)足檢測(cè)精度的同時(shí),減少計(jì)算開(kāi)銷(xiāo)。在YOLOv3網(wǎng)絡(luò)中,作者放棄了池化采樣計(jì)算,采用全卷積計(jì)算,在對(duì)特征圖下采樣時(shí)采用了步長(zhǎng)為2的卷積計(jì)算,變成了全卷積網(wǎng)絡(luò)。本文擬借鑒原作者的思想,用全卷積網(wǎng)絡(luò)作為特征提取層,為了減小計(jì)算開(kāi)銷(xiāo),采用小卷積核,在13×13,26×26,52×52三種尺寸的特征圖上做預(yù)測(cè)。對(duì)采集回來(lái)的數(shù)據(jù)作分析,紅外艦船圖像背景相對(duì)比較簡(jiǎn)單,除了海面,天空外,基本只有海天線(xiàn)和魚(yú)鱗波的干擾。在很多情形下,一張圖片上存在多個(gè)艦船目標(biāo)的情況,目標(biāo)大小相差很大而且還存在艦船之間相互遮擋的問(wèn)題。針對(duì)本次數(shù)據(jù)的特性,在數(shù)據(jù)集中特意增加了海天線(xiàn)和魚(yú)鱗波類(lèi)別,增強(qiáng)了該網(wǎng)絡(luò)在魚(yú)鱗波和海天線(xiàn)干擾下的魯棒性,減少了虛警率。改進(jìn)網(wǎng)絡(luò)包括以下幾點(diǎn):

圖1 YOLOv3算法示意圖

圖2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖(特征提取網(wǎng)絡(luò)為Darknet-53)
1)全網(wǎng)絡(luò)激活函數(shù)采用LeakReLU激活函數(shù),其數(shù)學(xué)計(jì)算公式如下:

2)采用全卷積網(wǎng)絡(luò)
本文借鑒了YOLOv3的原理,網(wǎng)絡(luò)結(jié)構(gòu)采用了全卷積和多尺度的思想,下采樣采用控制卷積步長(zhǎng)的方法來(lái)實(shí)現(xiàn),增加了網(wǎng)絡(luò)的擬合能力。
3)重新設(shè)計(jì)一個(gè)卷積網(wǎng)絡(luò),使其在保證精度的情況下減少計(jì)算開(kāi)銷(xiāo),提高檢測(cè)速度。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示:其中Con2_BatNor_LR包含3個(gè)連續(xù)的算法,卷積(Convolutional)、Batch Normalization,Leak ReLU。
①卷積計(jì)算
對(duì)圖像進(jìn)行卷積計(jì)算,提取圖像特征,其中fileter為卷積核的個(gè)數(shù),Size為卷積核的尺寸,Stride為卷積計(jì)算式的步長(zhǎng),如圖3所示,本次采用1×1,2×2,3×3三種不同大小的卷積核,這3種卷積核尺寸都比較小,相比與5×5或7×7的卷積核,可以大大減小計(jì)算量。
②Batch Normalization
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),使用標(biāo)準(zhǔn)化輸入可以提高訓(xùn)練的速度。方法是對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行歸一化的操作,把原來(lái)的數(shù)據(jù)減去其均值后,再除以其方差。這種標(biāo)準(zhǔn)化輸入只是對(duì)輸入進(jìn)行了處理,中間的隱藏層沒(méi)有什么變化。在神經(jīng)網(wǎng)絡(luò)中,第層隱藏層的輸入就是第-1層隱藏層的輸出,如果對(duì)層的輸出進(jìn)行標(biāo)準(zhǔn)化處理,從原理上來(lái)說(shuō)可以提高l和l參數(shù)的訓(xùn)練速度和準(zhǔn)確度。這種對(duì)各隱藏層的標(biāo)準(zhǔn)化處理就是Batch Normalization。其計(jì)算公式如下:z表示層的輸出的第個(gè)參數(shù),是為了防止分母為零,可設(shè)一個(gè)非常小的值,如10-10。Batch Normalization計(jì)算由以下3步完成:
1)計(jì)算輸出層輸出的均值,如式(4):

2)計(jì)算層輸出的方差2¢,如式(5):

3)歸一化輸出,如式(6):

式中:表示層輸出參數(shù)的個(gè)數(shù)。
③Leaky Relu函數(shù)
在早期的神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)多用ReLu函數(shù),ReLu函數(shù)是將所有的負(fù)值都設(shè)為零,然而Leaky ReLu函數(shù)是給所有負(fù)值賦予一個(gè)非零斜率。LeakyReLU函數(shù)在ReLu的基礎(chǔ)上把小于零的數(shù)給一個(gè)很小的乘積因子,在近兩年新提出的網(wǎng)絡(luò)結(jié)構(gòu)中,LeakyRelu被廣泛使用。其計(jì)算表達(dá)式如下:

式中:a是屬于(1,+¥)上的常數(shù)。在輸出的處理中如圖3所示,依然拼接融合了3個(gè)不同尺度的特征層做最后的特征輸出。
此仿真平臺(tái)操作系統(tǒng)為64位的Windows 7,采用了Tensorflow深度學(xué)習(xí)框架搭建的改進(jìn)YOLOv3網(wǎng)絡(luò),硬件方面CPU為Intel Pentium G2030,GPU采用了GeForce GTX 1050。本次實(shí)驗(yàn)中紅外艦船的圖片數(shù)據(jù)共有1330張圖,其中1200張為訓(xùn)練集,130張為驗(yàn)證集。本次采用的損失函數(shù)為YOLOv3原有的損失函數(shù),圖4為訓(xùn)練過(guò)程中的損失下降過(guò)程,圖5為驗(yàn)證集損失曲線(xiàn)圖,可以看到數(shù)據(jù)迭代到3000次左右時(shí)模型趨于穩(wěn)定,驗(yàn)證方式為每訓(xùn)練10次驗(yàn)證一次。

圖3 改進(jìn)YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)圖
注:Type為計(jì)算流程,Con2_BatNor_LR前面有介紹,Size/Stride為卷積核的大小和卷積計(jì)算的步長(zhǎng),卷積步長(zhǎng)為空是為默認(rèn)值1,Output是卷積輸出的Feature Map的尺寸大小。
Note: Type is the computational process. It has been introduced before. Size/Stride is the kernel size of the convolution and step. Default value is 1 if the convolution step is empty. Output is the Feature Map’s size.

圖4 訓(xùn)練損失下降曲線(xiàn)圖

圖5 驗(yàn)證集損失下降曲線(xiàn)圖
本次測(cè)試集總共有130張紅外圖片,包含248個(gè)艦船目標(biāo),還有一段視頻,用于測(cè)試該網(wǎng)絡(luò)的檢測(cè)幀率。如圖6、圖7所示,該網(wǎng)絡(luò)在該平臺(tái)上檢測(cè)視頻的速度高達(dá)18fps,而YOLOv3只有6fps,整整提高了3倍。該網(wǎng)絡(luò)對(duì)于海雜波遮擋和海天線(xiàn)的干擾也有很強(qiáng)的抗干擾性,圖8、圖9、圖10。對(duì)測(cè)試圖片檢測(cè)后部分統(tǒng)計(jì)結(jié)果如表1、表2所示,其中confidence是YOLOv3輸出時(shí)使用非極大值抑制的閾值,Total nums為模型檢測(cè)目標(biāo)的總數(shù),Ground True是測(cè)試數(shù)據(jù)上真實(shí)目標(biāo)總數(shù),True是檢測(cè)目標(biāo)數(shù)和實(shí)際目標(biāo)在能匹配上的數(shù)量,即可以認(rèn)為檢測(cè)出的目標(biāo)是真實(shí)目標(biāo)的數(shù)量。

圖6 改進(jìn)YOLOv3視頻檢測(cè)

圖7 YOLOv3視頻檢測(cè)

圖8 改進(jìn)YOLOv3(左)和YOLOv3(右)對(duì)海雜波的抗干擾

圖9 改進(jìn)YOLOv3(左)和YOLOv3(右)對(duì)遮擋情況下的抗干擾

圖10 改進(jìn)YOLOv3(左)和YOLOv3(右)對(duì)海天線(xiàn)的抗干擾

表1 改進(jìn)YOLOv3在IOU=0.3測(cè)試數(shù)據(jù)
YOLOv3在測(cè)試集的統(tǒng)計(jì)結(jié)果如表3、表4所示。通過(guò)表1,表3對(duì)比,表2和表4的對(duì)比,我們可以看出,改進(jìn)后的YOLOv3和YOLOv3檢測(cè)精度的差距很小,為了更為直觀地表達(dá),我們使用表1和表3,的數(shù)據(jù)繪制了準(zhǔn)確率(Precision)和召回率(Recall)的-曲線(xiàn)(IOU=0.3),如圖11所示。從圖中我們可以看出,改進(jìn)YOLOv3和YOLOv3在檢測(cè)精度上確實(shí)相差很小,大約只有1%的檢測(cè)精度損失。

表2 改進(jìn)YOLOv3在IOU=0.5測(cè)試數(shù)據(jù)

表3 YOLOv3在IOU=0.3測(cè)試數(shù)據(jù)

表4 YOLOv3在IOU=0.5測(cè)試數(shù)據(jù)

圖11 改進(jìn)YOLOv3和YOLOv3的P-R曲線(xiàn)
通過(guò)數(shù)據(jù)可以看出,改進(jìn)YOLOv3的精度和原YOLOv3相差不大,改進(jìn)YOLOv3比YOLOv3精度小于1%,相差不大,但是改進(jìn)YOLOv3在此平臺(tái)上能實(shí)現(xiàn)18fps的速度,而原YOLOv3只有6fps,速度提升了3倍,模型參數(shù)從原YOLOv3的235MB減少到了23.5MB,這對(duì)于模型移植到嵌入式系統(tǒng)或者一個(gè)GPU實(shí)現(xiàn)多路視頻檢測(cè)非常有利。從結(jié)果來(lái)看,改進(jìn)的YOLOv3在紅外艦船目標(biāo)檢測(cè)應(yīng)用中性能有了很大的改善,特別是速度和對(duì)硬件資源的要求方面有了很大的提升,對(duì)于工程化應(yīng)用而言,在大大節(jié)約成本的同時(shí),又可以提供可靠的實(shí)時(shí)性保障。此外,由于紅外艦船圖像數(shù)據(jù)稀缺,用于本文實(shí)驗(yàn)的圖像數(shù)據(jù)總共只有1330張,這對(duì)于深度學(xué)習(xí)而言,實(shí)在是太少了,相信如果有足夠的數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果還會(huì)有所提升。
[1] ZHAN J P, HUANG X J, SHEN Z X, et al. Target tracking method based on mean shift and Kalman filter[J].: Science and Technology, 2010, 24(3):76-80.
[2] 張世博, 李夢(mèng)佳, 李樂(lè), 等. 基于方向梯度直方圖的行人檢測(cè)與跟蹤[J].北京石油化工學(xué)院學(xué)報(bào), 2013, 21(4): 37-40.
ZHANG Shibo, LI Mengjia, LI Le, et al. Human detection and tracking based on HOG descriptor[J]., 2013, 21(4): 37-40.
[3] 張鵬. 基于卷積神經(jīng)網(wǎng)絡(luò)的光學(xué)遙感圖像中機(jī)場(chǎng)目標(biāo)識(shí)別研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2016.
ZHANG Peng. Airport Detection in Optical Remote Sensing Images with Convolution Neural Network[D]. Changsha: National University of Defense Technology, 2016.
[4] Girshick R. Fast R-CNN[C]//, 2015: 1440-1448.
[5] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//s, 2015: 91-99.
[6] 戴陳卡, 李毅. 基于Faster RCNN 以及多部件結(jié)合的機(jī)場(chǎng)場(chǎng)面靜態(tài)飛機(jī)檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(s2): 85-88.
DAI C K, LI Y. Aeroplane detection in static aerodrome based on faster RCNN and multi- part model[J]., 2017, 37(s2): 85-88.
[7] REN S, HE K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]., 2017, 39(6): 1137-1149.
[8] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real- time object detection[C]//, 2015: 779-788.
[9] LIU W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//, Springer International Publishing, 2016: 21-37.
[10] CAO Shuo, ZHAO Dean, LIU Xiaoyang, et al. Real-time robust detector for underwater live crabs based on deep learning[J]., 2020: 172.
[11] Redmon J, Farhadi, A. YOLOv3: an incremental improvement[Z/ OL][2018-04]. https://www.researchgate.net/publication/324387691_ YOLOv3_ An_Incremental_Improvement.
[12] ZHANG Xiang, YANG Wei, TANG Xiaolin, et al. A fast learning method for accurate and robust lane detection using two-stage feature extraction with YOLOv3[J]., 2018, 18(12): 4308.
Target Recognition of Infrared Ship Based on Deep Learning
YANG Tao,DAI Jun,WU Zhongjian,JIN Daizhong,ZHOU Guojia
(,610041,)
In this study, the You Only Look Once Version 3 (YOLOv3) target recognition algorithm in deep learning technology is used to identify the ship in an infrared image collected using an infrared imager from the sea surface. The infrared imager captures images at a frequency of up to 50 frames per second. To reduce network computing time, a few ideas are generated based on YOLOv3; additionally, a full convolution structure and the LeakReLU activation function are used to redesign a lightweight basic network to accelerate detection. The output layer uses the softmax algorithm to regress according to the characteristics of the collected infrared images, which improves the detection speed and accounts for detection accuracy.
infrared image, target recognition, deep learning, YOLOv3
TN957.52,TP18
A
1001-8891(2020)05-0426-08
2019-06-18;
2019-07-22.
楊濤(1992-),男,碩士研究生,主要從事目標(biāo)檢測(cè)、深度學(xué)習(xí)方面的研究。E-mail:304778654@qq.com。
吳鐘建(1967-),碩士,副研究員,碩士導(dǎo)師,主要從事目標(biāo)跟蹤、目標(biāo)檢測(cè)等方面的研究。E-mail:wjz209@126.com。