柳碧輝,王培元
(海軍航空大學(xué) 戰(zhàn)勤學(xué)院,山東 煙臺(tái) 264001)
海戰(zhàn)場(chǎng)作為未來(lái)智能化戰(zhàn)爭(zhēng)的重要作戰(zhàn)區(qū)域之一,其態(tài)勢(shì)瞬息萬(wàn)變。艦船目標(biāo)是海上監(jiān)測(cè)和戰(zhàn)時(shí)打擊的重要目標(biāo),因此能否快速準(zhǔn)確識(shí)別海戰(zhàn)場(chǎng)中非合作艦船目標(biāo)的戰(zhàn)術(shù)意圖、為戰(zhàn)時(shí)指揮員提供相應(yīng)決策支持,極大程度上關(guān)系到戰(zhàn)爭(zhēng)的成敗。對(duì)不同類型的艦船目標(biāo)在實(shí)施打擊時(shí)的方式是不同的,只有準(zhǔn)確識(shí)別出非合作艦船目標(biāo),才能對(duì)其實(shí)施精確打擊任務(wù),因此對(duì)海上非合作艦船目標(biāo)的識(shí)別是關(guān)鍵問(wèn)題。
由于艦船三維模型相比于二維圖像,不僅能表征出艦船的體空間信息、物體細(xì)節(jié),全面體現(xiàn)出客觀事實(shí),因此基于三維艦船目標(biāo)的目標(biāo)識(shí)別方面的研究也越來(lái)越多。例如,文獻(xiàn)[1]提出一種基于自適應(yīng)閾值的區(qū)域生長(zhǎng)和形態(tài)學(xué)濾波相結(jié)合的紅外艦船目標(biāo)分割算法,運(yùn)用幾何學(xué)的圖像處理方法,從圖像中去除相應(yīng)的背景干擾,從而提取出目標(biāo)的有效信息;文獻(xiàn)[2]基于射線追蹤法進(jìn)行SAR艦船目標(biāo)運(yùn)動(dòng)狀態(tài)的仿真,從而獲得不同運(yùn)動(dòng)狀態(tài)下的艦船目標(biāo)圖像,但能量損失造成目標(biāo)識(shí)別率下降。文獻(xiàn)[3-6]論述了深度神經(jīng)網(wǎng)絡(luò)在艦船檢測(cè)方面的優(yōu)勢(shì),深度學(xué)習(xí)方法在艦船目標(biāo)檢測(cè)上展現(xiàn)出了良好的檢測(cè)性能[7],同時(shí)也出現(xiàn)了問(wèn)題,例如,王冰提出利用深度殘差網(wǎng)絡(luò)結(jié)合超像素方法對(duì)目標(biāo)進(jìn)行分割來(lái)識(shí)別艦船目標(biāo)[3],但在實(shí)驗(yàn)中訓(xùn)練樣本不純,包含太多背景信息,影響了檢測(cè)精度。
在艦船目標(biāo)識(shí)別中一般獲取的艦船圖像為二維圖像,圖像分辨率差、缺少艦船深度信息及空間特征,而且艦船目標(biāo)形狀一般為長(zhǎng)條狀,尤其是駐泊在港口時(shí)一般為多艘艦船緊密排列。利用原始MASK R-CNN對(duì)排列緊密的艦船進(jìn)行目標(biāo)識(shí)別時(shí),由于缺乏對(duì)目標(biāo)的輪廓描述和像素描述,造成很多具有局部特征的非目標(biāo)艦船被檢測(cè)為目標(biāo),使得檢測(cè)框重疊度較高,導(dǎo)致檢測(cè)框被誤刪,從而產(chǎn)生誤檢問(wèn)題[8],這給艦船目標(biāo)識(shí)別算法帶來(lái)了困難。當(dāng)前主流的目標(biāo)識(shí)別算法一般為選取候選方框,并對(duì)候選框內(nèi)的目標(biāo)進(jìn)行分類,從而實(shí)現(xiàn)目標(biāo)的檢測(cè)識(shí)別。
在此背景下,本文設(shè)計(jì)使用具有分割功能的MASK R-CNN[9]來(lái)對(duì)非合作艦船目標(biāo)進(jìn)行三維目標(biāo)識(shí)別。對(duì)獲取的非合作目標(biāo)的可見光圖像運(yùn)用三維重建方法獲得三維模型,對(duì)其進(jìn)行顯著性區(qū)域提取,利用Resnet101[10]為基準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)的MASK R-CNN網(wǎng)絡(luò),改進(jìn)RPN卷積層,并且增加RoIAlign使得特征圖與原圖像像素完全對(duì)齊,采取極大值抑制方法進(jìn)行非合作艦船目標(biāo)三維目標(biāo)識(shí)別。相比于原始MASK R-CNN方法,本文提出的方法在識(shí)別的準(zhǔn)確率上提高了14.8%,能夠有效減少誤檢情況,實(shí)現(xiàn)對(duì)目標(biāo)的智能化處理,完成對(duì)目標(biāo)的精確檢測(cè)和提取,并且實(shí)現(xiàn)任意角度的目標(biāo)識(shí)別,可為今后研發(fā)具備智能視覺(jué)的目標(biāo)識(shí)別提供技術(shù)支撐。
原始MASK R-CNN結(jié)構(gòu)是對(duì)原有的Faster R-CNN[11]進(jìn)行擴(kuò)展,添加一個(gè)掩模分支,作用于每個(gè)感興趣區(qū)域(RoI)的小全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[12],以像素到像素再到方式預(yù)測(cè)分割掩模,從而實(shí)現(xiàn)目標(biāo)的識(shí)別與分割。其網(wǎng)絡(luò)基本結(jié)構(gòu)如圖1所示,相比于Faster R-CNN,該網(wǎng)絡(luò)結(jié)構(gòu)比較容易實(shí)現(xiàn)和訓(xùn)練,可以提取出目標(biāo)更精細(xì)的特征空間分布,速度也比較快,有效實(shí)現(xiàn)了多任務(wù)輸出。

圖1 原始MASK R-CNN結(jié)構(gòu)圖Fig.1 Structure of the original MASK R-CNN
本文改進(jìn)的MASK R-CNN算法,如圖2所示。

圖2 本文改進(jìn)MASK R-CNN結(jié)構(gòu)圖Fig.2 Structure of the improved MASK R-CNN in this paper
本文將改進(jìn)的ResNet101網(wǎng)絡(luò)作為MASK R-CNN的骨干網(wǎng)絡(luò)結(jié)構(gòu),在ResNet101網(wǎng)絡(luò)的第5層卷積層后加入再增加一層卷積層,使用步長(zhǎng)為1的卷積核輸出為2 048維特征,分別用于分類和框回歸,其主要作用是用來(lái)提取圖像特征;引入RoIAlign使用線性插值算法代替原有網(wǎng)絡(luò)中的RoIAlign,使得原圖中的像素和特征圖中的像素沒(méi)有偏差,提高了目標(biāo)識(shí)別的精度。創(chuàng)新使用端到端的FCN作為骨干網(wǎng)絡(luò)結(jié)構(gòu)的拓展,采用先下采樣再上采樣,將從Resnet101提取到的高層和底層特征的相應(yīng)尺寸的高級(jí)特征融合起來(lái),可以減少圖像特征信息丟失,降低目標(biāo)識(shí)別中的誤檢,使網(wǎng)絡(luò)能夠?qū)Σ煌叽绲膱D像進(jìn)行詳細(xì)描述。
將MASK R-CNN分解為Faster-rcnn、RoIAlign和FCN三個(gè)模塊,接下來(lái)分別對(duì)這3個(gè)模塊進(jìn)行講解,這也是該算法的核心。
基于區(qū)域建議方法的R-CNN識(shí)別模型是深度學(xué)習(xí)在目標(biāo)識(shí)別領(lǐng)域的重要發(fā)展[13]。R-CNN突破性地解決了傳統(tǒng)方法對(duì)目標(biāo)進(jìn)行特征選擇的問(wèn)題,在此基礎(chǔ)上Faster R-CNN[14]創(chuàng)新性地改善了選擇性搜索方法,引入?yún)^(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN),利用CNN卷積操作后,特征圖以一組矩形生成區(qū)域提議(Region Proposals),并且每一個(gè)提議都會(huì)有相應(yīng)的目標(biāo)得分。其替代了選擇性搜索等方法,明顯提升了識(shí)別速度,是Faster-RCNN的核心組成網(wǎng)絡(luò),真正意義上實(shí)現(xiàn)了端到端的目標(biāo)識(shí)別,從目標(biāo)識(shí)別算法的功能上看,F(xiàn)aster R-CNN是由RPN候選區(qū)域框生成模塊與Fast R-CNN識(shí)別模塊兩部分組成,如圖3所示。

圖3 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Faster R-CNN network structure
本文利用ResNet101網(wǎng)絡(luò)模型為骨干結(jié)構(gòu),結(jié)構(gòu)如圖4所示。ResNet101網(wǎng)絡(luò)由輸入圖片、conv1、conv2_x、conv3_x、conv4_x和conv5_x組成,該模型由ImageNet分類模型初始化。在conv2_x、conv3_x、conv4_x和conv5_x每層使用3個(gè)殘差塊。在conv4_x最后的輸出為RPN和RoI Pooling共享的部分,然后將RPN的輸出一起作用于RoI Pooling之后的特征圖,作為conv5_x的輸入,conv5_x后加入一層卷積層,對(duì)conv5_x的輸出進(jìn)行線性形變,使用2 048個(gè)1×1,步長(zhǎng)為1的卷積核輸出為2 048維特征,這也是與原始ResNet101網(wǎng)絡(luò)不同的地方,改進(jìn)此網(wǎng)絡(luò)將更好用于對(duì)分類和框回歸。

圖4 ResNet101網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 ResNet101 network structure
為了提高卷積網(wǎng)絡(luò)的訓(xùn)練率和提高網(wǎng)絡(luò)學(xué)習(xí)效率,本文采用4步交替優(yōu)化學(xué)習(xí)共享特征的方法來(lái)訓(xùn)練由RPN和Fast R-CNN[15]組成的具有共享卷積層的統(tǒng)一網(wǎng)絡(luò),如圖5所示。

圖5 Faster R-CNN目標(biāo)識(shí)別網(wǎng)絡(luò)Fig.5 Faster R-CNN target recognition network
第1步:單獨(dú)訓(xùn)練RPN網(wǎng)絡(luò),使用ImageNet的預(yù)訓(xùn)練模型對(duì)該網(wǎng)絡(luò)進(jìn)行初始化,并針對(duì)區(qū)域提議任務(wù)進(jìn)行了端到端的微調(diào)。
第2步:單獨(dú)訓(xùn)練Fast R-CNN網(wǎng)絡(luò),將第1步RPN生成的提議作為識(shí)別網(wǎng)絡(luò)的輸入。該識(shí)別網(wǎng)絡(luò)也由ImageNet的預(yù)訓(xùn)練模型進(jìn)行初始化。此時(shí)兩個(gè)網(wǎng)絡(luò)不共享卷積層。
第3步:又一次訓(xùn)練RPN,固定網(wǎng)絡(luò)公共部分的參數(shù),并且只對(duì)RPN特有的層進(jìn)行微調(diào)。現(xiàn)在這兩個(gè)網(wǎng)絡(luò)共享卷積層。
第4步:保持共享卷積層的固定,對(duì)Fast R-CNN網(wǎng)絡(luò)進(jìn)行微調(diào)。因此,兩個(gè)網(wǎng)絡(luò)共享相同的卷積層形成統(tǒng)一的網(wǎng)絡(luò)。至此網(wǎng)絡(luò)訓(xùn)練結(jié)束,類似的交替訓(xùn)練可以運(yùn)行更多的迭代[16]。
本文MASK R-CNN選用RoIAlign代替RoI Pooling,主要原因是RoI Pooling使用了兩次量化操作。RoIAlign沒(méi)有采用量化操作,而是使用了線性插值算法,沒(méi)有引入誤差,即原圖中的像素和特征圖中的像素是完全對(duì)齊的,沒(méi)有偏差,這大大提高了目標(biāo)識(shí)別的精度。
假設(shè)最接近實(shí)際目標(biāo)的4個(gè)像素點(diǎn)為(x1,y1),(x1,y2),(x2,y1),(x2,y2),通過(guò)4個(gè)點(diǎn)預(yù)測(cè)的位置為(x,y),則得到x方向上的線性插值如式(1)所示。
(1)
與式(1)同理,得到y(tǒng)方向上的線性插值如式(2)所示。
(2)
將式(1)和式(2)合并,得到校正后的特征點(diǎn)位置,如式(3)所示。
(3)
FCN算法是一個(gè)經(jīng)典的語(yǔ)義分割算法,可以對(duì)圖片中的目標(biāo)進(jìn)行準(zhǔn)確的分割。其總體架構(gòu)如圖6所示,圖中數(shù)字為卷積核通道數(shù)。它是一個(gè)端到端的網(wǎng)絡(luò),主要的模塊包括卷積和去卷積,即先對(duì)圖像進(jìn)行卷積和池化,使其特征圖的大小不斷減小;然后進(jìn)行反卷積操作,即進(jìn)行插值操作,不斷增大其特征圖,最后對(duì)每一個(gè)像素值進(jìn)行分類,在此網(wǎng)絡(luò)上使用FCN可以有效實(shí)現(xiàn)對(duì)輸入圖像的準(zhǔn)確分割。

圖6 FCN架構(gòu)圖Fig.6 FCN architecture diagram
這也是MASK R-CNN所特有的,在經(jīng)過(guò)區(qū)域建議網(wǎng)絡(luò)(RPN)后,進(jìn)入與Faster R-CNN網(wǎng)絡(luò)相同的網(wǎng)絡(luò)結(jié)構(gòu),為每個(gè)預(yù)測(cè)并行提供的一個(gè)二進(jìn)制掩碼,這是輸出目標(biāo)掩模的第3條分支,用來(lái)描述目標(biāo)邊緣和內(nèi)部像素的分割結(jié)果。其實(shí)現(xiàn)方法是采用FCN從每一個(gè)RoI預(yù)測(cè)一個(gè)m×m的掩膜。允許掩膜分支的每一個(gè)卷積層都保持m×m的空間布局,而不會(huì)將其縮小到缺乏空間維度的向量表示。
目前,世界范圍沒(méi)有公開的關(guān)于真實(shí)海面場(chǎng)景下的艦船三維實(shí)景目標(biāo)識(shí)別數(shù)據(jù)集,無(wú)法在統(tǒng)一平臺(tái)上比較艦船目標(biāo)三維識(shí)別各方法的性能,給出定量精度指標(biāo)。故文中自建了一艘艦船的數(shù)據(jù)集。使用無(wú)人機(jī)對(duì)艦船進(jìn)行360°實(shí)景航拍,利用photoscan軟件重建三維模型,經(jīng)過(guò)對(duì)齊照片、形成點(diǎn)云以及形成紋理等步驟做出該艦船的三維實(shí)景立體模型,如圖7所示。

圖7 艦船三維模型Fig.7 Three-dimensional model of the ship
實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)集分別來(lái)自三維網(wǎng)格模型、三維點(diǎn)云模型、三維紋理模型、艦船紅外圖片以及艦船的航拍圖片等5種數(shù)據(jù)集。訓(xùn)練集樣本已被調(diào)整為406×720像素,以方便查看。這些訓(xùn)練數(shù)據(jù)集體現(xiàn)了艦船的各個(gè)角度,且具有顯示清晰、背景簡(jiǎn)單等特征,此外還專門采集了背景冗雜、艦船特征部位較相近的干擾圖像,人為增加了數(shù)據(jù)集圖片,以驗(yàn)證本文方法的有效性和魯棒性。為了進(jìn)行評(píng)估,數(shù)據(jù)集被隨機(jī)分為70%用于訓(xùn)練和30%用于測(cè)試。圖8為部分訓(xùn)練數(shù)據(jù)集圖像示例,圖9為部分測(cè)試圖像。

(a) 三維紋理模型訓(xùn)練集示例圖

(a) 紅外測(cè)試圖像
由于三維模型是立體的,可以比較真實(shí)地還原物體特征,所以對(duì)細(xì)節(jié)采集讀取很是關(guān)鍵。原始的RPN網(wǎng)絡(luò)中只有一種3×3的滑動(dòng)窗口,通過(guò)一種感受野是不夠的,其限制了模型目標(biāo)識(shí)別能力,但也會(huì)帶來(lái)更多的參量。本文在原始的RPN網(wǎng)絡(luò)采用兩個(gè)連續(xù)的3×3與5×5的卷積層來(lái)代替單個(gè)的3×3。3×3與5×5級(jí)聯(lián)的卷積層參數(shù)個(gè)數(shù)為36,原有的參數(shù)個(gè)數(shù)為10。計(jì)算量做對(duì)比:輸入記為x,為了方便討論假設(shè)padding=0,stride=1。利用卷積計(jì)算公式可得如表1所示。

表1 計(jì)算過(guò)程
總體而言,雖然參量變多了,但是采用兩個(gè)卷積核級(jí)聯(lián)的方式在計(jì)算量上占有優(yōu)勢(shì)識(shí)別性能優(yōu)于單個(gè)滑動(dòng)窗口的性能,感受野范圍也得到了提高,可以較為全面細(xì)致的識(shí)別出三維圖形的艦船目標(biāo)。
在訓(xùn)練中,將每個(gè)采樣后RoI的多任務(wù)損失函數(shù)定義為:
L=Lcls+Lbox+Lmask,
(4)
式中,Lcls為分類損失函數(shù),用來(lái)區(qū)分圖像中存在的各個(gè)類別和背景。
(5)

Lbox為檢測(cè)框回歸函數(shù),主要用來(lái)修正前景的錨點(diǎn)坐標(biāo),從而得到最佳的檢測(cè)框。
(6)
(7)

測(cè)試結(jié)果:安裝螺絲總個(gè)數(shù)為2 778,其中未成功安裝數(shù)為22個(gè)(滑絲或未安裝到位等),總體安裝成功率為99.2%。由式(2)計(jì)算可知本螺絲機(jī)的效率達(dá)到92.3%,這充分驗(yàn)證了螺絲機(jī)的系統(tǒng)穩(wěn)定性,基本滿足了設(shè)計(jì)初衷和實(shí)際生產(chǎn)需求。此外,螺絲機(jī)在連續(xù)運(yùn)行情況下,每分鐘安裝螺絲數(shù)量在9~10只左右,這基本和一名熟練工人的效率相當(dāng),但是采用螺絲機(jī)后可大大減少勞動(dòng)力使用,節(jié)約成本,因此,在一些大量需要螺絲安裝的企業(yè)崗位上,自動(dòng)螺絲機(jī)的推廣應(yīng)用價(jià)值很高。
(8)
Lmask為平均二進(jìn)制交叉熵?fù)p失,使用Sigmoid函數(shù)對(duì)每個(gè)像素進(jìn)行特征映射,為不同類別的RoI提供獨(dú)立的掩碼預(yù)測(cè),有效降低了不同類別掩膜間的干擾,同時(shí)也對(duì)分類和語(yǔ)義分割任務(wù)進(jìn)行了解耦。
本文實(shí)驗(yàn)硬件環(huán)境為:Intel Core i5 CPU、NVIDIA GeForce GTX 1650顯卡和8G內(nèi)存。
步驟1:利用三維重建軟件生成艦船的三維模型,選其各視角圖像,輸入進(jìn)一個(gè)預(yù)訓(xùn)練好的ResNet101網(wǎng)絡(luò)中;
步驟2:獲得對(duì)應(yīng)的特征圖,對(duì)每一個(gè)特征圖進(jìn)行RoI設(shè)定,得到多個(gè)候選RoI;
步驟3:RPN中的區(qū)域建議窗口分別采用3種尺度比例(1:1,1:2,2:1)和3個(gè)長(zhǎng)寬比(128×128,256×256,512×512)條件進(jìn)行設(shè)置,產(chǎn)生9種候選框,將上一步得到的RoI送入RPN網(wǎng)絡(luò)進(jìn)行分類和回歸,過(guò)濾到冗余邊框。
步驟4:分別對(duì)剩下的RoI進(jìn)行RoAlign操作(即先將原圖和特征圖的像素對(duì)應(yīng)起來(lái),然后將特征圖和固定的特征應(yīng)起來(lái));
步驟5:使用IoU閾值固定為0.5的非極大值抑制[15]方法對(duì)這些ROI進(jìn)行分類、回歸和MASK生成(在每一個(gè)ROI里面執(zhí)行FCN操作)。
本文在驗(yàn)證實(shí)驗(yàn)中采用了相同的測(cè)試集圖片,分別在原始MASK R-CNN和基于本文改進(jìn)的MASK R-CNN下進(jìn)行了學(xué)習(xí)訓(xùn)練,其結(jié)果如圖10~圖12所示。

(a) 本文改進(jìn)MASK R-CNN方法測(cè)試結(jié)果

(a) 本文改進(jìn)MASK R-CNN方法測(cè)試結(jié)果

(a) 本文改進(jìn)MASK R-CNN方法測(cè)試結(jié)果
由于MASK R-CNN只能對(duì)訓(xùn)練數(shù)據(jù)中的艦船類型進(jìn)行訓(xùn)練識(shí)別,對(duì)于其他類型船只無(wú)法進(jìn)行識(shí)別,所以測(cè)試結(jié)果只包含對(duì)該艦船的識(shí)別結(jié)果。兩種算法都可以準(zhǔn)確識(shí)別出艦船目標(biāo)。
但在圖12(b)中,除了正確識(shí)別出了目標(biāo)艦船,還誤識(shí)別了黃色框中與目標(biāo)艦船外形相似的艦船。原算法出現(xiàn)誤識(shí)別的原因是原始MASK R-CNN算法中缺乏對(duì)目標(biāo)的輪廓描述,以及特征像素與原圖像像素使用了多次量化操作導(dǎo)致二者無(wú)法對(duì)齊,造成具有局部特征的非目標(biāo)艦船被檢測(cè)為目標(biāo),文獻(xiàn)[8]對(duì)其原理進(jìn)行了詳細(xì)的描述,而本文所提方法在艦船目標(biāo)輪廓描述以及對(duì)齊原圖像像素與特征像素之間,利用FCN以及選用RoIAlign代替RoI Pooling進(jìn)行了優(yōu)化。這表明,相對(duì)于原始MASK R-CNN,本文所提算法在降低誤檢、提高識(shí)別的準(zhǔn)確率方面顯示了更好的性能效果。
文獻(xiàn)[17]利用準(zhǔn)確率對(duì)算法進(jìn)行了衡量,在目標(biāo)識(shí)別中準(zhǔn)確率可由識(shí)別準(zhǔn)確目標(biāo)數(shù)目占測(cè)試樣本總體目標(biāo)數(shù)目的百分比來(lái)得出。本文根據(jù)準(zhǔn)確識(shí)別出測(cè)試數(shù)據(jù)集中艦船目標(biāo)數(shù)量的百分比作為其各自的識(shí)別準(zhǔn)確率,結(jié)果如表2所示。

表2 兩種方法準(zhǔn)確率
由表2可知,基于本文改進(jìn)的MASK R-CNN方法比原始方法在三維艦船目標(biāo)識(shí)別上識(shí)別準(zhǔn)確率提高了14.8%,而且基于原始MASK R-CNN網(wǎng)絡(luò)方法對(duì)艦船目標(biāo)識(shí)別存在著艦船船體識(shí)別不完整、誤檢、識(shí)別精確率較低等問(wèn)題。本文改進(jìn)的MASK R-CNN算法相對(duì)于原始MASK R-CNN網(wǎng)絡(luò)設(shè)置了合適的RPN網(wǎng)絡(luò)結(jié)構(gòu),采用ResNET101網(wǎng)絡(luò),能夠完整地框選出艦船目標(biāo),而原始方法只能識(shí)別出艦船目標(biāo)的要害部位,所以本文方法可以對(duì)艦船等目標(biāo)可以進(jìn)行有效識(shí)別,在目標(biāo)檢測(cè)準(zhǔn)確率方面,獲得了較好的效果。
本文針對(duì)艦船二維圖像分辨率差、缺少艦船深度信息及空間特征,且艦船緊密排列識(shí)別困難的問(wèn)題,采用基于MASK R-CNN的模型方法,在目標(biāo)區(qū)域方框和類別預(yù)測(cè)的基礎(chǔ)上,合理使用了三維重建軟件重建三維模型;為了改善感受野獲取信息有限問(wèn)題,在原始的RPN網(wǎng)絡(luò)中選取級(jí)聯(lián)的方法增加滑動(dòng)窗口數(shù)量,提高了模型信息攝取范圍來(lái)進(jìn)一步提高訓(xùn)練過(guò)程中的艦船目標(biāo)識(shí)別性能;同時(shí)增加掩膜分支,在描述艦船目標(biāo)特征的同時(shí),增加對(duì)其輪廓邊緣的限制,取得了較好的檢測(cè)效果;最后結(jié)合非極大值抑制的方法對(duì)冗余框進(jìn)行過(guò)濾去除,實(shí)現(xiàn)對(duì)三維艦船實(shí)景目標(biāo)的識(shí)別。為了驗(yàn)證所提算法的有效性,本文進(jìn)行了充分的實(shí)驗(yàn),使用艦船的3種目標(biāo)信息來(lái)源作為數(shù)據(jù)集分別經(jīng)過(guò)MASK R-CNN方法和改進(jìn)的MASK R-CNN方法進(jìn)行了訓(xùn)練,使用實(shí)景圖片、紅外圖像以及網(wǎng)絡(luò)艦船目標(biāo)圖像為測(cè)試集進(jìn)行測(cè)試,對(duì)艦船目標(biāo)識(shí)別任務(wù)上的性能進(jìn)行了全面分析,實(shí)驗(yàn)結(jié)果表明了本文利用改進(jìn)后的MASK R-CNN算法對(duì)三維實(shí)景模型目標(biāo)識(shí)別的優(yōu)越性與準(zhǔn)確性。