融合檢測與跟蹤的半自動視頻目標(biāo)標(biāo)注

2021-07-28 12:37:06陳慶林宋忠浩聶圣東

計算機工程與應(yīng)用 2021年14期

關(guān)鍵詞：特征檢測

陳慶林，谷雨，宋忠浩，聶圣東

杭州電子科技大學(xué) 自動化學(xué)院，杭州310018

近年來，深度學(xué)習(xí)技術(shù)發(fā)展迅速，由于深度學(xué)習(xí)技術(shù)需要大數(shù)據(jù)的支撐，獲取大量具有樣本多樣性的帶標(biāo)簽訓(xùn)練數(shù)據(jù)集是深度學(xué)習(xí)技術(shù)取得優(yōu)異性能的關(guān)鍵。

圖像訓(xùn)練數(shù)據(jù)集主要通過圖像標(biāo)注等方法獲得，標(biāo)注任務(wù)就是在圖片中標(biāo)出感興趣目標(biāo)的位置區(qū)域和所屬的類別，分為手動標(biāo)注和自動標(biāo)注兩類[1]。傳統(tǒng)的手動標(biāo)注每次只能對單張圖像中的目標(biāo)位置和標(biāo)簽進行標(biāo)注，效率較低[2]。若采用類似ImageNet[3]數(shù)據(jù)集眾包的方式，成本較大，標(biāo)注的質(zhì)量還可能參差不齊，最終影響訓(xùn)練模型的性能。

隨著我國艦船裝備的快速發(fā)展，海上艦船檢測與跟蹤具有重要的軍事戰(zhàn)略意義，多種基于深度學(xué)習(xí)的海上艦船目標(biāo)檢測算法[4-6]被相繼提出。由于深度學(xué)習(xí)技術(shù)需要大數(shù)據(jù)的支撐，因此從大量的艦船視頻中獲取訓(xùn)練數(shù)據(jù)對提升艦船檢測算法的性能具有重要意義。與飛機和艦船的單張遙感圖像或SAR 圖像不同，視頻中有大量連續(xù)的圖像幀，目標(biāo)信息具有冗余性，采用人工標(biāo)注的方式耗時耗力，可以利用視頻中的目標(biāo)具有時空連續(xù)性的特點，設(shè)計自動標(biāo)注的方法。

在視頻目標(biāo)自動標(biāo)注技術(shù)中，需要解決的問題有：（1）快速準(zhǔn)確地連續(xù)定位待標(biāo)注目標(biāo)的位置區(qū)域。（2）為了減少人工參與，提高標(biāo)注效率，還需要自動判斷待標(biāo)注目標(biāo)從視野中消失從而停止標(biāo)注。（3）自動地從大量冗余的視頻幀中提取出少量合適的關(guān)鍵幀，并保證生成數(shù)據(jù)集的樣本多樣性。

文獻[7]提出一種視頻標(biāo)注方法，先對不相鄰的兩個視頻幀中的運動目標(biāo)進行標(biāo)注，利用運動目標(biāo)在視頻中的連續(xù)性特點，通過插值法計算得到目標(biāo)的標(biāo)注信息。文獻[8]提出一種基于目標(biāo)跟蹤的半自動圖像標(biāo)注樣本生成方法，通過目標(biāo)跟蹤算法生成一系列標(biāo)注樣本，最后通過人工標(biāo)注來輔助確認(rèn)，生成標(biāo)注樣本，但該方法在自動標(biāo)注的過程中會發(fā)生跟蹤漂移的現(xiàn)象。文獻[9]提出一種基于運動匹配的視頻自動標(biāo)注方法及自動標(biāo)注系統(tǒng)，該系統(tǒng)根據(jù)目標(biāo)運動特征和傳感器運動特征的匹配結(jié)果進行視頻目標(biāo)標(biāo)注，但該方法標(biāo)注不夠精確，且會標(biāo)注出非目標(biāo)的運動物體。

當(dāng)前，目標(biāo)檢測算法和目標(biāo)跟蹤算法層出不窮，但是融合兩種算法用于視頻目標(biāo)標(biāo)注的工作較少，實時的目標(biāo)檢測算法可以快速準(zhǔn)確地確定待標(biāo)注目標(biāo)的位置區(qū)域并修正跟蹤算法的跟蹤漂移；跟蹤算法具有時空連續(xù)性的特點，可以解決檢測漏檢的問題并保持標(biāo)注目標(biāo)身份一致。

深度學(xué)習(xí)發(fā)展極大地提升了目標(biāo)檢測的精度。RCNN（Region Convolutional Neural Networks）[10]目標(biāo)檢測算法結(jié)合選擇性搜索算法、卷積神經(jīng)網(wǎng)絡(luò)和支持向量機等方法，較當(dāng)時最好檢測結(jié)果有30%的提升。Fast-RCNN[11]對原結(jié)構(gòu)進行改進，將特征提取和分類合并到同一個神經(jīng)網(wǎng)絡(luò)。Faster-RCNN[12]提出區(qū)域建議網(wǎng)絡(luò)（Region Proposal Network，RPN）產(chǎn)生建議窗口，卷積網(wǎng)絡(luò)和Fast-RCNN部分共享，實現(xiàn)了端到端的訓(xùn)練和檢測。SSD（Single Shot MultiBox Detector）[13]和YOLO（You Only Look Once）[14]系列等單階段檢測算法將檢測問題看做回歸問題，實時性有了較大提升，但SSD 檢測算法不適用于檢測小目標(biāo)，YOLO v3[15]檢測算法借鑒殘差網(wǎng)絡(luò)思想并采用多尺度特征，是速度和精度較好的目標(biāo)檢測算法。

目標(biāo)跟蹤算法利用時空連續(xù)性對目標(biāo)狀態(tài)進行估計。KCF（Kernelized Correlation Filters）[16]跟蹤算法在MOSSE（Minimum Output Sum of Squared Error）[17]跟蹤算法的基礎(chǔ)上使用HOG（Histogram of Gradient）[18]擴展了多通道特征，并把特征映射到高維空間，提高了跟蹤算法精度，但算法不能適應(yīng)目標(biāo)尺度變化。HCF（Hierarchical Convolutional Features）[19]跟蹤算法使用深度特征代替?zhèn)鹘y(tǒng)的手工特征，提升了跟蹤魯棒性，但跟蹤速度較慢。SiamFC（Siamese Fully-Convolutional）[20]使用孿生神經(jīng)網(wǎng)絡(luò)提取目標(biāo)區(qū)域和搜索區(qū)域的深度特征，通過計算相似度的方法跟蹤目標(biāo)。SiamRPN（Siamese Region Proposal Network）[21]提出了孿生網(wǎng)絡(luò)與RPN網(wǎng)絡(luò)相結(jié)合的方法，實現(xiàn)多長寬比尺度的目標(biāo)跟蹤。SiamMask（Siamese Mask）[22]在網(wǎng)絡(luò)上增加Mask損失分支，在目標(biāo)跟蹤的同時實現(xiàn)目標(biāo)的分割。基于孿生網(wǎng)絡(luò)的跟蹤算法對于外觀相似的物體缺少判別性，在應(yīng)用于海上艦船等視頻中目標(biāo)外觀相似的場景時，跟蹤算法極易跟蹤到錯誤的目標(biāo)上。

關(guān)鍵幀是視頻中具有代表性的圖像幀，能夠起到信息壓縮的作用。文獻[23]提出了基于相關(guān)系數(shù)的關(guān)鍵幀提取算法，但算法中閾值不能自動選取。文獻[24]提出了一種在鏡頭邊界檢測之后再進行視頻幀聚類的方法來提取關(guān)鍵幀。文獻[25]提出了一種多特征融合，在目標(biāo)顯著值最大值處提取關(guān)鍵幀的方法。基于聚類的關(guān)鍵幀提取方法僅考慮視頻幀的整體變化信息，沒有考慮視頻中目標(biāo)豐富的變化信息，因此基于目標(biāo)顯著性的關(guān)鍵幀提取方法更適用于建立目標(biāo)檢測數(shù)據(jù)集。

針對視頻圖像連續(xù)幀間的目標(biāo)具有冗余性，采用手動標(biāo)注方式耗時耗力的問題，本文的主要工作包括以下三個方面：（1）提出一種融合檢測和跟蹤算法的半自動標(biāo)注框架，僅需第一幀手動標(biāo)注出目標(biāo)位置區(qū)域和類別，后續(xù)幀融合檢測和跟蹤算法實現(xiàn)自動標(biāo)注并在目標(biāo)消失后自動停止標(biāo)注。（2）應(yīng)用于海上艦船等視頻中的小目標(biāo)或尺度變化較大的目標(biāo)時，對采用的YOLOv3檢測算法和KCF 跟蹤算法進行了改進，提升了目標(biāo)檢測算法對小目標(biāo)的檢測能力和跟蹤算法的尺度自適應(yīng)能力。（3）提出一種基于目標(biāo)顯著性的關(guān)鍵幀提取算法，選擇能反映目標(biāo)尺度、角度、光照等變化的關(guān)鍵幀，保證生成數(shù)據(jù)集的樣本多樣性。實驗結(jié)果表明，本文提出的方法可以顯著提高標(biāo)注效率，能夠快速生成標(biāo)注數(shù)據(jù)，適用于海面艦船等場景的視頻目標(biāo)標(biāo)注任務(wù)。

1 融合檢測與跟蹤的半自動視頻目標(biāo)標(biāo)注方法

1.1 標(biāo)注框架和融合方法

融合檢測和跟蹤算法的半自動視頻目標(biāo)標(biāo)注框架，其原理圖如圖1所示。

圖1 半自動視頻目標(biāo)標(biāo)注框圖

首先在視頻圖像中選定某一幀為初始幀，手動標(biāo)記目標(biāo)的位置區(qū)域并確定目標(biāo)的類別標(biāo)簽。在后續(xù)幀中，融合基于圖像的目標(biāo)檢測算法和基于圖像序列的視頻目標(biāo)跟蹤算法確定目標(biāo)在下一幀中的位置，并根據(jù)目標(biāo)跟蹤算法的響應(yīng)圖判斷目標(biāo)標(biāo)注是否結(jié)束。若不結(jié)束，繼續(xù)估計目標(biāo)在視頻圖像中的位置，若結(jié)束，根據(jù)每一幀目標(biāo)的顯著值大小，提取一定數(shù)量的視頻關(guān)鍵幀，得到該目標(biāo)標(biāo)注結(jié)果并準(zhǔn)備開始下一個目標(biāo)的標(biāo)注。其中融合檢測和跟蹤確定下一幀目標(biāo)位置的原理如圖2所示。

圖2 融合檢測和跟蹤方法框圖

在線標(biāo)注前需使用手動標(biāo)注的訓(xùn)練樣本對檢測模型進行離線訓(xùn)練。融合檢測和跟蹤結(jié)果時，首先判斷圖像幀中是否含有檢測框，若沒有則輸出的目標(biāo)框為跟蹤框。若有一個或多個檢測框，則需要計算跟蹤框和每一個檢測框的IOU（Intersection-Over-Union）值，進而篩選出最大IOU值。若該最大IOU值大于閾值，則目標(biāo)框為對應(yīng)最大IOU值的檢測框，并用該檢測框修正跟蹤框，否則為跟蹤框。

IOU值是用來評價當(dāng)前幀跟蹤框與檢測框的重合度，其公式如下：

其中，SI表示同一幀下跟蹤框與某一檢測框的重疊部分面積，SU表示同一幀下跟蹤框與該檢測框的總面積減去重疊面積。

1.2 目標(biāo)檢測算法

1.2.1 YOLO v3目標(biāo)檢測算法

為了滿足視頻標(biāo)注技術(shù)中實時性和準(zhǔn)確性的需求，本文采用YOLO v3檢測算法。該算法包括特征提取網(wǎng)絡(luò)Darknet-53 和多尺度預(yù)測網(wǎng)絡(luò)，Darknet-53 網(wǎng)絡(luò)采用了ResNe（tResidual Network）[26]旁路連接，避免了梯度消失問題。在預(yù)測階段，借鑒特征金字塔網(wǎng)絡(luò)（Feature Pyramid Networks，F(xiàn)PN）[27]的思想，較大尺度特征具有較強的語義信息，較小尺度特征具有更多的細(xì)粒度信息，小尺度特征通過上采樣的方式與大尺度特征進行融合，實現(xiàn)了較好的檢測性能。另外，該算法借鑒了兩階段目標(biāo)檢測算法的anchor思想，通過自適應(yīng)聚類得到合適的先驗框，進一步提高了檢測的準(zhǔn)確率。

1.2.2 小尺度目標(biāo)檢測改進方法

艦船視頻多為直升機或無人機在遼闊海域航拍，因此視頻中有較多的小尺度艦船目標(biāo)。YOLO v3在檢測視頻圖像中出現(xiàn)的小目標(biāo)時，效果不佳。為了提高對小尺度目標(biāo)的檢測能力，本文在原模型的基礎(chǔ)上進行了如下改進和優(yōu)化：

首先采用darknet53.conv.74預(yù)訓(xùn)練模型初始化訓(xùn)練參數(shù)，然后將原模型的YOLO 層增加到4 層，經(jīng)過多尺度特征融合得到13×13、26×26、52×52、104×104 四種不同尺度的不同感受野特征圖，然后使用（116×90）、（156×198）、（373×326）三種先驗框?qū)?3×13 的特征圖進行預(yù)測，檢測較大的對象。使用（30×61）、（62×45）、（59×119）三種先驗框?qū)?6×26的特征圖進行預(yù)測，檢測尺度中等的對象。使用（10×13）、（16×30）、（33×23）三種先驗框?qū)?2×52的特征圖進行預(yù)測，檢測較小的對象。使用新增加的（5×6）、（8×15）、（16×10）三種先驗框，對104×104特征圖進行預(yù)測，檢測更小的目標(biāo)。與原來的模型相比，經(jīng)過改進的檢測網(wǎng)絡(luò)融合了更加淺層的特征，從而提高了小目標(biāo)的檢測率。

1.3 目標(biāo)跟蹤算法

1.3.1 KCF跟蹤算法

基于相關(guān)濾波的KCF目標(biāo)跟蹤算法具有時空連續(xù)性和實時性好的優(yōu)點，并可以根據(jù)響應(yīng)圖的變化判斷目標(biāo)消失。算法首先根據(jù)第t幀的目標(biāo)區(qū)域提取HOG特征，再通過傅里葉變換轉(zhuǎn)到頻域，把得到的頻域特征通過高斯核函數(shù)映射到高維，并根據(jù)式（2）得到濾波模版α：

其中，x表示樣本的HOG 特征，表示傅里葉變換，g是中心為峰值的二維高斯函數(shù)，λ是正則化參數(shù)，用來控制訓(xùn)練的過擬合。kxx表示x在高維空間里的核自相關(guān)矩陣，其計算方式由式（3）給出：

其中，σ是高斯核函數(shù)的寬度參數(shù)，*表示復(fù)共軛，⊙表示點乘，F(xiàn)-1表示傅里葉逆變換，‖ ‖表示矩陣范數(shù)，c是HOG特征x的通道數(shù)。

為了能適應(yīng)目標(biāo)外觀變化，濾波器需要進行在線更新。在第t幀圖像上進行目標(biāo)跟蹤時，相關(guān)濾波模版α的更新由下式給出：

其中，η為更新參數(shù)。

1.3.2 尺度自適應(yīng)改進方法

尺度變化是跟蹤中常見的問題，艦船視頻鏡頭的拉進或放遠(yuǎn)，目標(biāo)尺寸會變大或縮小都將導(dǎo)致跟蹤失敗。為了能適應(yīng)目標(biāo)的尺度變化，對KCF 跟蹤算法改進方法如下：

對當(dāng)前幀的濾波器αt進行尺度縮放，縮放的比例分別為[1.1，1.05，1.0，0.95，0.9]。

在第t+1 幀圖像上的第t幀目標(biāo)位置處，提取候選樣本HOG 特征z，再結(jié)合上述每個尺寸縮放后的濾波器，分別得到對應(yīng)的相關(guān)濾波輸出響應(yīng)圖f，計算公式如下：

其中核互相關(guān)矩陣kxz由下式所示：

其中，x表示第t幀目標(biāo)的HOG特征，m=(1,2,3,4,5)分別對應(yīng)縮放的比例[1.1，1.05，1.0，0.95，0.9]。

從上述5 個響應(yīng)圖f的峰值maxf中篩選出最大值fmax，fmax對應(yīng)的位置即為目標(biāo)中心的位置，fmax對應(yīng)的縮放比例即為目標(biāo)尺寸變化比例，由此得到第t+1幀的跟蹤框。

1.3.3 自動判斷目標(biāo)消失

為了減少人工參與，提高標(biāo)注效率，需要判斷目標(biāo)消失從而自動停止標(biāo)注。目標(biāo)標(biāo)注過程中，可以根據(jù)KCF跟蹤器響應(yīng)圖f的變化判斷目標(biāo)消失，如果maxf小于設(shè)定的閾值θ，峰值旁瓣比（Peak Side-lobe Ratio，PSR）小于設(shè)定的閾值θPSR，即：

則判斷該目標(biāo)標(biāo)注結(jié)束，如果不滿足條件則繼續(xù)估計目標(biāo)在下一幀圖像中的位置。其中PSR的計算公式如下：

其中，Φ=0.5，μΦ(f)和σΦ(f)分別是以f峰值為中心的50%響應(yīng)區(qū)域的均值和標(biāo)準(zhǔn)差。

1.4 計算目標(biāo)顯著性并提取關(guān)鍵幀

海上艦船等視頻存在大量連續(xù)的圖像幀，目標(biāo)信息具有冗余性，需要結(jié)合目標(biāo)尺度、角度、光照等變化選擇適量的關(guān)鍵幀，保證生成數(shù)據(jù)的樣本多樣性。在自動判斷目標(biāo)消失并且停止當(dāng)前目標(biāo)標(biāo)注后，使用多種目標(biāo)信息計算目標(biāo)每一幀的顯著值，計算方法如圖3所示。

圖3 目標(biāo)顯著值計算流程圖

1.4.1 LBP特征圖

局部二值模式（Local Binary Pattern，LBP）[28]提取圖像的紋理特征，其具體計算公式如式（9）所示：

其中，P=8,R=1 分別為中心像素鄰域像素點的個數(shù)和鄰域半徑，j0為中心像素的灰度值，ji為從中心像素的左上角開始，沿順時針方向的第i個鄰域像素的灰度值。s(x)為符號函數(shù)：

1.4.2 顏色顯著性特征圖

顏色顯著性特征圖的計算公式如下：

其中，patch為目標(biāo)框區(qū)域原圖，patchgaussian為patch經(jīng)過高斯核為5×5，標(biāo)準(zhǔn)差為0 的高斯濾波處理之后的圖像，| |表示取絕對值，i表示通道數(shù)，(x,y)為像素坐標(biāo)。

1.4.3 邊緣顯著性特征圖

對目標(biāo)框區(qū)域的像素值求導(dǎo)，其一階導(dǎo)數(shù)在目標(biāo)邊緣位置為極值。如果對像素值求二階導(dǎo)數(shù)，邊緣處的導(dǎo)數(shù)值為0。邊緣顯著性特征圖的計算公式如下：

其中，I表示目標(biāo)框區(qū)域圖像，(x,y)表示目標(biāo)框區(qū)域像素坐標(biāo)。

1.4.4 基于顏色直方圖的顯著值度量變化

顏色直方圖顯著值變化Distt通過計算初始幀目標(biāo)區(qū)域和第t幀目標(biāo)區(qū)域顏色直方圖的巴氏距離（Bhattacharyya distance）[29]得到，計算公式如下：

其中，H0為初始幀手動標(biāo)注目標(biāo)區(qū)域的顏色直方圖，Ht為第t幀自動標(biāo)注目標(biāo)區(qū)域的顏色直方圖，n表示顏色直方圖bin的總數(shù)，的計算公式由下式給出：

其中k=0 或t。

1.4.5 尺度變化

尺度變化值通過計算初始幀目標(biāo)框和第t幀目標(biāo)框的寬高變化得到的，計算公式如下：

1.4.6 計算目標(biāo)顯著值

將LBP 紋理特征、顏色顯著性特征、邊緣顯著性特征等特征進行平均加權(quán)融合，得到第t幀融合值meant，融合計算公式如下：

根據(jù)圖像目標(biāo)框區(qū)域的融合值mean、顏色直方圖變化值Dist、尺度變化值bboxchange，第t幀的目標(biāo)顯著值St的計算公式如下：

其中，T表示當(dāng)前標(biāo)注目標(biāo)的總幀數(shù)。

1.4.7 提取關(guān)鍵幀

根據(jù)鏡頭中每一幀目標(biāo)的顯著值St構(gòu)建顯著值折線圖，求得所有極大值及其所對應(yīng)的幀。

假設(shè)該鏡頭有T幀，設(shè)定提取關(guān)鍵幀的數(shù)量為n個，上述顯著值曲線極大值的個數(shù)為k個。若n

2 實驗

本文實驗硬件配置環(huán)境為Intel Core i7-6850K CPU，32 GB 內(nèi)存，GTX1080 Ti 顯卡，12 GB 顯存的PC機，Windows 10 操作系統(tǒng)，開發(fā)平臺為Python 3.6。融合檢測和跟蹤的IOU閾值設(shè)置為0.5。跟蹤器響應(yīng)圖峰值閾值θ和峰值旁瓣比閾值θPSR分別設(shè)為3 和3.5。設(shè)定每個鏡頭提取10幀作為關(guān)鍵幀。

2.1 構(gòu)建艦船檢測數(shù)據(jù)集

目前業(yè)界并沒有針對艦船目標(biāo)制作的標(biāo)準(zhǔn)數(shù)據(jù)集，因此引用文獻[30]的自建艦船數(shù)據(jù)集，該數(shù)據(jù)集共12 817張艦船圖像，通過手動方式標(biāo)注目標(biāo)所在區(qū)域并設(shè)置標(biāo)簽。本文在該數(shù)據(jù)集的基礎(chǔ)上，通過手動方式對部分未標(biāo)注的小艦船目標(biāo)進行了重新標(biāo)注。最后根據(jù)相應(yīng)比例將樣本隨機分配給訓(xùn)練集、測試集和驗證集，完成數(shù)據(jù)集的構(gòu)建，如表1所示。

表1 艦船目標(biāo)檢測數(shù)據(jù)集張

2.2 YOLO v3檢測算法改進前后對比

為驗證算法的檢測效果以及改進策略的有效性，實驗選取原始YOLOv3 與改進的YOLOv3 檢測算法進行對比。

考慮到檢測算法用于視頻目標(biāo)標(biāo)注的準(zhǔn)確性和實時性，選取的評價指標(biāo)為：平均精度均值（mean Average Precision，mAP）和每秒檢測幀數(shù)（Frames Per Second，F(xiàn)PS），模型在測試集上的檢測性能見表2。由表2可知：改進后的YOLOv3 速度比原始算法稍慢，但也達(dá)到了23 frame/s，滿足視頻目標(biāo)標(biāo)注的實時性要求；而在精度指標(biāo)mAP 上超過原始算法，達(dá)到了93.8%，具有優(yōu)異的檢測性能。使用同一張分辨率為1 280×720多艦船目標(biāo)的圖像進行測試，YOLO v3 改進前后的檢測結(jié)果對比如圖4 和圖5 所示，在圖5 中，改進YOLO v3 檢測出了部分被原始算法漏檢的小艦船目標(biāo)，并使用相應(yīng)尺度的邊界框準(zhǔn)確地標(biāo)記出來，檢測效果較好，可見改進策略提高了YOLOv3算法對于小目標(biāo)的檢測能力。

表2 算法對比結(jié)果

圖4 原始YOLO v3的檢測結(jié)果

圖5 改進YOLO v3的檢測結(jié)果

2.3 KCF跟蹤算法改進前后對比

為驗證跟蹤算法尺度自適應(yīng)改進策略的有效性，實驗選取一段拍攝鏡頭快速拉進，目標(biāo)尺度變化較大的艦船目標(biāo)視頻，分辨率為640×360，時間長度為10 s，共197幀。使用原始KCF算法和改進后的KCF跟蹤算法進行對比，以驗證跟蹤效果。

首先在視頻第一幀手動確定艦船目標(biāo)區(qū)域，如圖6所示，然后分別使用原始算法和改進的KCF 算法進行跟蹤測試，跟蹤結(jié)果選取第2、12、22、32、42、52幀，分別如圖7（a）～（f）所示，其中藍(lán)色矩形框表示原始KCF跟蹤結(jié)果，綠色矩形框表示改進KCF 跟蹤結(jié)果。從對比結(jié)果中可以看出，由于原始KCF 跟蹤算法沒有尺度自適應(yīng)能力，當(dāng)艦船尺度變大時，該算法只能跟蹤到艦船的部分區(qū)域，最終導(dǎo)致跟蹤失敗；而改進后的KCF跟蹤算法添加了尺度判斷，提升了算法的尺度自適應(yīng)能力，目標(biāo)框可以跟隨目標(biāo)尺度改變，驗證了改進策略的有效性。

圖6 第一幀手動選取目標(biāo)區(qū)域

圖7 KCF算法改進前后跟蹤結(jié)果對比

2.4 半自動視頻目標(biāo)標(biāo)注實驗

為驗證本文提出半自動視頻目標(biāo)標(biāo)注框架的有效性，采用一段多鏡頭多類艦船的視頻進行實驗。該視頻分辨率為1 280×720，時間長度為1 min 39 s，共3 286幀，有9 個多艦船目標(biāo)的分鏡頭，艦船類型包括航空母艦、驅(qū)逐艦、護衛(wèi)艦等。每個場景鏡頭的幀數(shù)如表3 所示，為加速計算，本實驗每5幀標(biāo)注一次。

表3 視頻分鏡頭及幀數(shù)

艦船視頻多為直升機或無人機在遼闊海域航拍，視頻中有較多小尺度艦船目標(biāo)，還存在鏡頭拉近或放遠(yuǎn)，目標(biāo)尺度變化較大的情況，因此需要使用改進YOLO v3目標(biāo)檢測算法在上述建立的艦船數(shù)據(jù)集進行訓(xùn)練，將該目標(biāo)檢測模型作為半自動標(biāo)注框架在線標(biāo)注的檢測器，提高檢測算法對于小目標(biāo)的檢測能力；將改進KCF跟蹤算法作為在線標(biāo)注的跟蹤器，提升跟蹤算法的尺度自適應(yīng)能力。

在線標(biāo)注時，選定某一幀為初始幀，手動標(biāo)注出艦船位置區(qū)域并確定類別標(biāo)簽，在后續(xù)幀融合檢測結(jié)果和跟蹤結(jié)果時，設(shè)定IOU閾值為0.5。例如，在視頻第1個鏡頭的第1幀手動標(biāo)注目標(biāo)區(qū)域，確定類別標(biāo)簽為航空母艦后，第2 幀的檢測結(jié)果和跟蹤結(jié)果如圖8 和圖9 所示。從圖中可以看出，檢測器的檢測結(jié)果中有多個目標(biāo)，跟蹤器的跟蹤結(jié)果只有一個目標(biāo)。通過計算跟蹤框和每一個檢測框的IOU值，只有一個檢測框和跟蹤框的IOU值大于閾值0.5，因此融合輸出目標(biāo)框為檢測框，結(jié)果如圖10所示。

圖8 第2幀的檢測結(jié)果

圖9 第2幀的跟蹤結(jié)果

圖10 第2幀的融合結(jié)果

判斷目標(biāo)標(biāo)注是否結(jié)束時，經(jīng)測試，設(shè)定KCF跟蹤器響應(yīng)圖峰值閾值θ為0.3，峰值旁瓣比閾值θPSR為3.5較為準(zhǔn)確，當(dāng)峰值和峰值旁瓣比都小于閾值，則標(biāo)注結(jié)束。例如，在視頻第2 個鏡頭的自動標(biāo)注過程中，KCF跟蹤算法響應(yīng)圖的峰值和峰值旁瓣比的折線圖如圖11和圖12所示，當(dāng)目標(biāo)消失時，數(shù)值會減小。該鏡頭下的0～47 幀里，KCF 跟蹤算法響應(yīng)圖的峰值和峰值旁瓣比數(shù)值較大，在第48幀峰值和峰值旁瓣比急劇減小，說明該幀目標(biāo)消失。由于實驗每5幀標(biāo)注一次，實際上對應(yīng)了該鏡頭最后一幀第243 幀的下一幀發(fā)生鏡頭切換。該鏡頭的最后一幀圖像和下一個鏡頭的第1 幀圖像如圖13和圖14所示。圖中可以看出視頻是由鏡頭2切換成鏡頭3導(dǎo)致目標(biāo)的消失，說明該方法判斷標(biāo)注結(jié)束準(zhǔn)確無誤。

圖11 KCF跟蹤算法響應(yīng)圖的峰值變化圖

圖12 峰值旁瓣比變化圖

圖13 鏡頭2的第243幀圖像

圖14 鏡頭3的第1幀圖像

在判斷當(dāng)前目標(biāo)標(biāo)注結(jié)束后，根據(jù)每一幀的目標(biāo)顯著值St得到該目標(biāo)的顯著值曲線，在曲線的極大值處提取關(guān)鍵幀，本實驗設(shè)定每個鏡頭抽出10 幀作為關(guān)鍵幀。例如第6 個鏡頭的目標(biāo)顯著值曲線如圖15 所示。首先將曲線的極大值按從大到小排列，然后取前10 個極大值對應(yīng)的幀作為關(guān)鍵幀，提取的關(guān)鍵幀如圖16（a）～（j）所示。從圖中可以看出，根據(jù)提取的關(guān)鍵幀具有較強的代表性，反映準(zhǔn)確出目標(biāo)尺寸、角度、光照等變化信息。

圖15 目標(biāo)顯著值曲線

圖16 鏡頭6的關(guān)鍵幀

最終該視頻耗時大約4 min 20 s標(biāo)注完畢，提取的關(guān)鍵幀和對應(yīng)類別如表4所示：從表中可以看出提取的關(guān)鍵幀都在對應(yīng)的鏡頭內(nèi)，進一步證明該方法能夠自動結(jié)束目標(biāo)標(biāo)注。另外該實驗的檢測模型是使用一般艦船數(shù)據(jù)集訓(xùn)練的，而通過本文的半自動標(biāo)注方法，可以實現(xiàn)更細(xì)粒度的分類標(biāo)注。根據(jù)實驗的結(jié)果來看，基于融合檢測和跟蹤的半自動視頻目標(biāo)標(biāo)注方法，可以顯著提高標(biāo)注效率，快速準(zhǔn)確生成具有樣本多樣性的標(biāo)注數(shù)據(jù)。

表4 每個分鏡頭的關(guān)鍵幀及目標(biāo)類型

3 結(jié)束語

本文針對視頻圖像連續(xù)幀間的目標(biāo)具有冗余性，采用手動標(biāo)注方式耗時耗力的問題，提出一種融合檢測和跟蹤算法的半自動標(biāo)注框架，能夠快速準(zhǔn)確地標(biāo)注目標(biāo)。應(yīng)用于海上艦船視頻等存在小目標(biāo)或者目標(biāo)尺度變化較大的場景時，對采用的YOLO v3 目標(biāo)檢測算法和KCF 目標(biāo)跟蹤算法進行了改進，提升了目標(biāo)檢測算法對小目標(biāo)的檢測能力和跟蹤算法的尺度自適應(yīng)能力。實驗驗證了提出的半自動標(biāo)注方法的有效性。該方法目前只能標(biāo)注圖像中的一個目標(biāo)，后續(xù)將利用多目標(biāo)跟蹤框架，實現(xiàn)在視頻中同時標(biāo)注多個目標(biāo)。