(1.南華大學(xué),衡陽,421001;2.軍事醫(yī)學(xué)研究院軍事認(rèn)知與腦科學(xué)研究所,北京,100850)
隨著無人機(jī)相關(guān)技術(shù)的快速發(fā)展,民用小型無人機(jī)已經(jīng)被應(yīng)用于生產(chǎn)和生活中的方方面面,為人類社會(huì)帶來極大便利.然而由于無人機(jī)有靈活度高、隱蔽性強(qiáng)、成本低廉等特點(diǎn),無人機(jī)或被不法分子用于恐怖襲擊、偷拍隱私等活動(dòng),因此無人機(jī)預(yù)警探測在公共安全領(lǐng)域具有重要現(xiàn)實(shí)意義.
當(dāng)前,目標(biāo)檢測領(lǐng)域分為靜態(tài)目標(biāo)檢測和視頻目標(biāo)檢測兩個(gè)方向.靜態(tài)目標(biāo)檢測算法通常分為雙階段和單階段兩種類型.雙階段類型的經(jīng)典方法有R-CNN[1],Fast R-CNN[2],Faster R-CNN[3].相較于傳統(tǒng)手工特征提取方法,例如尺度不變特征變換[4](Scale-invariant feature transform, SIFT)、方向梯度直方圖[5](Histogram of oriented gradient, HOG),基于深度學(xué)習(xí)的特征提取方法更加準(zhǔn)確和有效.與雙階段檢測模型相比,單階段算法檢測速度快但精度偏低,主流方法有YOLO(You Only Look Once)[6-8]系列和SSD(Single Shot MultiBox Detector,SSD)[9].相較于靜態(tài)目標(biāo)檢測,視頻目標(biāo)檢測在訓(xùn)練過程中能利用某段時(shí)間內(nèi)相鄰幀間的時(shí)空信息避免大量無效的特征提取,減少重復(fù)信息的同時(shí)充分保留和利用有效信息是視頻目標(biāo)檢測的一個(gè)主要方向.代表性方法包括Han等[10]提出的Seq-NMS算法,根據(jù)連續(xù)幀之間的檢測框的重合度建立時(shí)空?qǐng)D;Zhu等[11]提出的基于光流的特征聚合算法FGFA,該算法通過利用視頻幀間的時(shí)空信息達(dá)到視頻檢測的效果;Kang等[12]在靜態(tài)圖像檢測的基礎(chǔ)上利用上下文信息抑制和動(dòng)態(tài)信息傳播等機(jī)制提出T-CNN模型,從而實(shí)現(xiàn)視頻目標(biāo)檢測效果;而STSN[13],STMN[14]在不使用光流算法的情況下,直接學(xué)習(xí)對(duì)齊和聚合特征;Wang等[15]提出的MANet則是利用FlowNet預(yù)測的光流在相鄰幀之間傳播特征;Luo等[16]提出的STCA檢測算法,該算法通過對(duì)上下文時(shí)空信息進(jìn)行增強(qiáng)、自動(dòng)學(xué)習(xí)特征增強(qiáng)策略來彌補(bǔ)Seq-NMS的缺陷;Deng等[17]提出的RDN則是學(xué)習(xí)局部范圍內(nèi)不同幀之間候選框的相關(guān)性來增強(qiáng)特征;Chen等[18]提出的MEGA算法是通過局部和全局的特征聚合達(dá)到較高的檢測性能.
近年來,以深度學(xué)習(xí)為代表的智能視覺感知算法已經(jīng)可以實(shí)現(xiàn)標(biāo)準(zhǔn)場景下的無人機(jī)檢測.例如,崔艷鵬等[19]在YOLO-v3的基礎(chǔ)上,通過改進(jìn)模型網(wǎng)絡(luò)結(jié)構(gòu)提出一種實(shí)時(shí)的無人機(jī)檢測算法,但該算法在準(zhǔn)確率和召回率與其對(duì)比算法還存在較大差距.Sun等[20]提出一種基于TIB-Net的無人機(jī)檢測算法,通過在迭代骨干網(wǎng)絡(luò)中引入循環(huán)通路機(jī)制獲取低層特征信息,在有效提取小目標(biāo)特征的同時(shí)縮小模型結(jié)構(gòu),但是該算法在檢測速度方面尚難以達(dá)到實(shí)時(shí)性.梁棟等[21]提出一種將檢測與跟蹤相結(jié)合的無人機(jī)檢測算法,引入KCF(Kernel Correlation Filter, KCF)跟蹤算法抑制檢測的漏檢率.Fernandes等[22]通過融合跟蹤機(jī)制和殘差網(wǎng)絡(luò),提出一種在檢測模塊前通過一個(gè)跟蹤模塊判斷是否存在無人機(jī)的目標(biāo)檢測網(wǎng)絡(luò).另外馬旗等[23]通過利用殘差結(jié)構(gòu)和多尺度預(yù)測網(wǎng)絡(luò)提出Dual-YOLO-v3算法,但該算法嚴(yán)重受到采集系統(tǒng)的約束,在復(fù)雜背景下的圖像配準(zhǔn)變得十分困難.王靖宇等[24]通過提取無人機(jī)在多尺度層次上的視覺特征來檢測遠(yuǎn)距離小型無人機(jī).Rozantsev等[25]利用運(yùn)動(dòng)補(bǔ)償機(jī)制來彌補(bǔ)視頻中小目標(biāo)的位置偏移問題.還有余科鋒[26]通過利用動(dòng)態(tài)閾值的CFAR圖像分割提取特征的方法,用來檢測紅外視頻中的無人機(jī).
以深度學(xué)習(xí)為核心的智能算法能夠在簡單環(huán)境下實(shí)現(xiàn)目標(biāo)檢測效果,但由于這些算法特征提取單一,當(dāng)無人機(jī)在建筑物遮擋、形變等復(fù)雜背景下,外觀信息受到背景的嚴(yán)重干擾,這些算法檢測效果遠(yuǎn)不及生物視覺系統(tǒng)對(duì)于環(huán)境變化的適應(yīng)性和精確性,在復(fù)雜環(huán)境下,生物視覺系統(tǒng)可以有效應(yīng)對(duì)環(huán)境變換從而快速捕捉目標(biāo)位置.80年代初,Underleider等[27]通過對(duì)猴腦的損傷研究,認(rèn)為大腦視皮層中存在兩條視覺通路:腹部流(ventral stream)和背部流(Dorsal stream),其中腹部流主要負(fù)責(zé)物體識(shí)別,而背部流主要處理物體的空間位置信息.Poggio等[28]根據(jù)腹部流視覺信息處理過程提出HMAX模型,該模型模擬一個(gè)層級(jí)的前饋結(jié)構(gòu)實(shí)現(xiàn)了前饋信息的傳遞.Serre等[29]在HMAX模型上根據(jù)生物結(jié)構(gòu)和實(shí)驗(yàn)數(shù)據(jù)構(gòu)造了一個(gè)標(biāo)準(zhǔn)模型,首次將生物視覺和計(jì)算機(jī)視覺進(jìn)行聯(lián)系.Mutch等[30]通過添加圖像層來改進(jìn)Serre的模型,在1998年,Rybak等[31]提出Rybak模型,該模型主要針對(duì)于物體識(shí)別和場景感知,以及之后對(duì)Serre理論延申和發(fā)展的一些科學(xué)成果相繼發(fā)表[32-35].2010年,Benoit等[36]利用人類視網(wǎng)膜的信息傳導(dǎo)機(jī)制建立視網(wǎng)膜模型,并將該模型應(yīng)用到圖像處理和計(jì)算機(jī)視覺領(lǐng)域,取得了顯著的效果.受人類視網(wǎng)膜信息處理機(jī)制啟發(fā),通過細(xì)胞間的時(shí)空濾波變換提取無人機(jī)在復(fù)雜背景下的運(yùn)動(dòng)信息.該類腦算法不僅能高效地提取視頻中目標(biāo)的運(yùn)動(dòng)特征,而且相較于深度學(xué)習(xí)模型運(yùn)算量更小.
本文通過引入仿視網(wǎng)膜算法,在此基礎(chǔ)上進(jìn)行模擬和改進(jìn),借助大細(xì)胞通路模型提取時(shí)空運(yùn)動(dòng)信息,并將其與YOLO-v3輸出的目標(biāo)置信度圖進(jìn)行融合,從而得到融合視網(wǎng)膜時(shí)空運(yùn)動(dòng)信息的無人機(jī)目標(biāo)檢測算法——Rtn-YOLO,并基于Anti-UAV2020數(shù)據(jù)集對(duì)Rtn-YOLO和業(yè)內(nèi)主流的YOLO-v3方法進(jìn)行了性能評(píng)估和對(duì)比.
本文的組織結(jié)構(gòu)如下:第1部分是基于YOLO算法和視網(wǎng)膜算法的模型加工,第2部分是Rtn-YOLO算法的詳細(xì)介紹,第3部分是實(shí)驗(yàn)結(jié)果和算法評(píng)估,第4部分是對(duì)于論文的討論和總結(jié).
YOLO-v3是由YOLO算法改進(jìn)后以Darknet-53為骨干網(wǎng)絡(luò)的單階段目標(biāo)檢測算法,通過將圖片分為等分的S×S個(gè)網(wǎng)格用于目標(biāo)位置的定位,再借助K-Means算法對(duì)MC COCO數(shù)據(jù)集進(jìn)行聚類,獲得9個(gè)長寬不一的先驗(yàn)框,利用卷積神經(jīng)網(wǎng)絡(luò)讓網(wǎng)格對(duì)每個(gè)物體類別預(yù)測一個(gè)條件概率值同時(shí)生成B個(gè)先驗(yàn)框,每個(gè)先驗(yàn)框預(yù)測5個(gè)值(其中前4個(gè)值表示先驗(yàn)框的位置,第5個(gè)表示這個(gè)先驗(yàn)框含有物體的概率),然后得到3個(gè)大小不同的特征圖以及對(duì)其分配先驗(yàn)框,最后使用先驗(yàn)框后處理以及非極大抑制(Non-Maximum Suppression,NMS)得到預(yù)測框.
視網(wǎng)膜是將光信號(hào)轉(zhuǎn)換為神經(jīng)系統(tǒng)中的電信號(hào)的重要部分.視網(wǎng)膜生物結(jié)構(gòu)主要由外叢狀層(Outer Plexiform layer)和內(nèi)叢狀層(Inner Plexiform layer)兩部分組成,細(xì)胞層上主要包含光感受器細(xì)胞(Photoreceptor cells,F(xiàn)ph)、水平細(xì)胞(Horizontal cells, Fh)、雙極細(xì)胞(Bipolar cells, BipON/BipOFF)、無長突細(xì)胞(Amacrine cells, A)和神經(jīng)節(jié)細(xì)胞(Ganglion cells)五種類型的神經(jīng)細(xì)胞.
在外叢狀中,光感受器細(xì)胞可作為一個(gè)亮度調(diào)節(jié)器的功能(Cph)的功能,同時(shí)將其感受到的光信號(hào)傳遞給水平細(xì)胞和雙極細(xì)胞,構(gòu)成一個(gè)突觸三聯(lián)(The ynaptic triad)[37],水平細(xì)胞之間的縫隙連接(Gap junctions)是一個(gè)低通時(shí)空濾波器.根據(jù)Benoit[36]等人的觀點(diǎn),外叢狀層的細(xì)胞相互作用可以看作是光感受器網(wǎng)絡(luò)和水平細(xì)胞網(wǎng)絡(luò)兩個(gè)低通時(shí)空濾波器之差,該時(shí)空不分離的濾波器在低時(shí)間頻率時(shí)有空間帶通效果,低空間頻率時(shí)有時(shí)間帶通效果.
內(nèi)叢狀層中的信息傳遞有兩條通路:大細(xì)胞通路(Magnocellular pathway)和小細(xì)胞通路(Parvocellular pathway),在無長突細(xì)胞的介導(dǎo)下,雙極細(xì)胞將其信號(hào)傳遞給軸突形成視神經(jīng)的神經(jīng)節(jié)細(xì)胞.
圖1展示了基于視網(wǎng)膜小細(xì)胞通路模型的算法結(jié)構(gòu)示意圖,小細(xì)胞通路的小型神經(jīng)節(jié)細(xì)胞(Midget ganglion cells)直接與雙極細(xì)胞相連,接收來自外叢狀層的兩極輸出的輪廓信息,同時(shí)作為一個(gè)局部增強(qiáng)器(CgP)用來增強(qiáng)輪廓數(shù)據(jù)和外觀紋理等信息的提取.

圖1 視網(wǎng)膜小細(xì)胞通路算法結(jié)構(gòu)示意圖
大細(xì)胞通路主要負(fù)責(zé)提取物體的運(yùn)動(dòng)信息,算法結(jié)構(gòu)圖如圖2所示,其中無長突細(xì)胞看作是一個(gè)高通時(shí)間濾波器.在無長突細(xì)胞的介導(dǎo)下,小型和大型陽傘神經(jīng)節(jié)細(xì)胞收集多個(gè)彌漫性雙極細(xì)胞的信號(hào),此類神經(jīng)節(jié)細(xì)胞既可以作為像小細(xì)胞通路中的局部增強(qiáng)器(CgM),也可以作為一個(gè)空間低通濾波器(FgM).

圖2 視網(wǎng)膜大細(xì)胞通路算法結(jié)構(gòu)示意圖
圖3展示了Rtn-YOLO算法結(jié)構(gòu)框架.該算法對(duì)輸入的視頻流分別通過兩支流特征提取器提取外觀和運(yùn)動(dòng)等特征.YOLO-v3算法以深度神經(jīng)網(wǎng)絡(luò)為核心,該算法對(duì)輸入圖像的尺寸大小要求不固定(32的整數(shù)倍),若以416×416為例,圖像經(jīng)過網(wǎng)絡(luò)的3次(8倍,16倍,32倍)下采樣之后,形成的特征圖分別為(52,52),(26,26),(13,13),將3個(gè)特征圖進(jìn)行特征合并之后進(jìn)行先驗(yàn)框后處理,提取物體的靜態(tài)信息特征.視網(wǎng)膜大細(xì)胞通路對(duì)物體的外觀信息敏感,視頻中的物體在相鄰幀有相對(duì)運(yùn)動(dòng)時(shí),圖像經(jīng)過視網(wǎng)膜中光感受器細(xì)胞、水平細(xì)胞、雙極細(xì)胞、無長突細(xì)胞和神經(jīng)節(jié)細(xì)胞的信息處理后,能夠快速清晰地捕捉到運(yùn)動(dòng)物體的軌跡特征的同時(shí)抑制靜態(tài)背景,然后其與YOLO-v3算法模型中的網(wǎng)絡(luò)結(jié)構(gòu)提取出的外觀信息相結(jié)合,通過融合圖像與YOLO-v3預(yù)處理的結(jié)果進(jìn)行篩選匹配后,獲取最終無人機(jī)視頻目標(biāo)檢測結(jié)果.

圖3 面向無人機(jī)檢測的Rtn-YOLO算法結(jié)構(gòu)流程圖
現(xiàn)有其他算法在凈空等簡單背景下的無人機(jī)檢測精確度較高,Rtn-YOLO算法著重解決在復(fù)雜背景下的無人機(jī)視頻目標(biāo)檢測面臨的問題,依據(jù)視網(wǎng)膜大細(xì)胞通路的對(duì)運(yùn)動(dòng)信息提取的優(yōu)勢,采用大細(xì)胞通路與YOLO-v3模型融合的方式,解決現(xiàn)有算法對(duì)無人機(jī)在遮擋、形變、瞬移等情況下失效的問題.Rtn-YOLO算法利用人類視網(wǎng)膜對(duì)運(yùn)動(dòng)信息的敏感性提取視頻上下文信息,通過大細(xì)胞通路提取物體的運(yùn)動(dòng)特征抑制靜態(tài)背景噪聲.為了充分利用大細(xì)胞通路提取的運(yùn)動(dòng)信息,降低算法的漏檢率和虛警率,首先降低先驗(yàn)框置信分的交并比(Intersection over Union,IoU)閾值,使YOLO-v3盡可能多地獲得圖像中潛在無人機(jī)的先驗(yàn)框,然后保留置信分較高的先驗(yàn)框,再篩選出圖像像素最大的先驗(yàn)框,最后選取置信分最高的的檢測框.算法流程圖見表1.

表1 無人機(jī)檢測的Rtn-YOLO算法流程圖
實(shí)驗(yàn)所采用的計(jì)算機(jī)操作系統(tǒng)版本是Ubuntu 16.04.1;Linux內(nèi)核版本是Linux amax 4.4.0-31-generic;代碼運(yùn)行平臺(tái)是:Python3.6,Tensorflow1.14.0,GPU:Tesla K80×16.
Rtn-YOLO算法性能評(píng)估采用Anti-UAV2020數(shù)據(jù)集,圖4為所用數(shù)據(jù)集的紅外無人機(jī)視頻縮略圖.

圖4 紅外無人機(jī)視頻縮略圖
該賽程主要針對(duì)基于多模態(tài)視頻流數(shù)據(jù)的復(fù)雜環(huán)境下無人機(jī)目標(biāo)的檢測、跟蹤、識(shí)別等視覺感知與處理任務(wù).該大賽舉辦的同時(shí)公開了160段紅外視頻序列(https://anti-uav.github.io/submission/),視頻中包含多個(gè)不同的場景和多種類型的無人機(jī),在每段視頻中都含有部分復(fù)雜背景,包括云霧、樓宇、快速運(yùn)動(dòng)、懸停、遮擋等情況,但數(shù)據(jù)集中復(fù)雜背景圖片數(shù)量占比較小.在賽程里提供的160段視頻,其中有標(biāo)注信息的100段視頻用來對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證,尚未標(biāo)注的60段視頻用于測試.本算法采用其中的100段已標(biāo)注好的紅外視頻,共93247張圖片,選取其中的70段視頻(65100張圖片)用于模型的訓(xùn)練和驗(yàn)證,剩余的30段視頻用于模型的測試.訓(xùn)練20次且最終使得模型達(dá)到收斂.
圖5展示了Rtn-YOLO算法與YOLO-v3算法在復(fù)雜背景下的無人機(jī)檢測效果對(duì)比.a,b,c,d代表四個(gè)不同的樣例,其中第一行是原始圖片,圖片中的紅色框代表無人機(jī)的真實(shí)位置;第二行是YOLO-v3的檢測效果,從圖中可以看到,一旦當(dāng)無人機(jī)飛行在樓宇、吊塔等紅外復(fù)雜背景下,YOLO-v3無法檢測到無人機(jī)的位置或者誤檢到其他目標(biāo)當(dāng)作是無人機(jī);第三行是Rtn-YOLO算法的檢測效果,能正確的檢測到在紅外環(huán)境下的無人機(jī).

圖5 Rtn-YOLO算法與YOLO-v3算法在復(fù)雜背景下的無人機(jī)檢測效果對(duì)比
算法評(píng)估結(jié)果如表2所示,YOLO-v3算法在測試集上的檢測平均精確率為82.04%,Rtn-YOLO算法檢測平均精確率達(dá)到86.90%,比基準(zhǔn)算法YOLO-v3提升了4.86%.當(dāng)在YOLO-v3模型中加入視網(wǎng)膜小細(xì)胞通路提取的特征時(shí),由于靜態(tài)背景的噪聲對(duì)小細(xì)胞通路提取的特征影響較大,故而精度降低.

表2 Rtn-YOLO與YOLO-v3檢測對(duì)比
通過數(shù)據(jù)分析發(fā)現(xiàn),在Anti-UAV2020數(shù)據(jù)集中,數(shù)據(jù)集中無人機(jī)處于凈空背景下的簡單場景圖片數(shù)居多.由于其復(fù)雜背景的圖像幀在所有數(shù)據(jù)集中的占比較小,無人機(jī)在遮擋、樓宇中的圖片量偏低,為了測試單個(gè)視頻中的表現(xiàn)情況,從30個(gè)測試集中隨機(jī)抽取10個(gè)視頻,測試結(jié)果如表3所示.在10個(gè)復(fù)雜背景下的紅外無人機(jī)視頻中,其中6個(gè)視頻的平均精確率有大幅提升,4個(gè)場景較簡單視頻的略低,表明Rtn-YOLO算法整體比YOLO-v3算法更加穩(wěn)定,在簡單的環(huán)境下能夠保持與基準(zhǔn)算法有同等的平均精確率,對(duì)于在復(fù)雜背景下時(shí)能夠彌補(bǔ)其缺陷.

表3 Rtn-YOLO算法在10段紅外無人機(jī)視頻檢測結(jié)果對(duì)比
已有文獻(xiàn)表明,信息融合的方式多種多樣,最常用有效的方式是將兩支信息流取交集[38].本文在YOLO-v3提取的外觀信息和大細(xì)胞通路提取的運(yùn)動(dòng)信息基礎(chǔ)上,對(duì)在兩支信息流的輸出結(jié)果對(duì)應(yīng)像素取交,該方式不僅能將提取到的雙支流信息進(jìn)行有效的融合,而且能抑制靜態(tài)背景產(chǎn)生的巨大噪聲.為了驗(yàn)證該融合方式在Rtn-YOLO算法上檢測結(jié)果,通過與其他融合方式進(jìn)行對(duì)比,在將大細(xì)胞通路提取的運(yùn)動(dòng)信息和YOLO-v3提取的紋理信息整合的過程中,由于信息融合的方式不同導(dǎo)致的檢測效果也存在較大差異,從左至右分別是將大細(xì)胞通路的輸出結(jié)果和YOLO-v3的輸出分別取和(a),取積(b),取并(c)和取交(d)的結(jié)果.從圖6數(shù)據(jù)集的測試結(jié)果看,其中取和與取并后的融合圖效果存在較大的噪聲,不能正確檢測到樓宇中無人機(jī)的位置,取積與取交后的融合圖更加干凈,但取積之后的檢測效果不如取交的效果好.

圖6 Rtn-YOLO算法信息融合方式對(duì)比
針對(duì)傳統(tǒng)無人機(jī)檢測算法無法檢測復(fù)雜背景下運(yùn)動(dòng)目標(biāo)的問題,本文通過引入大細(xì)胞通路模型提取時(shí)空運(yùn)動(dòng)信息,并將其與YOLO-v3輸出的目標(biāo)置信度圖進(jìn)行融合,從而提出了融合視網(wǎng)膜時(shí)空運(yùn)動(dòng)信息的無人機(jī)目標(biāo)檢測算法——Rtn-YOLO算法.實(shí)驗(yàn)結(jié)果表明,算法提高了無人機(jī)在復(fù)雜背景下的檢測的精確率.相比傳統(tǒng)YOLO-v3目標(biāo)檢測算法,Rtn-YOLO算法通過人類視網(wǎng)膜機(jī)制提取運(yùn)動(dòng)信息減少靜態(tài)背景噪聲造成的干擾,該類腦算法是通過對(duì)視網(wǎng)膜視覺通路中的細(xì)胞進(jìn)行數(shù)學(xué)建模,有效提取視頻中目標(biāo)的時(shí)空特征,將生物視覺與計(jì)算機(jī)視覺相互融合,進(jìn)一步完善深度神經(jīng)網(wǎng)絡(luò)在圖像特征提取過程中的信息丟失的問題.但該算法仍然存在提升,由于Rtn-YOLO算法檢測框?qū)χ眯欧值慕档停沟貌糠謾z測框的掩碼相互重疊,以至于圖像中某些檢測框包含的像素值并不是它自身,導(dǎo)致結(jié)果存在一定偏差,此類問題將在下一步工作中進(jìn)行優(yōu)化和解決.