999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)和NCC 的兩階段的多尺度高精度定位的模板匹配算法

2024-08-23 00:00:00蒲寶林張衛(wèi)華蒲亦非

摘要: 當(dāng)前模板匹配算法中,基于灰度的模板匹配算法具有較好的穩(wěn)定性和魯棒性. 但是對(duì)于大型圖像和復(fù)雜模板,它可能需要大量的計(jì)算資源和時(shí)間. 此外,在應(yīng)對(duì)目標(biāo)尺度變化較大時(shí),基于灰度的模板匹配算法匹配效果較差. 對(duì)于NCC 算法自身速度較慢的問題,本文對(duì)NCC 算法進(jìn)行了改進(jìn),減少了平均36% 的匹配時(shí)間. 為了應(yīng)對(duì)多尺度的問題,本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò),提出了基于卷積神經(jīng)網(wǎng)絡(luò)和NCC 的兩階段的多尺度高精度定位的模板匹配算法.其中,在一階段目標(biāo)檢測(cè)階段,本文在YOLOX 算法的基礎(chǔ)上改進(jìn)了主干網(wǎng)絡(luò)和損失函數(shù),改善了算法的計(jì)算速度以及匹配成功率,并利用一階段目標(biāo)檢測(cè)的結(jié)果使二階段NCC 算法動(dòng)態(tài)調(diào)整模板大小,極大地減少了NCC 算法大規(guī)模制作模板時(shí)間,最終使得整體匹配精度遠(yuǎn)遠(yuǎn)高于傳統(tǒng)基于灰度的模板匹配算法.

關(guān)鍵詞: 模板匹配; 多尺度; 卷積神經(jīng)網(wǎng)絡(luò); 兩階段; YOLOX

中圖分類號(hào): TP391. 41 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043004

1 引言

模板匹配是常用的圖像處理技術(shù),其目的是在圖像中定位與給定模板最相似的局部區(qū)域,從而找到與模板最匹配的位置或目標(biāo). 其在計(jì)算機(jī)視覺和圖像處理領(lǐng)域具有廣泛的應(yīng)用,例如目標(biāo)檢測(cè)[1]、人臉識(shí)別[2]、運(yùn)動(dòng)跟蹤[3]和遙感圖像分析[4]等. 通過選擇合適的模板和匹配度量指標(biāo),可以實(shí)現(xiàn)對(duì)圖像中感興趣目標(biāo)的定位和識(shí)別.

基于灰度的模板匹配算法,如歸一化互相關(guān)NCC(Normalized Cross-Correlation)算法通常表現(xiàn)可靠,但在處理圖像變形、遮擋等問題時(shí)受到限制. 為提高準(zhǔn)確性和魯棒性[5],需要結(jié)合其他技術(shù),然而這會(huì)增加執(zhí)行時(shí)間. 基于灰度的算法本身處理速度較慢,因?yàn)樾枰M(jìn)行復(fù)雜的計(jì)算,如像素級(jí)別的灰度比較和相關(guān)性計(jì)算. 而且,當(dāng)目標(biāo)發(fā)生明顯旋轉(zhuǎn)時(shí),算法需要執(zhí)行更多的計(jì)算和搜索操作[6],進(jìn)一步延長(zhǎng)處理時(shí)間. 為了解決處理速度問題,Kai 等[7]改進(jìn)了基礎(chǔ)NCC 算法,將計(jì)算歸一化互相關(guān)的模板表示為矩形基函數(shù)的和,然后為每個(gè)基函數(shù)而不是整個(gè)模板計(jì)算相關(guān)性. 該算法在速度上優(yōu)于歸一化互相關(guān)算法的基于傅立葉變換的實(shí)現(xiàn). Chen 等[8]利用旋轉(zhuǎn)、縮放比較的窗口圖像生成NCC 模型,結(jié)合圖像金字塔搜索和SIMD 并行計(jì)算,降低算法總耗時(shí). 同時(shí)模板匹配算法在處理圖像中目標(biāo)大小的變化時(shí)也存在一定的挑戰(zhàn)[9]. 傳統(tǒng)模板匹配算法使用固定大小的模板,無法應(yīng)對(duì)目標(biāo)尺度變化. 多尺度模板增加了計(jì)算時(shí)間,不適合工業(yè)應(yīng)用. 需要尋找更合理的方法應(yīng)對(duì)目標(biāo)大小變化,實(shí)現(xiàn)高效圖像匹配.

近年來,基于深度學(xué)習(xí)的模型大量涌現(xiàn)[10-13],其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[14]在特征提取任務(wù)中具有顯著的優(yōu)勢(shì)和廣闊的前景. CNN 能夠利用卷積操作對(duì)輸入數(shù)據(jù)進(jìn)行局部感知. 這種局部連接的方式使得網(wǎng)絡(luò)能夠更好地捕捉圖像和其他二維數(shù)據(jù)中的局部特征,例如邊緣、紋理和形狀等. 通過逐漸堆疊多個(gè)卷積層,網(wǎng)絡(luò)可以學(xué)習(xí)到更高層次的抽象特征,從而實(shí)現(xiàn)更準(zhǔn)確的目標(biāo)匹配和特征提取. CNN 中的參數(shù)共享機(jī)制使得網(wǎng)絡(luò)能夠高效地處理大規(guī)模數(shù)據(jù). 通過共享參數(shù),網(wǎng)絡(luò)可以在不同的位置上學(xué)習(xí)到相同的特征. 這種共享能力使得CNN 對(duì)平移、縮放和旋轉(zhuǎn)等圖像變換具有一定的不變性,從而提高了目標(biāo)匹配和特征提取的魯棒性. 目前主流的算法模型分為以SSD[15]、RetinaNet[16]和YOLO[17-21]系列等為代表的單階段檢測(cè)算法模型和以R-CNN[22-24]系列為代表的雙階段檢測(cè)算法模型. 單階段的檢測(cè)算法既能滿足檢測(cè)精度,又在速度上更有優(yōu)勢(shì).

根據(jù)以上分析,為了解決目標(biāo)尺度變化過大,傳統(tǒng)模板匹配不能有效地匹配到目標(biāo)的問題,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)和NCC 的兩階段的多尺度高精度定位的模板匹配算法. 利用一階段卷積神經(jīng)網(wǎng)絡(luò)提取的目標(biāo)位置和大小特征,動(dòng)態(tài)修改模板匹配中的模板大小,使得二階段NCC 算法只需對(duì)少量模板進(jìn)行匹配. 這一方法減少了傳統(tǒng)基于灰度的模板匹配算法需生成大量模板進(jìn)行匹配的情況,同時(shí)避免了目標(biāo)尺度變化較大而模板大小覆蓋不到的情況. 另外,利用一階段捕捉的位置信息進(jìn)一步限制了匹配區(qū)域,從而減少了匹配時(shí)間. 有效地結(jié)合卷積神經(jīng)網(wǎng)絡(luò)在特征提取任務(wù)中具有顯著的優(yōu)勢(shì)和NCC 算法的穩(wěn)定性. 由于其廣泛的兼容性,YOLOv3 仍然是業(yè)界最廣泛使用的檢測(cè)器之一. 本文選擇了在YOLOv3 基礎(chǔ)上的改進(jìn)算法YOLOX 作為一階段檢測(cè). 考慮到卷積神經(jīng)網(wǎng)絡(luò)的大參數(shù)量可能導(dǎo)致算法執(zhí)行時(shí)間過長(zhǎng),并為方便第二階段NCC 算法的改進(jìn),本文對(duì)YOLOX 進(jìn)行了優(yōu)化,減少了運(yùn)算時(shí)間并提供了更精準(zhǔn)的參數(shù). 綜上所述,本文對(duì)基礎(chǔ)NCC 算法進(jìn)行了改進(jìn),提升了檢測(cè)速度,并解決了基于灰度的模板匹配算法無法對(duì)尺度變化較大的目標(biāo)進(jìn)行匹配的問題. 主要改進(jìn)包括:(1) 通過適應(yīng)性剪枝方式提升了NCC 算法的檢測(cè)速度;(2) 改進(jìn)了YOLOX 算法的網(wǎng)絡(luò)結(jié)構(gòu),減少了參數(shù)量,同時(shí)保持匹配精度不降低;(3) 改進(jìn)了YOLOX 算法的損失函數(shù),降低了對(duì)定位更精確目標(biāo)的損失;(4) 提出了基于卷積神經(jīng)網(wǎng)絡(luò)和NCC 的兩階段多尺度高精度定位的模板匹配算法. 該算法第一階段采用改進(jìn)后的YOLOX 算法,第二階段利用第一階段的結(jié)果動(dòng)態(tài)修改模板大小并減少待匹配區(qū)域,同時(shí)采用改進(jìn)后的NCC 算法進(jìn)行匹配.

2 相關(guān)工作

2. 1 歸一化互相關(guān)(NCC)算法

模板匹配算法主要分為基于灰度的算法和基于邊緣及特征點(diǎn)的算法2 大類. 后者在抗干擾和適應(yīng)目標(biāo)尺度變化方面表現(xiàn)較好,但易產(chǎn)生誤識(shí)別和定位誤差,不適用于高精度需求場(chǎng)合. 而歸一化互相關(guān)(NCC)算法是典型的基于灰度的模板匹配方法,旨在圖像f 中尋找與模板t 最相似的區(qū)域.其核心優(yōu)勢(shì)在于通過歸一化處理,降低亮度變化的干擾,提升算法的魯棒性. 相似度通過計(jì)算歸一化后的輸入圖像與模板圖像的互相關(guān)系數(shù)來評(píng)估. 實(shí)際應(yīng)用時(shí),通常設(shè)定閾值以判斷匹配是否滿足相似度標(biāo)準(zhǔn). 令f ( x,y )表示大小為Mx × My 的圖像f 在( x,y ),x ∈{0,…,Mx - 1},y ∈{0,…,My -1}處的像素值(所有圖都轉(zhuǎn)化為灰度圖),模板t 的大小為Nx × Ny,計(jì)算f 在x 方向移動(dòng)了u,在y 方向上移動(dòng)了v 的歸一化互相關(guān)公式R ( x,y ) 表示如下.

2. 2 圖像金字塔搜索算法

使用圖像金字塔[25]搜索算法能提高模板匹配的魯棒性和準(zhǔn)確性. 傳統(tǒng)模板匹配方法對(duì)目標(biāo)尺度變化較敏感,而金字塔搜索允許在不同尺度圖像上進(jìn)行匹配,使得目標(biāo)以不同尺度出現(xiàn)在圖像中. 通過金字塔的不同層次,可找到與目標(biāo)尺度相匹配的最佳結(jié)果. 在某些情況下,目標(biāo)可能發(fā)生旋轉(zhuǎn)或仿射變換,傳統(tǒng)方法難以正確匹配. 而使用圖像金字塔搜索算法,在不同層次上進(jìn)行匹配,增強(qiáng)了對(duì)旋轉(zhuǎn)和仿射變換的魯棒性,提高了準(zhǔn)確性. 目標(biāo)也可能在圖像中不同位置發(fā)生局部變化,如姿態(tài)、遮擋或形變. 圖像金字塔搜索算法可在不同層次上對(duì)目標(biāo)進(jìn)行多尺度匹配,更好地適應(yīng)局部變化.

圖像金字塔由一系列縮小比例的原始圖像組成,通過逐層降低分辨率并執(zhí)行降采樣與平滑處理來構(gòu)建. 從最高層開始,應(yīng)用NCC 算法于當(dāng)前層級(jí)圖像以尋找目標(biāo)物體. 若找到,則記錄其位置、尺寸及其他屬性. 隨后,在更高分辨率的層級(jí)繼續(xù)搜尋以提升定位精度. 圖1 展示了使用3 個(gè)層級(jí)圖像金字塔層次進(jìn)行搜索的過程,搜索過程從最高金字塔級(jí)別上的目標(biāo)開始,通過計(jì)算模板與窗口圖像之間的相似性系數(shù),來尋找在最高金字塔級(jí)別上位置( x,y )、旋轉(zhuǎn)為θ 的目標(biāo). 選擇最高金字塔級(jí)別的圖像作為初始圖像,搜索到圖紅色所示位置時(shí),目標(biāo)區(qū)域?qū)ο髈bj2,1 = { θ2,1,( x2,1,y2,1 ) },在當(dāng)前金字塔級(jí)別的圖像上,將模板與窗口圖像進(jìn)行相似性計(jì)算. 假如該處對(duì)象相似性閾值Thmin超過所設(shè)閾值,則把對(duì)象存到對(duì)象列表中,在下一個(gè)較低的金字塔級(jí)別上進(jìn)行搜索時(shí). 基于在上一個(gè)金字塔級(jí)別上找到的對(duì)象,如obj2,1. obj1,{ 1,2,3,4 }是由obj2,1 映射而來,同時(shí)繼承了obj2,1 的旋轉(zhuǎn)角度,然后繼續(xù)計(jì)算此處的相似度,假如相似度超過了相似度閾值Thmin,則繼續(xù)映射到下一層,直到最底層. 其中旋轉(zhuǎn)角度θ 的作用是為了匹配到發(fā)生旋轉(zhuǎn)的目標(biāo),相似度閾值Thmin 的作用是為了跳過不必要的運(yùn)行,使其盡可能匹配到可能的目標(biāo).

2. 3 YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)

YOLOX 主要可以分為4 個(gè)部分:輸入端. 主干網(wǎng)絡(luò)(CSPDarknet)、Neck (Feature PyramidNetwork,F(xiàn)PN)和Yolo Head. 具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.

輸入端采用了Mosaic 和Mixup 2 種數(shù)據(jù)增強(qiáng)方法來強(qiáng)化網(wǎng)絡(luò)輸入[26]. Mosaic 數(shù)據(jù)增強(qiáng)將4 張隨機(jī)選取的圖像以一定比例拼接,形成更大且信息豐富的輸入圖像. 而Mixup 則在訓(xùn)練過程中合成新樣本,通過隨機(jī)選取2 個(gè)圖像,并按照一定權(quán)重進(jìn)行線性插值,生成新的輸入圖像和相應(yīng)的標(biāo)簽.這使得模型能夠在訓(xùn)練中學(xué)習(xí)不同樣本之間的關(guān)系,提升了泛化能力.

CSPDarknet 是YOLOX 的主干特征提取網(wǎng)絡(luò),采用了殘差網(wǎng)絡(luò)、CSPnet 結(jié)構(gòu)、Focus 網(wǎng)絡(luò)結(jié)構(gòu)、SiLU 激活函數(shù)和SPP 結(jié)構(gòu). 殘差卷積包括主干部分和殘差邊部分,主干部分由1×1 和3×3 卷積組成,殘差邊部分將主干的輸入與輸出直接相加. CSPnet 將原來的殘差塊堆疊結(jié)構(gòu)拆分為左右2 部分,通過引入大的殘差邊提高了網(wǎng)絡(luò)的表達(dá)能力. Focus 是YoloV5[25]中引入的網(wǎng)絡(luò)結(jié)構(gòu),通過特征層的像素間隔采樣來提取特征,從而擴(kuò)展了通道數(shù). SiLU 是改進(jìn)版本的激活函數(shù),優(yōu)于ReLU,因此在CSPDarknet 中采用了SiLU. SPP 結(jié)構(gòu)通過不同大小的最大池化核進(jìn)行特征提取,增加了網(wǎng)絡(luò)的感受野,在YOLOX 中被用于主干特征提取網(wǎng)絡(luò)中.

構(gòu)建FPN 是常用的方法,用于增強(qiáng)特征提取并解決目標(biāo)檢測(cè)中多尺度目標(biāo)的問題. FPN 的主要思想是在主干網(wǎng)絡(luò)中引入額外的側(cè)邊分支,通過跨層連接和上采樣操作構(gòu)建多尺度的特征金字塔. 這樣可以獲取不同分辨率的特征圖,更好地捕捉不同尺度目標(biāo)的特征.

Yolo Head 是YOLOX 中負(fù)責(zé)分類和回歸的組件,通過加強(qiáng)的特征層判斷特征點(diǎn)是否對(duì)應(yīng)目標(biāo). 與以往版本的Yolo 不同,YOLOX 將分類和回歸分開實(shí)現(xiàn)并在預(yù)測(cè)時(shí)整合.

3 方法

3. 1 適應(yīng)性剪枝模板匹配算法

模板匹配是基本的圖像處理方法,需要在整個(gè)圖像上移動(dòng)模板,并計(jì)算每個(gè)窗口與模板之間的相似度. 計(jì)算的時(shí)間復(fù)雜度與圖像大小和模板大小有關(guān). 本文采用圖像金字塔搜索算法,無需全圖掃描進(jìn)行歸一化互相關(guān)運(yùn)算,只需將金字塔模型頂層計(jì)算結(jié)果映射到下層. 然而,頂層模型需要進(jìn)行1 次全圖掃描,耗時(shí)較長(zhǎng),并且復(fù)雜的設(shè)計(jì)可能導(dǎo)致頂層圖像過大增加運(yùn)算量. 因此,本文提出根據(jù)頂層每次歸一化互相關(guān)計(jì)算結(jié)果,對(duì)未來多次運(yùn)算進(jìn)行提前剪枝,以優(yōu)化計(jì)算效率.

輸入模板圖像和待匹配圖像后,模板匹配的整體流程如圖3 所示. 首先離線構(gòu)建模板圖像的金字塔搜索矩陣,對(duì)模板圖像進(jìn)行金字塔縮放,生成多個(gè)不同尺度的圖像,計(jì)算每個(gè)尺度圖像的像素值的均值和標(biāo)準(zhǔn)差,用于后續(xù)的NCC 算法. 在線模板匹配處理流程中,根據(jù)模板圖像大小和待匹配圖像構(gòu)建金字塔搜索模型,生成多個(gè)不同尺度的圖像,根據(jù)待匹配圖像大小和輸入?yún)?shù)θ 構(gòu)建旋轉(zhuǎn)尺度,生成多個(gè)不同旋轉(zhuǎn)角度和尺度的圖像.從金字塔的頂層開始遍歷,對(duì)當(dāng)前金字塔層級(jí)的圖像,使用NCC 算法計(jì)算相關(guān)值. 在計(jì)算過程中,利用SIMD(單指令多數(shù)據(jù))指令集進(jìn)行并行加速,提高計(jì)算效率,同時(shí)根據(jù)實(shí)驗(yàn)確定最適合的剪枝步長(zhǎng)β. 根據(jù)計(jì)算結(jié)果,確定下一次在待匹配圖像中的計(jì)算位置,跳過無關(guān)區(qū)域,減少計(jì)算量. 將當(dāng)前金字塔層級(jí)的匹配結(jié)果映射到下一層,繼續(xù)進(jìn)行歸一化互相關(guān)計(jì)算. 整個(gè)算法通過金字塔搜索和旋轉(zhuǎn)尺度的構(gòu)建,以及NCC 算法的并行加速和跳過無關(guān)區(qū)域的優(yōu)化,實(shí)現(xiàn)了對(duì)模板在待匹配圖像中的精確定位和匹配. 值得注意的是,離線構(gòu)建模板圖像的金字塔搜索矩陣和NCC 算法中對(duì)應(yīng)區(qū)域的均值和標(biāo)準(zhǔn)差的計(jì)算不參與NCC 算法的總耗時(shí).。

3. 2 主干網(wǎng)絡(luò)改進(jìn)

在工業(yè)應(yīng)用中,如機(jī)器人視覺引導(dǎo),模板匹配算法需要高定位精度和快匹配速度. 本文通過二階段匹配算法解決了定位精度問題,但結(jié)合優(yōu)化后的模板匹配算法和前置YOLOX 目標(biāo)匹配提取特征,仍需要較長(zhǎng)時(shí)間. 因此,我們對(duì)YOLOX 算法主干網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化.

YOLOX 中采用的主干網(wǎng)絡(luò)是CSPDarknet,其中的CSPlayer 模塊(即圖2 中的Res 部分)使用了大量的Resunit 來提取更多的特征信息,但也導(dǎo)致了較多的參數(shù)使用,增加了計(jì)算量. 相比之下,DenseNet(Densely Connected Convolutional Networks)中的每個(gè)層都與前面的所有層直接連接,形成了密集連接的結(jié)構(gòu). 這種密集連接促進(jìn)了信息的充分流動(dòng),有助于特征的重用和信息的傳遞,減輕了梯度消失問題,提高了網(wǎng)絡(luò)的穩(wěn)定性. 由于密集連接,DenseNet 中的參數(shù)可以被多個(gè)層共享,從而大大減少了參數(shù)數(shù)量,降低了過擬合的風(fēng)險(xiǎn),減少了模型的存儲(chǔ)需求,提高了訓(xùn)練效率. 我們參考了DenseNet 的密集連接結(jié)構(gòu),將其應(yīng)用于本文中,使用設(shè)計(jì)的DenseLayer 代替了CSPlayer 模塊,有效地減少了參數(shù)量.

3. 3 損失函數(shù)(LOSS)的改進(jìn)

在YOLOX 算法中,回歸部分的損失函數(shù)采用了交并比(IoU),用于衡量“預(yù)測(cè)邊框”和“真實(shí)邊框”的重疊率. 然而,IoU 存在以下問題:(1) 在沒有重疊的情況下,IoU 為0,導(dǎo)致無法優(yōu)化.(2) IoU無法準(zhǔn)確反映重疊度大小,如圖5 所示. 盡管3 種情況的IoU 相等,但可以明顯看出它們的重合度是不同的,圖5a 的回歸效果最佳,圖5c 的效果最差.(3) IoU 無法反映預(yù)測(cè)框和真實(shí)框的大小. 在模板匹配算法中,我們需要目標(biāo)檢測(cè)階段的預(yù)測(cè)值,以便直接修改模板大小和計(jì)算目標(biāo)位置. 由于IoU的限制,我們采用了改進(jìn)的EIoU 算法來滿足需求. EIoU 考慮了額外的幾何特征,包括中心點(diǎn)距離和長(zhǎng)寬比差異. 它的懲罰項(xiàng)將縱橫比的影響因子拆分成預(yù)測(cè)框和真實(shí)框的寬高差值,從而加速了收斂并提高了回歸精度. 該損失函數(shù)包含3 個(gè)部分:重疊損失、中心距離損失和寬高損失. 將縱橫比的損失項(xiàng)拆分成預(yù)測(cè)的寬高分別與最小外接框?qū)捀叩牟钪担铀倭耸諗?,且提高了回歸精度.EIoU 公式如式(3)所示.

其中,c w 和ch 是覆蓋2 個(gè)框的最小外接框的寬度和高度;b 代表預(yù)測(cè)框的中心點(diǎn);bgt 代表真實(shí)框的中心點(diǎn);ρ 為2 個(gè)點(diǎn)的歐式距離. 在模板匹配中,我們需要調(diào)整模板大小以適應(yīng)可能的目標(biāo)尺寸變化.然而,僅考慮長(zhǎng)度或?qū)挾纫恢驴赡軐?dǎo)致長(zhǎng)寬比例差異,進(jìn)而影響匹配結(jié)果. 為解決此問題,我們采用改進(jìn)的EIoU 算法,綜合考慮IoU、長(zhǎng)寬差異、長(zhǎng)寬比差異和中心距離差異,以制定損失函數(shù)的回歸部分. 公式如下.

式(4)中,當(dāng)μdic 和μasp 取1,uother 取2 時(shí),比μdic、μasp、uother 都取1 時(shí)有更好的效果. 本文中所有實(shí)驗(yàn)都是在μdic 和μasp 取1,uother 取2 下驗(yàn)證的. 今后會(huì)進(jìn)行更多實(shí)驗(yàn),驗(yàn)證更佳的參數(shù).

4 實(shí)驗(yàn)與分析

4. 1 數(shù)據(jù)集

本文采用PASCAL VOC2007 和VOC2012 以及RSOD-Dataset 數(shù)據(jù)集進(jìn)行模型訓(xùn)練和評(píng)估.VOC07+12 通用數(shù)據(jù)集包含4 個(gè)大類別和20 個(gè)小類別,共9963 張圖像和24 640 個(gè)目標(biāo)(VOC2007),以及23 080 張圖像和54 900 個(gè)目標(biāo)(VOC2012).我們按照9∶1 的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,以測(cè)試模型的泛化能力,特別針對(duì)多任務(wù)場(chǎng)景的模板匹配. RSOD-Dataset 數(shù)據(jù)集由武漢大學(xué)于2015 年發(fā)布,用于遙感圖像中物體檢測(cè)[27],包含飛機(jī)、操場(chǎng)、立交橋和油桶4 類目標(biāo),共976 張圖像和6950 個(gè)目標(biāo). 該數(shù)據(jù)集主要用于模型針對(duì)高頻遙感圖像應(yīng)用場(chǎng)景的訓(xùn)練[28],并驗(yàn)證模板匹配算法在此類場(chǎng)景下的性能.

4. 2 實(shí)驗(yàn)參數(shù)

硬件部分:CPU 為Intel Core i7-11800H @2. 30 GHz,8 核16 線程,GPU 為NVIDIA GeForceRTX 3060. 軟件部分:一階段目標(biāo)檢測(cè)部分使用的框架為tensorflow-gpu 2. 4. 0,編程語(yǔ)言為python.設(shè)置參數(shù)取值如表1 所示.

本文的實(shí)驗(yàn)評(píng)估包括3 個(gè)方面:(1) 一階段目標(biāo)檢測(cè)階段使用召回率(Recall)、查準(zhǔn)率(Precision)、平均準(zhǔn)確度均值(mAP)和F2 分?jǐn)?shù)(F2-Score),以及速度來進(jìn)行評(píng)估;(2) 二階段模板匹配使用互相關(guān)系數(shù)、平均相關(guān)度以及速度來評(píng)估;(3) 整個(gè)算法部分使用總運(yùn)行時(shí)間、最終匹配互相關(guān)指數(shù)、平均相關(guān)度和匹配成功率來評(píng)估.

4. 3 實(shí)驗(yàn)結(jié)果與分析

4. 3. 1 一階段算法改進(jìn)實(shí)驗(yàn)及結(jié)果

在VOC07+12 和RSOD 數(shù)據(jù)集下,本文模型和YOLOX 模型在參數(shù)驗(yàn)證最好情況下二者在mAP 和耗時(shí)方面的對(duì)比,可以看出二者在用測(cè)試集評(píng)估下mAP 差距不大,但是在耗時(shí)方面本文算法有了明顯提升,如表2 所示.

在保持參數(shù)一致性的前提下,本文將提出的算法與YOLOX 算法在查準(zhǔn)率、召回率和F2-Score等評(píng)估指標(biāo)上進(jìn)行了對(duì)比分析. 我們?cè)赑ASCALVOC 數(shù)據(jù)集的4 個(gè)主要類別中各選取了1 個(gè)子類別進(jìn)行比較. 對(duì)于RSOD,我們則考慮了全部的8個(gè)類別,正如表3 所展示的那樣. 通過對(duì)比可以觀察到,本文提出的算法在查準(zhǔn)率基本保持穩(wěn)定的同時(shí),召回率(查全率)得到了顯著提升. 這一改進(jìn)正符合我們對(duì)單階段檢測(cè)算法的期望,即提高召回率以確保在NCC 算法的后續(xù)處理階段能夠識(shí)別并定位到更多的目標(biāo)對(duì)象. F2-Score 是結(jié)合查準(zhǔn)率和召回率的綜合評(píng)價(jià)指標(biāo),其計(jì)算時(shí)將召回率的重要性定為查準(zhǔn)率的2 倍. 因此,在查準(zhǔn)率相差不大的情況下,由于召回率的顯著提升,F(xiàn)2-Score也相應(yīng)地得到了明顯增強(qiáng). 這表明,本文提出的算法在整體性能上優(yōu)于YOLOX 算法,尤其是在對(duì)不同類別目標(biāo)的檢測(cè)能力方面.

本文對(duì)主干網(wǎng)絡(luò)的Res 模塊及網(wǎng)絡(luò)的損失函數(shù)進(jìn)行了優(yōu)化. 通過設(shè)計(jì)的消融實(shí)驗(yàn),我們分析了每項(xiàng)改進(jìn)對(duì)性能的具體貢獻(xiàn),結(jié)果如表4 所示. 在RSOD 數(shù)據(jù)集上的實(shí)驗(yàn)表明,將Res 模塊改進(jìn)為DenseLayer 后,盡管精度等指標(biāo)未見顯著變動(dòng),但平均處理時(shí)間顯著縮短. 僅優(yōu)化損失函數(shù)時(shí),雖然處理時(shí)間保持不變,但關(guān)鍵指標(biāo)召回率和F2-Score得到顯著提升. 綜合改進(jìn)Res 模塊和損失函數(shù),則在提高處理速度和F2-Score 方面均取得了顯著成效.

4. 3. 2 NCC 算法及總體改進(jìn)后實(shí)驗(yàn)和結(jié)果

本文在未借助一階段檢測(cè)成果的條件下,針對(duì)目標(biāo)尺寸限定在模板大小0. 9~1. 1 倍范圍內(nèi),對(duì)OpenCV 中的matchTemplate 方法和本文提出的算法進(jìn)行了對(duì)比研究. 為確保比較公平,我們對(duì)OpenCV 的matchTemplate 以外的部分實(shí)施了同等優(yōu)化,包括圖像金字塔搜索等. 實(shí)驗(yàn)確定了最佳旋轉(zhuǎn)角度和參數(shù)設(shè)置,0°~180°的旋轉(zhuǎn)范圍、0. 5 的閾值和遮擋率、β 值為2. 在這些條件下,表5 顯示了不同模板匹配方法的對(duì)比結(jié)果. 結(jié)果顯示,在不涉及尺度變換的場(chǎng)景中,本文算法與優(yōu)化后的OpenCV matchTemplate 方法在成功率上持平,但在平均匹配時(shí)間上有顯著差異,本文算法比match?Template 快36%. 這一改進(jìn)是在采用步長(zhǎng)為2 的剪枝策略后,僅對(duì)NCC 算法進(jìn)行剪枝處理時(shí)實(shí)現(xiàn)的.

在多尺度情境下,單一模板難以匹配不同大小的目標(biāo). 本文采用整合策略,結(jié)合一階段目標(biāo)檢測(cè)和二階段改進(jìn)的NCC 算法,提出了基于卷積神經(jīng)網(wǎng)絡(luò)和NCC 的兩階段多尺度高精度定位模板匹配算法. 與優(yōu)化后的matchTemplate 方法對(duì)比(如表6 所示),在RSOD 數(shù)據(jù)集及部分工業(yè)圖像中抽取的100 張圖片上進(jìn)行重復(fù)檢測(cè),結(jié)果表明本文算法的匹配成功率遠(yuǎn)高于優(yōu)化后的matchTemplate方法. 這是因?yàn)楫?dāng)模板與目標(biāo)尺度差異顯著時(shí),matchTemplate 難以實(shí)現(xiàn)識(shí)別;而本文算法通過一階段獲取尺度和位置信息,并傳遞給優(yōu)化后的NCC 算法,利用插值算法調(diào)整模板尺度以匹配目標(biāo),同時(shí)利用一階段的位置信息進(jìn)行快速預(yù)定位,從而縮短了匹配時(shí)間. 總體用時(shí)包括了一階段和二階段的時(shí)間總和.

在NCC 算法中,我們實(shí)施了自適應(yīng)剪枝技術(shù)以排除不必要的計(jì)算區(qū)域. 通過設(shè)定不同的β 值作為剪枝步長(zhǎng),本文對(duì)這一策略的有效性進(jìn)行了評(píng)估. 如表7 所示,使用與前述實(shí)驗(yàn)相同的數(shù)據(jù)集,在0°~180°的旋轉(zhuǎn)范圍內(nèi),閾值和遮擋率均設(shè)為0. 5 的條件下,我們從平均相關(guān)度、匹配成功率以及成功匹配時(shí)的平均處理時(shí)間3 個(gè)指標(biāo)進(jìn)行了對(duì)比分析. 結(jié)果表明,當(dāng)β 值為2 時(shí),綜合性能最優(yōu).

我們將通過一系列實(shí)驗(yàn)效果圖來闡述本文算法的優(yōu)勢(shì). 圖6 展示了本文算法與YOLOX 算法在mAP(平均精度均值)上的對(duì)比情況. 從表6 可以看出,在保持較快速度的同時(shí),本文算法的檢測(cè)精度與YOLOX 算法相當(dāng).

圖7 展示了本文提出的基于卷積網(wǎng)絡(luò)和NCC的兩階段多尺度高精度定位模板匹配方法的結(jié)果,其中紅色框表示匹配算法自動(dòng)繪制的匹配結(jié)果,準(zhǔn)確標(biāo)出了待匹配模板. 目標(biāo)尺度變化不大的情況下,本文算法和OpenCV 的matchTemplate 方法都能很好地匹配到目標(biāo),如圖7a(本文算法)和圖8b(OpenCV 的matchTemplate). 在目標(biāo)尺度變化較大的情況下,與OpenCV 中的matchTemplate方法相比,本文算法表現(xiàn)出明顯的優(yōu)勢(shì),如圖7b 和圖7c 所示( 它們是同一次匹配的不同展示). 而matchTemplate 方法在許多情況下未能成功匹配,如圖8 b 所示.

5 結(jié)論

本文在NCC 算法的基礎(chǔ)上使用適用性剪枝算法減少了模板匹配的匹配時(shí)間,以及通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和NCC 算法使得本文算法解決了傳統(tǒng)模板匹配算法對(duì)于多尺度目標(biāo)無法匹配的問題.通過改進(jìn)YOLOX 算法的網(wǎng)絡(luò)結(jié)構(gòu),借鑒DenseNet類似的網(wǎng)絡(luò)結(jié)構(gòu)減少了網(wǎng)絡(luò)參數(shù)量,同時(shí)密集結(jié)合了不同尺度的信息,在不損失精度的情況下減少了檢測(cè)時(shí)間;通過改進(jìn)YOLOX 算法損失函數(shù)設(shè)計(jì),使得檢測(cè)召回率有所提升,滿足我們對(duì)于后續(xù)模板匹配的需求. 下一階段,我們嘗試研究輕量級(jí)網(wǎng)絡(luò)進(jìn)一步嘗試減少整體算法耗時(shí).

參考文獻(xiàn):

[1] Hou B, Ren Z L, Zhao W, et al. Object detection inhigh-resolution panchromatic images using deep modelsand spatial template matching [J]. IEEE Transactionson Geoscience and Remote Sensing, 2020,956: 970.

[2] Vyanza V E, Setianingsih C, Irawan B. Design ofsmart door system for live face recognition based onimage processing using principal component analysisand template matching correlation methods [C]//Proceedings of the 2017 IEEE Asia Pacific Conferenceon Wireless and Mobile (APWiMob). Bandung,Indonesia: IEEE, 2017: 23.

[3] Daga A P, Garibaldi L. GA-adaptive template matchingfor offline shape motion tracking based on edgedetection: IAS estimation from the SURVISHNO2019 challenge video for machine diagnostics purposes[ J]. Algorithms, 2020, 13: 33.

[4] Liu W, Anguelov D, Erhan D,et al. SSD: Singleshot multibox detector [C]//Computer Vision andPattern Recognition(cs. CV). [S. l.]: ECCV,2016.

[5] Chen L F, Liu Y, Xu W B. Improved grayscale imagetemplate matching method based on normalizedcross-correlation approach [J]. Computer Engineeringand Applications, 2011, 47: 181.[陳麗芳,劉淵,須文波. 改進(jìn)的歸一互相關(guān)法的灰度圖像模板匹配方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47: 181.]

[6] Qi X W, Miao L G. A template matching method formulti-scale and rotated images using ring projectionvector conversion [C]//Proceedings of the 2018IEEE 3rd International Conference ON Image, Visionand Computing (ICIVC). Chongqing, China:IEEE, 2018.

[7] Kai B, Hanebeck U D. Template matching using fastnormalized cross correlation[ J]. Optical Pattern RecognitionXII, 2001, 4387: 277.

[8] Chen C S, Huang C L, Yeh C W, et al. An acceleratingCPU based correlation-based image alignmentfor real-time automatic optical inspection [J]. Computersand Electrical Engineering, 2016, 47: 207 .

[9] Zhu X C, Hu X, Li D Y, et al. A dual evaluationmulti-scale template matching algorithm based onwavelet transform [J]. Electronics Letters, 2022,58: 145.

[10] Shi X, Chen Z, Wang H, et al. ConvolutionalLSTM network: A machine learning approach forprecipitation nowcasting [J]. Advances in Neural InformationProcessing Systems, 2015, 28: 1.

[11] Goodfellow I, Pouget-Abadie J, Mirza M, et al.Generative adversarial networks [J]. Communicationsof the ACM, 2020, 63: 139.

[12] He K, Zhang X, Ren S, et al. Deep residual learningfor image recognition [C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Las Vegas, USA: IEEE, 2016: 770.

[13] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. USA:IEEE, 2018: 7132.

[14] Zhang Y P, An R, Liu S h, et al. Predicting and understandingstudent learning performance using multisourcesparse attention convolutional neural networks[J]. IEEE Transactions on Big Data, 2023,9: 118.

[15] Zhao H, Li Z W, Zhang T Q. Attention based singleshot multibox detector [J]. Journal of Electronics amp;Information Technology, 2021, 43: 2096.

[16] Lin T Y, Goyal P, Girshick R, et al. Focal loss fordense object detection [J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2020,42: 318.

[17] Deng L X, Li H Q, Liu H Y. A lightweight YOLOv3algorithm used for safety helmet detection [J].Scientific Reports, 2022, 12: 2045.

[18] Parico A I B, Ahamed T. Real time pear fruit detectionand counting using YOLOv4 models and deepSORT[ J]. Sensors, 2021, 21: 1424.

[19] Qiao S, Chen L C, Yuille A. Detectors: Detectingobjects with recursive feature pyramid and switchable atrous convolution [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. Virtual: IEEE, 2021: 10213.

[20] Gao F, Cai C, Jia R, et al. Improved YOLOX forpedestrian detection in crowded scenes [J]. Journalof Real-Time Image Processing, 2023, 20: 24.

[21] Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7:Trainable bag-of-freebies sets new state-ofthe-art for real-time object detectors [C]//Proceedingsof the IEEE/CVF Conference on Computer Visionand Pattern Recognition. Seattle WA, USA:IEEE, 2023: 7464.

[22] Girshick R, Donahue J, Darrell T, et al. Rich featurehierarchies for accurate object detection and semanticsegmentation [C]//Proceedings of the IEEEconference on computer vision and pattern recognition.Columbus, Ohio: IEEE, 2014: 580.

[23] Girshick R. Fast r-cnn [C]//Proceedings of theIEEE international Conference on Computer Vision.Santiago, Chile: IEEE, 2015: 1440.

[24] Ren S, He K, Girshick R, et al. Faster r-cnn: Towardsreal-time object detection with region proposalnetworks [J]. Advances in Neural Information ProcessingSystems, 2017, 39: 1137.

[25] He Z L, Jin Y Y. Image enhancement method basedon image pyramid [J]. Electronic Technology amp;Software Engineering, 2014(16): 134.[何志良,晉妍妍. 基于圖像金字塔的圖像增強(qiáng)方法[J]. 電子技術(shù)與軟件工程, 2014(16): 134.]

[26] Zhang C J, Hu X B, Niu H C. Vehicle object detectionbased on improved YOLOv5 method [J]. JournalSichuan University(Natural Science Edition),2022, 59: 053001.[章程軍,胡曉兵,牛洪超. 基于改進(jìn)YOLOv5 的車輛目標(biāo)檢測(cè)研究[J]. 四川川大學(xué)報(bào)(自然科學(xué)版), 2022, 59: 053001.]

[27] Long Y, Xiao Z, Liu Q, et al. Accurate object localizationin remote sensing images based on convolutionalneural networks [J]. IEEE Transactions onGeoscience and Remote Sensing, 2017, 55: 2486.

[28] Xiao Z, Liu Q, Tang G, et al. Elliptic fouriertransformation-based histograms of oriented gradientsfor rotationally invariant object detection in remotesensingimages [J]. International Journal of RemoteSensing, 2015, 36: 618.]

(責(zé)任編輯: 伍少梅)

基金項(xiàng)目: 國(guó)家自然科學(xué)基金面上項(xiàng)目(62171303)

主站蜘蛛池模板: 特级毛片8级毛片免费观看| 一级毛片免费播放视频| 伊人久久久久久久| 国产视频a| 伊人成人在线| 日韩一区二区三免费高清| 久久九九热视频| 巨熟乳波霸若妻中文观看免费| 老色鬼欧美精品| 国产午夜在线观看视频| 欧美成人亚洲综合精品欧美激情| 日韩第九页| 久草视频福利在线观看| 国产欧美日韩专区发布| 色欲不卡无码一区二区| 久久精品人人做人人爽97| 亚洲午夜天堂| 久久久精品无码一区二区三区| 免费人成在线观看视频色| 亚洲一区二区在线无码| 亚洲欧美另类视频| 欧美一级大片在线观看| 在线视频精品一区| 萌白酱国产一区二区| 久久99热66这里只有精品一| 欧美日韩导航| 亚洲色无码专线精品观看| 欧美激情第一欧美在线| 久久无码av三级| 国产在线观看一区二区三区| 一级在线毛片| 超碰91免费人妻| 香蕉视频在线观看www| 日韩av无码精品专区| 国产成人精品无码一区二| 亚洲中文无码av永久伊人| 精品国产自| 亚洲精品男人天堂| 青青操国产| 亚洲色图另类| 国产主播在线观看| 日韩在线成年视频人网站观看| 国产毛片片精品天天看视频| 欧美专区日韩专区| 丁香六月综合网| 福利视频99| 欧美日本一区二区三区免费| 福利小视频在线播放| 国产亚洲欧美在线专区| 日韩毛片免费视频| Jizz国产色系免费| 国产永久在线视频| 亚洲精品色AV无码看| 喷潮白浆直流在线播放| 久久福利网| 亚洲国产精品无码久久一线| 免费a在线观看播放| 国产欧美日韩18| 88av在线| 久久久久久久久久国产精品| 91精品国产福利| 亚洲精品制服丝袜二区| 久热这里只有精品6| 国产91小视频| 亚洲看片网| 四虎影视库国产精品一区| 国产亚洲第一页| 丁香六月激情婷婷| 一级毛片基地| www.91在线播放| 色综合天天视频在线观看| 中文字幕天无码久久精品视频免费| 小13箩利洗澡无码视频免费网站| 女同久久精品国产99国| 最新日韩AV网址在线观看| 亚洲成人免费在线| 在线精品亚洲一区二区古装| a免费毛片在线播放| 丁香婷婷激情综合激情| 国产成人成人一区二区| 中文字幕第4页| 国产一区二区网站|