林潤超,黃榮,董愛華
(東華大學 信息科學與技術學院,上海 201620)
得益于飛速發展的大數據技術,大量有效標注的數據集推動了目標檢測的發展。大部分基于卷積神經網絡(Convolutional Neural Network,CNN)的目標檢測模型需要由大量的標注數據驅動訓練。然而,在一些特殊的應用場合,如病灶檢測[1]和稀有動物檢測[2]等,可用數據少且缺乏有效的標注。因而,基于傳統CNN 的目標檢測模型往往效果不佳,還可能出現過擬合等問題。為應對數據不足場景下的目標檢測任務,小樣本目標檢測是近一段時間以來的研究熱點[3-6]。
基于元學習的小樣本目標檢測[7-9],通過所提取的圖像元特征來記憶預測梯度,從而實現小樣本目標分類和檢測。基于數據擴充的方法[10-12]通過視頻取幀、數據增強等手段增加數據量。雖然這類方法取得了一定效果,但可能會引入噪聲,從而影響檢測性能。此外,文獻[10,13]提出通過構建子模型來獲取附加數據。然而,這類方法不但需要大量的標注數據,還需要手工設定較多的特征參數,與小樣本目標檢測的初衷相悖。
在小樣本深度學習模型中引入注意力機制可以自適應地增強對圖像前景目標區域的感知,抑制背景區域中的無關信息的干擾,是提高目標區域的元特征可區分性能的重要手段。利用Faster-RCNN(Faster-Region Convolutional Neural Networks)[14]中區域候選框提取網絡(Region Proposal Network,RPN),Fan等[15]提出了一種可自適應關注目標區域的注意力機制,提取到了可區分性能較好的元特征。徐誠極等[16]在YOLOv3(You Only Look Once-version3)[17]的特征提取網絡中融入了空間注意力和通道注意力機制,改善了模型對圖像關鍵特征的篩選能力,獲取了可區分性能較好的元特征,從而提升了模型在小樣本場景下目標檢測的準確率。
基于遷移學習的小樣本目標檢測方法考慮將大樣本源域中學習到的圖像元特征信息遷移至小樣本目標域,在實現源域和目標域元特征信息共享的基礎上提升小樣本目標檢測器的性能。Chen等[18]提出的小樣本遷移檢測器(Low Shot Transfer Detector,LSTD)模型中,將候選框作為額外的監督信號來篩選元特征,較好地抑制了大部分背景特征。然而,該模型未完全利用圖像元特征的細節信息,缺乏關注目標區域的注意力機制。Kang等[19]提出一種基于元特征遷移的小樣本目標檢測模型。其中,元特征重加權模塊將大樣本源域中學習到的元特征遷移至小樣本目標域的特征圖中,實現元特征的跨域,再通過YOLOv2[20]的檢測頭定位小樣本目標。然而該元特征遷移模型存在著兩個問題:1)缺乏關注圖像中待識別目標的注意力機制,對于待識別目標周邊背景區域的抑制能力不強;2)基于遷移學習的方法,通常均需要對元特征進行微調來實現跨域共享,這將引起元特征偏移,從而導致模型對大樣本圖像檢測能力的下降。
針對上述兩個問題,本文基于注意力機制和元特征二次重加權機制,提出了改進的元特征遷移模型Up-YOLOv3。在PASCAL VOC2007/2012 通用目標檢測數據集上的實驗結果表明,與Kang等[19]的原始元特征遷移模型Base-YOLOv2 相比,Up-YOLOv3 針對小樣本圖像檢測的平均準確率均值(mean Average Precision,mAP)提升了2.3~9.1 個百分點;同時,與原始的基于YOLOv3 元特征遷移模型Base-YOLOv3 相比,Up-YOLOv3 針對大樣本圖像檢測的mAP 也提升了1.8~2.4 個百分點。消融實驗和可視化結果表明改進后的模型對不同類別的大/小樣本圖像均具有良好的泛化能力和魯棒性。
原始元特征遷移模型Base-YOLOv2[19]的框架如圖1 所示,該模型主要由元特征提取模塊D、元特征重加權模塊M和檢測模塊P構成。特征提取模塊D 采用DarkNet19[20],用于提取圖像的元特征。元特征重加權模塊M 由一個輕量級CNN 分類網絡構成,該模塊將大樣本圖像(支撐圖像)的元特征信息進行重加權獲得重加權的元特征向量。經過模塊M的處理,使得模型中小樣本圖像(查詢圖像)可共享大樣本圖像的元特征信息。最后,檢測模塊P利用這些重加權元特征實現針對小樣本圖像的目標檢測。
元特征重加權模塊M 的輸入是原始圖像和目標掩膜的拼接。其中,目標掩膜為一幅二值圖像,即原始圖像中目標所在對應的區域標定為0,背景所對應的區域標定為1。然而,現有的目標檢測掩膜通常用一個矩形框來劃定目標的位置,缺乏像素級的指導信息,無法精準定位目標的輪廓。因而,在矩形框掩膜內仍存在著無關的背景干擾,對元特征的可區分性能造成負面影響,導致模型檢測性能的下降。此外,該模型未考慮元特征遷移后的補償措施,影響了模型對大樣本圖像的檢測性能。
針對上述問題,本文對原始元特征遷移模型[19]進行以下兩方面的改進:首先,引入基于卷積塊注意力模塊(Convolution Block Attention Module,CBAM)[21]的注意力機制模塊。該模塊能夠生成像素級掩膜,從而以像素級別聚焦圖像中的目標區域,自適應地濾除背景的干擾信息,提升元特征的可區分性能,為特征提取模塊D 按類別抽取目標的元特征提供支撐。其次,設計一種基于壓縮-激勵(Squeeze and Excitation,SE)[22]的元特征二次重加權(SE-Secondary Meta-Feature Reweighting,SE-SMFR)模塊。該模塊通過可學習的激活操作調整了大樣本中元特征在通道的權重,自適應地補償了大樣本元特征由于特征遷移所引起的偏移,緩解大樣本圖像檢測能力的下降。改進的元特征遷移模型Up-YOLOv3采用YOLOv3 為主干網絡,元特征提取模塊D 為DarkNet53。Up-YOLOv3 的整體結構如圖2 所示。
本文定義輸入的大樣本圖像(支撐圖像)為I,經過元特征提取模塊D 得到具有m個通道的元特征F∈Rw×h×m,表示為F=D(I),利用基于CBAM 的注意力機制模塊,生成大樣本圖像的像素級分割掩膜Μ。同理,小樣本圖像(查詢圖像)也通過模塊D 得到具有m個通道的元特征Ff∈Rw×h×m。隨后,元特征一次重加權模塊M 將原始圖像和像素級掩膜的拼接(Ii,Μi)作為輸入,其中Ii(i=1,2,…,N)表示輸入的大樣本圖像,Mi表示對應的像素級掩膜。N表示待檢測目標類別的總數,本文中N=20。重加權模塊M 按類別輸出重加權系數wi∈Rm,并通過式(1)實現大樣本元特征向小樣本元特征的遷移:
其中:?表示基于1×1 深度卷積的通道卷乘(channelmultiplication)。
隨后,SE-SMFR 模塊將Fi作為輸入,通過壓縮、激勵和融合操作自適應地調整Fi的通道權重系數。接在二次重加權模塊SE-SMFR 之后的檢測模塊P 以調整后的二次重加權元特征作為輸入,對圖像中目標類別的置信度o、目標預測框的位置信息(x,y,h,w)以及目標類別的分類得分c進行判決和預測。
本文使用Softmax 校正不同類別分類得分。具體地,第i個目標類別原始分類得分為ci,校正后的實際分類得分c?i由式(2)計算得出:
結合交叉熵函數,得到對目標類別的損失函數Lc,如式(3)所示:
其中:I(·,i)表示目前所得到的候選檢測框是否屬于第i個目標類別。在本文檢測任務中,定義預測框(Bounding Box)的回歸損失函數為Lbbx,邊框目標得分(objectness)的損失函數為Lobj,這兩個損失函數與YOLOv3 定義的損失函數類似。綜上所述,總損失函數如式(4)所示:
為了使模型聚焦圖像中的目標區域,本文采用CBAM 以像素級提取目標的輪廓信息。該模塊嵌入在特征提取模塊D 的最后一層。相較于傳統通道注意力機制[22]僅關注通道維度上的元特征信息,CBAM 同時結合圖像空間和通道上的特征信息,可實現圖像目標邊緣輪廓的像素級別分割,以便特征提取模塊D 提取圖像中目標關鍵細節元特征信息。
如圖3 所示,本文所采用的基于CBAM 的注意力機制由一個通道注意力網絡和一個空間注意力網絡組成。通道注意力網絡對輸入特征的通道進行篩選,而空間注意力網絡聚焦特征圖中的顯著區域。具體地,CBAM 的輸入為D 所提取的元特征F,其維度為w×h×m。計算步驟如下:
1)通道信息修正。對于輸入的元特征,以通道為單位,進行全局最大池化和全局平均池化,得到兩個1 × 1 ×m的張量。將這兩個張量的對應位置相加,得到一個1 × 1 ×m的融合張量。將融合張量經Sigmoid 函數激活后,與輸入元特征圖F按元素矩陣(element-wise)相乘,生成修正后的中間元特征F′。
2)空間信息與通道信息融合。將中間元特征F′以其空間位置為單位,對其m維的通道做平均池化和最大池化,得到兩個大小為w×h的矩陣,并將這兩個矩陣拼接。接著,利用一個大小為7 × 7 的卷積核對拼接后的張量進行卷積操作,降維為一個w×h× 1 的通道。經過Sigmoid 激活后再與輸入的元特征F按元素矩陣相乘,生成目標區域注意力元特征F″。
為了展示該基于CBAM 的注意力機制的效果,利用Grad-CAM(Gradient-weighted Class Activation Mapping)[23]對注意力分配進行可視化,如圖4 所示。
圖4 是三幅輸入圖像(包含的目標分別為貓、鳥和船)和相對應的注意力分配可視化結果圖,其中暖色調表示顯著區域,冷色調表示背景區域。圖4 的可視化結果表明嵌入在特征提取模塊D 中的CBAM 能夠較好地感知到圖像中的顯著區域和前景目標。
本文模型使用的像素級掩膜由上述注意力模塊通過訓練而生成。首先,保留元特征F″中目標區域的權重;然后,利用權重對注意力圖加權求和,得到掩膜M,生成的掩膜如圖5 第三行所示。與原始的矩形框掩膜圖5 第二行相比,本文所用掩膜能夠引導模型關注圖像中與前景目標對應的顯著區域,抑制背景的干擾,為提高元特征的可區分性能提供條件。
后文的消融實驗顯示使用改進的像素級掩膜之后,模型對于小樣本圖像的檢測準確率有顯著提升,驗證了該注意力模塊在元特征遷移模型中的作用。
為了解決微調后大樣本圖像的元特征發生偏移導致的檢測準確率下降的問題,本文提出基于SE 的元特征二次重加權(SE-SMFR)模塊。該模塊通過壓縮、激勵和融合等操作調整大樣本圖像元特征的通道權重,實現二次重加權,從而補償大樣本圖像中元特征的偏移。SE-SMFR 模塊的結構如圖6 所示。
SE-SMFR 模塊的工作流程主要由以下三步構成:
1)壓縮(Squeeze)。對大樣本圖像元特征圖進行全局池化,壓縮為1 × 1 ×m的向量。圖6 中標記的SERadio為縮放參數,其目的在于通過減少通道數降低計算量。
2)激勵(Excitation)。經過壓縮后網絡得到一個全局特征表達。將該特征輸入兩層全連接層,融合元特征中各維度信息,然后分別經過線性整流函數(Rectified Linear Unit,ReLU)函數和Sigmoid 函數激活,將元特征信息重新映射到0和1 之間。
3)元特征融合(Scale)。獲得大樣本圖像元特征圖的通道權重后,通過矩陣相乘將其與原始的元特征進行融合,從而補償大樣本圖像元特征的偏移。
經過上述流程,圖像元特征輸入檢測模塊P之前進行二次加權調整,實現了大、小樣本之間元特征信息的共享,同時彌補了由于特征遷移引起的元特征偏移。因此,Up-YOLOv3不但提升了小樣本圖像的目標檢測準確率,還較好地保持了對大樣本圖像的檢測性能。
本文使用通用目標檢測公開數據集PASCAL VOC2007[24]和PASCAL VOC2012[25]。將PASCAL VOC2007和PASCAL VOC2012 中的訓練集和驗證集用于模型訓練,共16 551 張圖片;PASCAL VOC2007 中的測試集用于測試模型,總共為4 952 張圖片。兩個數據集中一共包含20 個類別,分別為飛機、自行車、鳥、船、瓶子、小汽車、公交車、貓、狗、奶牛、沙發、馬、人、飯桌、摩托車、盆栽植物、椅子、火車、電視、山羊。訓練時,隨機挑選其中5 個類別(后文稱為新類)作為小樣本圖像,其余15 個類別(后文稱為基類)作為本文大樣本圖像。為驗證模型對不同類別圖像的泛化能力和魯棒性,本文設置3 組基類/新類組合,詳細信息請參考3.3.1 節內容。
比如,學習兒童歌曲《小兔子乖乖》,教師可以讓幼兒選擇自己喜歡的角色,把自己扮演成小白兔、大灰狼,通過角色扮演的形式去把歌曲中的童話故事演繹出來,在幼兒演繹故事情節的時候能夠加深他們對這首兒歌內容的理解,也能夠點燃幼兒的學習興致。然后教師可以讓幼兒思考一下為什么小白兔見到大灰狼不能開門,也可以想象一下如果小白兔開了門故事會是怎樣的結局,之后再相互討論一下小白兔可以如何來化解自己的危機。教師可以鼓勵幼兒將故事演繹成不同的版本,讓幼兒自由地發揮自己的想象力,打破兒歌故事的束縛,大膽地對故事后續情節進行想象。
實驗環境:操作系統基于Ubuntu18.04.5LTS,CPU 為Intel Xeon-2150B@3.00 GHz*20,顯卡為雙GeForce RTX 2080Ti,內存為32 GB,使用基于PyTorch 1.4.1 的深度學習框架。
本文通過雙階段訓練方式來實現小樣本目標檢測:第一階段針對標簽信息充足的大樣本圖像對包括特征提取模塊D、重加權模塊M 和檢測模塊P在內的整個模型進行訓練,共90 輪次。訓練完成后,從大樣本圖像中提取元特征并獲取重加權向量。第二階段同時利用大、小樣本圖像進行訓練,共20 輪次。此時,每個新類中只有k個圖像帶有標簽信息。在第二階段的訓練過程中,為了平衡樣本數量差異,也只從每個基類中選取k個帶有標簽信息的圖像。該階段訓練的目標是通過模型微調,實現元特征遷移。為對比在給出不同標簽信息數量的情況下模型對于小樣本圖像的檢測效果以及檢驗模型魯棒性,本文分別在k=1,2,3,5,10 的情況下進行實驗。每次訓練時批大小(Batch_Size)設為8,學習率設置為0.000 01。
為驗證Up-YOLOv3 性能,本文設計了目標檢測準確率對比實驗、可視化實驗和消融實驗。實驗采用Top-1 的檢測平均準確率均值mAP 作為性能指標。
3.3.1 模型性能對比實驗
本文分別設計小、大樣本圖像的目標檢測性能對比實驗。前者用于驗證Up-YOLOv3 相較于Base-YOLOv2 及其他模型對小樣本圖像目標檢測的性能優勢;后者用于驗證Up-YOLOv3 可以緩解對于大樣本圖像檢測性能下降的問題。為驗證模型魯棒性,本文在這兩個對比實驗中均設置3 種不同的基類/新類組合進行交叉實驗。
1)普通遷移模型LSTD[18],為公平地進行性能比較,對該模型的訓練采用與本文類似的雙階段訓練方法;
2)原始的基于YOLOv2 的元特征遷移模型Base-YOLOv2[19];
3)原始的基于YOLOv3 元特征遷移模型,稱為Base-YOLOv3;
4)改進的基于YOLOv2 的元特征遷移模型,稱為Up-YOLOv2;
5)改進的基于YOLOv3 的元特征遷移模型(即本文模型),稱為Up-YOLOv3。
針對小樣本圖像檢測的對比實驗結果如表1 所示。新類組合1 中的小樣本類別為鳥、沙發、奶牛、摩托車和公交車;新類組合2 的小樣本類別為火車、電視、馬、瓶子和狗;新類組合3 的小樣本類別為山羊、自行車、奶牛、鳥、人。其余15 類為本文的基類。
表1 不同模型對小樣本圖像的mAP對比 單位:%Tab.1 Comparison of mAP among different models for few-shot object images unit:%
由表1 可知,針對小樣本類圖像檢測,在不同新類組合中以及在標簽信息k分別為1、2、3、5、10時,元特征遷移模型檢測性能整體優于LSTD 模型;且相較于LSTD 模型,Up-YOLOv3 的mAP 最高提升了13.4 個百分點。對比4 個元特征遷移模型可知,基于YOLOv3 搭建的元特征遷移模型檢測性能均優于基于YOLOv2 搭建的元特征遷移模型,且改進后的元特征遷移模型檢測性能均優于原始元特征遷移模型。特別地,與Base-YOLOv2 相比,Up-YOLOv3 的mAP 最低提升了2.3 個百分點;隨著k的增加,mAP 基本呈逐漸上升的趨勢,在k=3時,mAP 最高提升了9.1 個百分點;在k=10時,mAP 提升了5.5 個百分點,此時Up-YOLOv3 的整體效果最優。該實驗結果驗證了Up-YOLOv3 的有效性。此外,Up-YOLOv3 在3 種不同小樣本組合實驗中,mAP 相對穩定,驗證了Up-YOLOv3 對不同小樣本組合圖像識別的魯棒性。
對于大樣本圖像的目標檢測性能,除了對上述5 個模型外,增加了原始的YOLOv3 模型作為參照。該原始的YOLOv3 模型不考慮小樣本目標檢測問題,直接由大量帶標注信息的數據驅動訓練,不進行元特征重加權。因此,該模型作為目標檢測性能對比的上界。大樣本的檢測性能的實驗結果如表2 所示。
表2 中的3 種基類組合方式與表1 中的一致。下劃線數據代表除Up-YOLOv3 外的次好準確率。表1 中的3 組新類組合與表2 中對應組別的基類組合共同構成PASCAL VOC數據集中的20 個類別,新類組合與基類組合之間互斥。
由表2 可知,Up-YOLOv3 在大樣本圖像上能達到與YOLOv3 相媲美的檢測性能。注意到下劃線數據,Base-YOLOv3 對大樣本圖像的mAP 顯著高于Base-YOLOv2,原因是YOLOv3 網絡本身就提升了對于對于圖像的檢測精度。故為展示本文模型(Up-YOLOv3)的改進效果,設計此對照實驗以排除YOLOv3 網絡本身對實驗結果的影響。可以發現Up-YOLOv3 的mAP 比Base-YOLOv3 提升了1.8~2.4 個百分點。對于基類組合1,Up-YOLOv3 的檢測效果優于原始YOLOv3。這說明SE-SMFR 可以通過調整可學習的通道權重來有效補償元特征遷移過程中引入的偏移。從表2 中可以看出,對比其余5 個元特征遷移的模型,Up-YOLOv3 取得了最佳目標mAP;與LSTD 模型相比,Up-YOLOv3 的mAP 最高提升了12.7 個百分點。此外,對于3 組不同基類組合的實驗數據驗證了模型對于大樣本圖像的目標檢測也具有較強的魯棒性。
表2 不同模型對大樣本圖像的mAP對比 單位:%Tab.2 Comparison of mAP among different models for large-sample object images unit:%
3.3.2 可視化實驗
為了進一步探究SE-SMFR 對于特征通道權重的調整機制,本實驗對二次重加權后的特征圖進行可視化。本文實驗選取基類組合2,并設k=10。將圖像中1 024 個通道中的元特征權重通過 t-SNE(t-distributed Stochastic Neighbor Embedding)[26]進行非線性降維,再按不同類別排序后取其平均值作為類別與類別之間的相關性系數,并繪制熱力圖,如圖7 所示。
圖7(a)為未引入二次重加權模塊時大樣本圖像各類別間的關系映射圖,圖7(b)為引入二次重加權模塊后對大、小樣本圖像類別和大樣本圖像類別間的關系映射圖。首先,圖7(a)中對角線高亮代表同一類別的相關性最高。圖7(b)中,大樣本圖像部分元特征信息加權至小樣本圖像中,但對角高亮線依然存在,說明模型依舊維持了對大樣本圖像元特征的權重信息,驗證了前述性能比較實驗中改進模型可以改善由于元特征權重信息損失所帶來的對大樣本圖像的檢測性能影響。其次,圖7(a)中,奶牛和山羊的元特征信息具有較強相關性,這可能會影響模型對奶牛和山羊的檢測效果。引入二次重加權模塊調整元特征權重后,可以發現圖7(b)中的奶牛和山羊的自相關權重均有所增大,而互相關權重均有所下降,這也說明二次重加權模塊可以改善大樣本圖像中各類別的元特征權重。最后,從圖7(b)中還可以觀察到,同類之間的顏色更加靠近,不同類之間的顏色更加區分,因此類別與類別之間的關系得到進一步區分,同類類別之間映射關系加強,如新加入的小樣本圖像中,馬的元特征信息主要被映射至大樣本圖像的奶牛和山羊,而狗的元特征信息主要被映射至貓,瓶子的元特征信息著重映射至盆栽植物,均具有有效性和合理性。
3.3.3 消融實驗
消融實驗用于探究基于CBAM 的注意力模塊和SESMFR 模塊對大樣本圖像和小樣本圖像mAP 的影響,該實驗也在標簽個數k=10 且在新類組合2 的條件下進行,實驗結果如表3 所示。
表3 消融實驗結果對比Tab.3 Comparison of ablation experimental results
由第1、2 組實驗結果可知,添加基于CBAM 的注意力模塊后,模型對小樣本圖像的mAP 提高了1.8 個百分點,但對于大樣本的mAP 卻下降了0.7 個百分點,驗證了上文提出的結論,即:經過第一次特征重加權后大樣本圖像會損失部分元特征權重信息;而小樣本圖像由于本身缺少足夠的元特征信息,在注意力機制的作用下,通過元特征重加權后獲得了來自大樣本圖像的元特性信息,提高了模型對小樣本圖像的檢測效果。對比第1、3 組的實驗結果可知,SE-SMFR 對于大樣本圖像的mAP 提升了2.1 個百分點,但對于小樣本圖像影響較小,這驗證了SE-SMFR 的設計初衷,即增強模型對于大樣本圖像的檢測效果。第4 組實驗的結果表明,在加入注意力機制和二次重加權模塊后,模型對大樣本圖像和小樣本圖像的mAP 均達到最高,再次表明本文改進后的模型的有效性和合理性。
為探究改進后的模型與原始元特征遷移模型的參數量變化以及模型收斂時間變化,給出各模型的模型大小與收斂時間對比,如表4 所示。
表4 模型大小與收斂時間的對比Tab.4 Comparison of model size and convergence time
結合表1~4 可看出,增加基于CBAM 的注意力模塊和SE-SMFR 模塊后,Up-YOLOv2 相較于Base-YOLOv2 在大幅提升mAP 的同時,參數量僅增加約1.7%,浮點運算量和收斂時間均未顯著增加。同樣,Up-YOLOv3 相較于Base-YOLOv3也僅增加了約0.8%的參數量,浮點運算量也僅增加了約0.1 GFLOPs,均可近似忽略,且收斂時間也并有未顯著增加。這充分說明了Up-YOLOv3 的優越性。
在現有用于解決小樣本目標檢測問題的元特征遷移模型基礎上,本文提出了基于CBAM 的注意力機制模塊和SESMFR 模塊的改進元特征遷移模型。其中,基于CBAM 的注意力機制模塊能對輸入圖像目標類別實現像素級分割,獲取圖像上目標類別的關鍵元特征信息,同時通過自主學習生成掩膜,幫助模型聚焦圖像目標類別區域,有效避免了圖像中無關背景區域對于模型的干擾,提升模型對圖像中關鍵目標的細節特征提取能力。考慮到將大樣本圖像元特征信息遷移至小樣本圖像中時,會導致模型對于大樣本圖像元特征的偏移,設計了SE-SMFR。SE-SMFR 能對大樣本圖像元特征信息進行二次重加權,在提升小樣本圖像mAP 的同時也能減少模型對大樣本圖像元特征權重信息的損失。實驗結果表明,與Kang等[19]提出的原始元特征遷移模型Base-YOLOv2相比,本文模型對小樣本圖像的mAP 提升了2.3~9.1 個百分點;與Base-YOLOv3 相比,本文模型對大樣本圖像的mAP 提升了1.3~2.4 個百分點。與普通遷移模型LSTD 相比,對小樣本圖像、大樣本圖像的mAP 分別最高提升了13.4 和12.7個百分點。在大幅提升檢測準確率的同時,本文模型保持了與未改進前模型相近的參數量、計算量和收斂時間。下一步的工作將研究圖像類別之間的關系對模型檢測性能的影響。