999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種優化多種視覺任務模型的神經網絡模塊

2021-09-22 07:44:28趙釗龔霽程
電子技術與軟件工程 2021年13期
關鍵詞:特征檢測模型

趙釗 龔霽程

(上海西井信息科技有限公司研發部 上海市 200050)

1 引言

近年來,目標檢測[1-6]和實例分割[7-9]已經成為一個充滿挑戰性且十分熱門的研究領域。文獻[7]通過Mask R-CNN首次將兩個任務整合到同一個框架中,并且在這兩個任務上均取得了較好的結果。在此基礎上,文獻[10]又提出了Cascade R-CNN架構。其相對簡單且直觀的設計思路使得它很容易應用于大多數兩階段模型,如Faster R-CNN[11]、R-FCN[12]、FPN[13]、Mask R-CNN[7]和GCNet[14]。因為以上所有模型的檢測模塊在根據這個設計級聯之后,其性能都會有較為明顯的提升,級聯模型已經成為一種廣泛使用的架構設計優化思路。該優化思路之所以應用廣泛,可以歸結為以下兩點原因:

(1)多階段檢測產生高質量的檢測結果;

(2)避免了訓練時的過擬合和推理時的質量不匹配問題。

然而,多階段目標檢測[15,16]架構仍有許多可以被改進的方面。首先,級聯的方法是基于多套不同參數的回歸模塊構建的,這使得具有超過三個階段的級聯模型代價高昂。因為這將使模型擁有過多的參數。考慮到大多數級聯模型重復添加檢測模塊會大幅增加模型復雜度,因此絕大部分的基于級聯思路的檢測模型通常只級聯3次。另一個問題是,級聯模型所執行的檢測迭代步長是固定的。例如,一個三級級聯模型在訓練和測試次數上都只能進行最多三個階段的檢測。這使得模型嚴重缺乏平衡精度和速度的靈活性。

為了解決這些問題,本文提出了一個基于注意力機制的卷積長短時記憶模塊(A-ConvLSTM)。該模塊可以有效的應用于各種多階段目標檢測或分割的網絡模型。其主要思想同樣是受到級聯模塊的設計思路啟發,即對候選框進行多步的迭代以產生更加精確的檢測框。由于LSTM[17,18]層可以通過其結構內的門單元、記憶單元和狀態單元來適應每步迭代階段的框的分布,因此模型不再需要為每一步迭代定義單獨的檢測模塊。另外,ConvLSTM的隱藏層作為特征編碼用來計算空間維度注意力掩碼(spatial-wise attention masks)和通道維度注意力掩碼(channel- wise attention vectors),以增強輸入特征的重要區域和通道。

本文提出的模塊可以很容易地與不同的檢測模型進行集成,并且在所有任務上都取得了較明顯的效果提升。具體來說,提出的模塊被集成在兩階段檢測模型FPN和其對應的分割網絡上。為了簡化表述,后續分別稱這兩個模型為R-FPN和Mask R-FPN。此外,為了進一步提高檢測框的質量,一種兩步回歸機制也被提出。

本研究的貢獻可以歸納為:

(1)提出了一種基于注意力機制的卷積長短時記憶(Attentional Convolution Long Short Term Memory A-ConvLSTM)模塊。該模塊比Cascade Mask R-CNN能夠更好地進行多階段回歸、分類和分割掩碼預測[9]。此外,該模塊還可以與常用的多種檢測模型進行自然集成。

(2)基于A-ConvLSTM檢測模塊,每一步迭代回歸被進一步分解為兩步回歸的機制。通過對比實驗驗證,改進后的回歸模塊比標準的回歸模塊可以帶來更高的檢測框精度。

(3)為了驗證提出的方法,模型在COCO[19]和Pascal VOC[20]數據集上進行了大量的實驗。對于兩階段回歸的R-FPN,模型使用最先進的ResNet-50-FPN作為主干網絡,得到了43.0%的mAP和38.3%的分割AP。通過使用ResNeXt-101-FPN作為主干網絡,模型在COCO數據集上得到了已知最優的48.1%的mAP和41.9%的分割AP。

2 相關文獻

兩階段和多階段目標檢測兩階段網絡最初由R-CNN[22]和Fast R-CNN[3]提出并推廣。之后,Faster R-CNN[10]通過引入候選框生成網絡(Region Proposal Network RPN)對其結構進行了進一步的改進。該項工作使得兩階段的目標檢測模型可以通過端到端的訓練進行整體的參數學習。此外,文獻[23,24]提出了通過可變形卷積(Deformable Convolution)來增加各卷積核的感受野,以此來增強模型對大尺寸物體在空間位置相聚較遠的特征上的整合和學習。

近年來,為了提高目標檢測模型的精度,許多學者提出了多階段網絡的概念。AttractioNet[25]提出了卷積細化模塊(convolutional refining module),該模塊能夠遞歸地細化邊框。Cascade R-CNN[9]在FPN[12]檢測模塊之后再級聯兩個相同結構不同參數的檢測模塊,從而構建了三階段檢測模型。該模型同樣也得到了更高質量的檢測結果。文獻[26]的作者引入了一個模型框架,在該模型框架中,候選框將通過特定的卷積層進行多步迭代回歸。由此可見,多步迭代的級聯檢測方法已經成為一種被廣泛使用的提高模型性能的技術。采用相似方法的還有如GCNet[13]和HTC[27]等。

實例分割實例分割的主要任務是對輸入圖像進行像素級的分類。最典型的模型時基于檢測方法的Mask-RCNN[6]。該方法在Faster-RCNN上增加了一個像素分割的分支,并提出了利用關鍵區域像素對齊(RoIAlign)來改善分割邊緣粗糙的問題。為了提高底層信息的利用率,加快特征信息的在前向推理時的傳播速度,PANet[28]在FPN[12]后面增加了一條連接底層和上層特征輸出的路徑,并在全部的特征層上進行自適應池化(adaptive pooling)來統一特征尺度。HTC[27]通過交替執行檢測框的回歸過程和基于檢測框中間結果的掩分割碼預測過程,來優化級聯和迭代過程。作者還將不同階段的掩碼連接起來,建立不同階段之間的掩碼信息流,同時還在實例分割框架中引入語義分割,以獲得更好的空間上下文信息。與上述思路不同的是,MaskR-FCN的猜想假設基于模型可以通過增強每個階段的特征表示來進一步優化分割的掩碼預測。

3 主要方法

圖1:A-ConvLSTM的基本結構圖

圖2:R-FPN模型的架構

本研究旨在給出完整的A-ConvLSTM模塊的定義。同時,通過將其自然的集成在多種目標檢測和實例分割的框架中,展示該模塊為多種視覺任務模型帶來的精度提升。

3.1 A-ConvLSTM模塊

在文獻[27]中,作者引入了掩碼信息流傳播架構來共享前一步迭代的掩碼特征,獲得了較好的分割掩碼AP。文獻[26]的作者建議使用特定的卷積層來遞歸的進行候選框的回歸,而不是級聯多個檢測模塊。在本研究中,A-ConvLSTM模塊被提出,該模塊能夠:

(1)很好的適配并應在用基于多步迭代的視覺任務模型上;

(2)在所有的迭代步驟間實現信息流傳到;

(3)通過A-ConvLSTM的隱藏層狀態,模型可以解碼出注意力權重掩碼來增強輸入特征的空間和通道信息。

圖1展示了本文所提出的模塊的結構。對于步驟t,Ft表示A-ConvLSTM層h的輸入特征,編碼后的隱藏狀態被記為a:

其中,ct表示單元狀態,T表示最大的迭代步驟。

得到隱藏狀態后,模塊通過創建空間注意力掩碼來進行空間信息解碼。隨后,模型將這些解碼的信息用于回歸和分類。具體來說,每個隱藏狀態都將通過MLP層g全連接到一個一維向量然后該向量通過Sigmoid函數變換后得到注意力權重。最后,通過在注意力權重上加上一個偏移值來控制權重數值的范圍。注意力權重將被應用到輸入特征Ft+1上,以增強重要特征空間區域。具體來說,以上過程可以形式的表示為:

其中,σ表示Sigmoid函數,表示哈達瑪(hadamard)乘積。模型希望模型忽略不重要的區域,而更多地關注感興趣的區域。因此,實驗中偏移值bias被設為0.5,這樣注意力值就被限定在0.5到1.5之間。此時,輸入特征將在數值上被有效的放大或抑制。

3.2 R-FPN優化目標檢測

在本節中,本文提出的模塊將被集成到目標檢測模型中。具體來說,模型使用FPN作為基礎網絡架構,而其中的回歸分支將被替換為A-ConvLSTM層。在每一步的迭代中,模型將復用A-ConvLSTM層和分類分支的權重。另外,A-ConvLSTM的輸入是從RoI池化層輸出的RoI特征隨后,該特征被輸入到全連接層,來預測候選框的偏移量。圖2顯示的是本文提出的與FPN框架集成的模型的總體結構。RPN首先預測候選框,隨后模型對候選框中心進行平移和變換。每一階段,ConvLSTM的輸出將被用于生成注意力權重并作用在下一步迭代輸入的特征。圖2中Bn表示每個階段的邊框,Cn表示每個階段的分類結果,P表示候選框對應的池化特征。在第一個檢測階段之前,單元狀態初始化為零。隨著每一步的而迭代,這些狀態將被傳遞和更新到每個檢測階段。模型的回歸損失函數定義為:

其中,t表示檢測階段,xi表示第i個候選框的RoI特征,ci表示對應的單元狀態。gi表示第i個候選框的真值框。在第一步迭代之后,RoI特征通過前一步解碼的注意力掩碼來進行進一步增強或減弱。

兩步回歸法大多數兩階段和多階段模型[9-11]在一個回歸階段會直接預測了對應于原始錨定框的4個坐標偏移。但是,在大多數情況下,錨框的中心與檢測目標的中心尚未對齊,而此時錨定框對應的特征值可能無法覆蓋整個目標。在這樣的情況下,這些模型的檢測框可能無法回歸到較優的位置。因此,本文提出了一種新的兩步回歸法來解決這一問題。該方法將原來單一的回歸過程解耦為兩個步驟:在第一步中,預測錨定框中心坐標偏移量,并將錨定框平移到新位置。在第二步中,模型根據新的錨定框位置對應的感受野特征去預測檢測框的長寬修正值。

兩步迭代中的回歸特征選擇由于基礎網絡架構FPN包含來自不同層次的多個分辨率尺度特征。模型被設計選擇高層特征進行中心平移,因為這樣的特征包含更多的全局信息。相對的,模型選擇低層特征進行高度和寬度修正預測,應為這樣的特征包含更豐富的邊界細節信息。因此,原始的RoI公式被修改為:

表1:COCO數據集上的目標檢測結果,*表示沒采用兩步檢測回歸法

表2:COCO數據集上的分割掩碼預測結果

表3:級聯模塊和A-ConvLSTM模塊的參數量對比

其中,k0為候選框應歸屬的目標層,wh表示候選框的寬度和高度。當預測錨定框的中心偏移時,m=150,當預測寬度和高度變換時,m=224。直觀上看,m=150比m=224的k值更高,特征層次更深。

高層特征通常具有較大的感受野和較高的抽象水平,這有利于邊框中心回歸。另一方面,低層特征包含了更多的目標紋理和輪廓的細節,這有利于框形狀的回歸。通過整合不同層次的特征,提出的模型可以執行高質量的邊框回歸。

3.3 Mask R-FPN優化分割掩碼預測

A-ConvLSTM模塊也可以應用于實例分割任務。模型對FPN的分割掩碼預測的分支進行了擴展。具體做法是在分割掩碼預測卷積層后插入一個A-ConvLSTM層,其余的結構保持不變。在每個回歸階段之后,模型再次利用A-ConvLSTM中的隱藏狀態來計算一個空間注意力掩碼。然后,將掩碼與輸入的候選框特征相乘,并將整個分割預測過程重復t次。整個過程可以看作是圖1中所示結構的擴展。在這種情況下,候選框的重要區域將獲得更多權重。模型取每次迭代步驟中分割掩碼logit的平均值作為最終的預測。

為了減少計算開銷,模型僅將最后階段的候選框用作掩碼預測分支的輸入,而不使用所有回歸階段的候選框。實驗結果表明,該方法能夠進行更高質量的分割掩碼預測。

4 實現細節

作為對比實驗的基線模型選擇了Cascade Mask R-CNN,它是通過Tensorpack[32,33]來實現的。本文中的模型使用相同的框架來實現兩階段模型,以確保公平的實驗對比。輸入圖像的短邊調整為800像素,長邊調整為不超過1333像素。模型使用8個GUP進行訓練,同時固定了批歸一化的可學習參數。初始學習率設置為0.005,并在180k和240k迭代時降低0.1倍。R-FPN有3個平移步驟和3個轉換步驟,相當于3此標準的單步回歸。訓練期間的IoU閾值設置為{0.5,0.5,0.6,0.6,0.7,0.7}。實驗中使用的唯一的圖像增強方法是水平翻轉(horizontally flipping)。在測試時,Cascade Mask R-CNN和本文中模型的NMS閾值都設置為0.5。

5 實驗分析

5.1 數據集和評估指標

基礎數據集模型在COCO和Pascal VOC數據集上進行了大量實驗。本文提出的R-FPN和Mask R-FPN模型在COCO訓練集上(約118k張圖片)進行訓練,并在驗證集(約5k張圖片)和測試集(約20k張圖片)上進行了評估了。

評估指標實驗使用業界標準的目標檢測評估指標,不同交并比(Intersection of Union IoU)閾值下的平均精度(Average Precision AP)來平度評估每個模型的性能。為了方便表示,此處簡記AP@IoU X。其中X是IoU的閾值參數,實驗中X設置為0.5到0.95,步長間隔為0.05。另外,實驗還對不同尺寸下的目標物的AP進行了統計。實驗中,目標物的尺寸被設置為小(面積小于32個平方像素)、中(面積大于32個平方像素,小于96個平方像素)和大(面積大于96個平方像素)目標。

5.2 與先進模型的比較

圖3:邊框回歸可視化的注意力掩碼

圖4:回歸過程示意圖

R-FPN的結果本節將對FPN與目前已知的幾個最高精度的模型進行比較。表1顯示了COCO數據集上檢測框的精度統計結果。

基于ResNet-50-FPN的主干網絡,實驗展示了多種具有代表性的模型結果。同時,根據相同的實驗配置,對本文提出的模型進行了結果比較??梢钥吹?,與基準模型Cascade Mask R-CNN相比,R-FPN的整體AP比前者高出1.7%。值得注意的是,帶有語義分割分支的HTC模型的檢測框 AP可以達到43.6%。然而,包括R-FPN在內的所有其他模型都是只通過兩個任務,即目標檢測任務和實力分割任務,進行協同學習的。本文認為通過這樣添加額外協同訓練任務的模型會通過更多的帶有信息的標簽給模型的訓練帶來精度上的提升。因此,為了進行公平的比較,實驗中的HTC模型被去掉了語義分割的分支而只保留了檢測和實例分割的分支。在這樣的模型結構下,用完全相同的實驗配置進行模型訓練和測試,得到的AP精度為表中的43.0%。據目前可查的數據顯示,在單尺度輸入圖片的訓練和測試下,基于ResNet-50-FPN主干網絡的R-FPN達到的43.0%AP 是目前已知能達到的最高檢測精度。此外,R-FCN相較于Cascade Mask R-CNN在AP75和APS都提高了1.3%,這同樣表明本文所提出的模型能夠進行更高質量的檢測框回歸,并且能夠很好地處理更具有挑戰性的目標(小目標和高精度檢測框需求的目標)。

另一個基于ResNeXt-101-FPN[33]主干網絡的R-FPN,不需要使用任何其他的數據增強技術。與PANet和HTC等最先進的方法相比,48.1%的整體AP和明顯高于其他模型的AP75和APL說明R-FPN在大型主干網絡下同樣具有明顯的精度優勢。

Mask R-FPN的結果為了進一步驗證本文提出的模塊對提高視覺任務模型精度的通用性和有效性。本文同時進行了對實例分割任務的實驗分析,相關結果如表2所示。為了進行公平的對比,基于相同的原因分析,實驗中HTC模型的訓練同樣也不包含的語義分割的分支??梢钥吹?,基于主干網絡ResNet-50-FPN的Mask R-FPN的分割掩碼預測AP比基準模型Cascade Mask R-CNN高出1.8%,比HTC高出0.9%。同時,大物體的掩碼APL同時也比另外者分別高出3.2%和0.3%。最后,Mask R-FPN的AP75和APs相對于HTC分別高出了1.0%和0.3%。

一個基于更大的主干網絡ResNeXt-101-FPN的Mask R-FCN在分割掩碼預測上的AP達到41.9%,是所有已知方法中最高的。同時,除了APL之外,本文提出的模型在幾乎所有指標上都有約0.5%的提升。值得注意的是,在APs上的提高是顯著的1.7%。

5.3 相關性研究

在這一小結,為了驗證所提出的模塊,A-ConvLSTM,的關鍵部分的有效性,本文進行了大量的相關性實驗。

A-ConvLSTM參數表3統計了三階段Cascade R-CNN模型與R-FPN模型的回歸模塊的參數量。對于A-ConvLSTM層的超參數配置如下:RoI特征被編碼成形狀為7*7*256的三維特征圖,然后將其解碼為長度為4的向量表示邊框回歸結果??梢钥吹紸-ConvLSTM相對于三階段Cascade R-CNN的回歸模塊的參數量小了一個數量級。

注意力掩碼的可視化通過可視化處理,可以直觀的觀察每個回歸迭代步驟的注意力掩碼的空間分步如圖3所示??梢钥吹剑⒁饬ρ诖a通過逐步迭代,逐漸被細化到潛在的檢測框邊緣位置。這表明回歸模塊對這些區域特征給予了更多的關注。

兩步回歸圖4顯對比了標準的回歸機制與本文提出的兩步回歸機制之間的區別,紅色框表示真值框,藍色框表示候選框,黃色框表示最終檢測框,陰影區表示特征的感受野。其中圖4(b)和圖4 (c)表示標準回歸步驟。圖4 (d),圖4 (e)和圖4 (f)表示兩步回歸過程,第一步預測較大感受野的中心平移,第二步則預測較小感受野下的高度和寬度修正通過在平移和變換中使用不同層次的特征,回歸模塊可以獲得必要的特征感受野。具體來說,更深層次的特征包含更大的特征感受野,有利于中心平移;而低層次的特征則有利于邊框尺寸的回歸。結果表明,兩步法回歸的邊框的精度高于標準的回歸機制得到的結果。

6 結語

本文介紹了一種基于注意力的長短時計以網絡模塊A-ConvLSTM。該模塊可靈活簡潔的應用于多種目標檢測和分割框架?;诖罅康膶嶒瀸Ρ群头治?,可以看到基于該模塊的(Mask)R-FPN模型達到了目前已知最高的43.0%的目標檢測AP以及38.3%的分割掩碼AP。以ResNeXt-101為主干網絡,該模型在這兩個任務上進一步實現了48.1%和41.9%的AP。這充分證明了本文所提出模塊的有效性和可遷移性。另外,通過對迭代步長的自定義調整,該模塊可進一步實現對推理精度和速度的有效平衡。

然而,研究結果顯示當迭代步驟超過4步時,AP值的提高有所放緩直至第5或6步收斂。更具體地說,在每個迭代步驟過后模型的AP75都會增加,而AP50會開始減少。經過研究,可以發現大多數級聯/多步驟模型都會觀察到相似的情況[35]。這一現象類似于殘差神經網絡[36](ResNet)被設計解決的問題的初衷:當深度神經網絡層數達到一定深度時,模型精度很難提高。因此,通過解決以上問題,有理由相信本研究還有進一步的改進空間。同時,雖然在檢測和分割上展現了A-ConvLSTM模塊的帶來的性能提升,該模塊仍可以被擴展到更多的視覺任務模型上去,從而進一步驗證其通用性和有效性。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久一级电影| 91精品国产综合久久不国产大片| a在线亚洲男人的天堂试看| 女同国产精品一区二区| 亚洲精品中文字幕午夜| av手机版在线播放| 2020久久国产综合精品swag| 99久久国产自偷自偷免费一区| 国产chinese男男gay视频网| 另类重口100页在线播放| 九九线精品视频在线观看| 少妇精品在线| 亚洲综合色婷婷| 日本人妻丰满熟妇区| 欧美中文字幕第一页线路一| 免费国产不卡午夜福在线观看| 夜夜操狠狠操| 中文字幕乱码二三区免费| a级毛片毛片免费观看久潮| 91美女视频在线| 欧美成人一区午夜福利在线| 久久青草热| 久久久久亚洲Av片无码观看| 国产69精品久久久久孕妇大杂乱| 亚洲午夜天堂| 亚洲视频色图| 亚洲精品午夜天堂网页| 亚洲第一在线播放| 美女被狂躁www在线观看| 亚洲第一在线播放| 午夜爽爽视频| 丁香婷婷激情综合激情| 欧美激情综合| www.91中文字幕| 国产三级毛片| 区国产精品搜索视频| 免费看a级毛片| 91免费片| 玖玖精品视频在线观看| 国产第四页| 久草青青在线视频| 亚洲精品视频免费观看| 国产迷奸在线看| 呦视频在线一区二区三区| 在线日韩日本国产亚洲| 99热免费在线| 亚洲免费播放| 国模私拍一区二区| 国内丰满少妇猛烈精品播| 亚洲一区二区黄色| 动漫精品中文字幕无码| 999国内精品久久免费视频| 东京热高清无码精品| 日韩高清欧美| 国产精品区视频中文字幕| 欧美第二区| 囯产av无码片毛片一级| 国产91久久久久久| 亚洲最大福利网站| 欧洲欧美人成免费全部视频| a亚洲视频| 无码在线激情片| 欧美一级片在线| 精品国产网站| 午夜视频日本| 国产a在视频线精品视频下载| 色老头综合网| 五月婷婷激情四射| 国产玖玖玖精品视频| 精久久久久无码区中文字幕| 日韩在线欧美在线| 国产精品999在线| 1769国产精品视频免费观看| 又粗又硬又大又爽免费视频播放| 青草精品视频| 久久中文字幕不卡一二区| 久久性妇女精品免费| 色AV色 综合网站| 久久久久亚洲AV成人网站软件| 亚洲精品动漫在线观看| 亚洲资源站av无码网址| 91丨九色丨首页在线播放|