999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自適應正則化的東北虎重識別方法

2022-04-21 05:18:48于慧伶錢成帥
計算機工程與應用 2022年8期
關鍵詞:特征方法模型

于慧伶,錢成帥

東北林業大學 信息與計算機工程學院,哈爾濱 150040

重識別是一項有益于在自然環境下對野生動物進行識別與追蹤的技術,將重識別技術應用于野生動物的信息采集和軌跡追蹤等任務中,野生動物監測的成本以及人工部署和采集的危險性將顯著降低。故近幾年,研究人員逐漸把重識別技術應用于保護稀有野生動物以及追蹤動物個體。例如,2005年,Arzoumanian等人[1]利用一種識別星型的天文學算法分析鯨鯊側面特有的斑點圖案,以探索鯨鯊重識別的方法。2007年,Ardovini等人[2]利用多曲線匹配的方法根據圖片對大象進行重識別。2014年,Carter等人[3]采取了一種訓練多個不同網絡的集成方法根據龜殼圖案實現了對綠海龜的重識別,目前該方法被用于監測綠海龜種群。2017年,Weideman等人[4]介紹了一種結合積分曲率表示和兩種匹配算法通過鰭來識別鯨類的新方法。2018年,Korschens等人[5]成功地設計了一個能夠幫助生物學家識別野外大象的系統。

近幾年,有研究人員對東北虎進行了重識別,如2019年,Li等人[6]介紹了一個大型的野外東北虎重識別(ATRW)數據集,并提出了兩個東北虎重識別基線方法,該方法在深度神經網絡中引入了精確的姿態局部建模來處理東北虎較大的姿態變化,但該方法受限于東北虎的關節點標注。2019年,Liu等人[7]提出了一種基于由全局流(Global Stream)和局部流(Local Stream)兩大部分構成的PPGNet,以局部流指導全局流學習和調整局部特征的方法,該方法采用三分支流網絡結構增加了訓練時的參數,從而對訓練時的速度和效率產生了一定程度上的影響。

本文方法貢獻了兩個方面。首先,提出了一種基于局部分塊和自適應L2正則化方法的網絡模型(partbased convolutional baseline-AdaptiveL2,PCB-AL2),該模型只需輸入一張圖像即可完成從訓練到推理的過程。其次,將局部特征和全局特征結合起來,通過局部特征指導全局特征的學習。本文在ATRW數據集上進行了多重實驗,最終結果表明:相比于其他方法,本文方法在跨相機重識別上的效果更加出色,有效解決了東北虎重識別在跨相機追蹤下精準度低的問題。

1 相關研究工作

對于東北虎重識別來說,由于不受限制的四肢運動以及處于復雜的自然環境和光照條件下,東北虎的姿態變化范圍更廣。此外,與人的外表不同,東北虎身上的條紋更加相似,并且更加模糊,沒有辨別性較強的特征信息作為指導,故難以識別。

1.1 重識別方法

動物和人的重識別[8]都屬于圖片檢索問題,目前基于神經網絡的行人重識別方法大致可以分為兩個步驟,第一步是提取特征,早期的研究主要是利用深度學習的方法[9]基于圖像的全局特征進行提取[10-13]。該方法的主要思想是在訓練模型時將行人重識別當作分類任務來學習行人特征,即首先通過卷積神經網提取圖像中的行人特征,根據得到的特征判斷是否屬于同一個體。例如,Geng等人[10]設計的網絡模型包括分類子網絡和驗證子網絡,分類子網絡用于對圖像ID進行預測,根據分類誤差訓練網絡,從而使網絡具有提取行人有效特征的能力。驗證子網絡根據行人特征判斷是否屬于同一個體。該方法的優點在于穩定性強且易于訓練,缺點是在復雜的背景環境下效果一般、性能較差。

以上所述都是基于全局特征的提取,即用整個圖片得到一個特征向量。后來研究者們發現這類提取全局特征的方法往往會忽略一些不顯著的細節,使模型的性能存在瓶頸。故有研究人員提出了第二類方法[14-17],該方法基于行人的局部特征來完成重識別任務。研究初期,常用圖片分塊的方式提取出全局特征[14],這種方法對圖片的對齊程度要求苛刻,若兩張圖片沒有對齊,則可能出現不同部位對比的現象,從而影響模型的性能。為解決圖像對齊的問題,一些研究人員使用先驗知識預先將行人對齊,比如使用人體骨架關鍵點提取[16]和人體姿態估計[15]以及MGN(multiple granularity network)[17]等方法。后續實驗證明,通過引入一個額外的對齊模型,雖然加大了系統開銷,但能夠提取到更豐富的細節信息,從而提高了模型性能。

第二步就是對提取出的特征嵌入進行度量學習[18-23],該方法的主要思想是使具有相同ID的行人圖像特征距離小,而不同ID的行人圖像特征距離大。如文獻[18]使用對比損失訓練一對孿生網絡,網絡以一對帶標簽的圖像作為輸入,若兩張圖像同屬一個ID,則為正樣本對,標簽y=1,反之稱為負樣本對,標簽y=0。另有通過最小化對比損失,使正樣本對之間距離變小,負樣本對之間距離變大。類似的方法還有Triplet loss[19-21]、Quadruplet loss[22]以及Group similarity learning(CRF+DNN)[23]等。

1.2 正則化方法

在訓練網絡階段,正則化對神經網絡參數起到約束的作用,并對目標函數施加懲罰,它是一種提高模型泛化能力的方法。Laarhoven[24]證明了在存在批處理歸一化[25]和權重歸一化[26]時,L2正則化會影響權重的大小,從而影響有效學習率。類似的,Hoffer等人[27]研究了在批處理歸一化之前應用權重衰減是如何影響學習效率。結合權值衰減和批處理歸一化將正則化范數約束到較小范圍內,并導致權值方向更穩定的步長。在之后的研究中,Loshchilov等人[28]澄清了一個長期的誤解,即在應用自適應梯度算法時,L2正則化等同于權重下降的說法并不成立。最近,Lewkowycz等人[29]對L2范數、學習率、訓練次數和模型性能之間的關系進行了實證研究。

2 方法實現

2.1 網絡結構設計

針對東北虎身體條紋等局部特征信息,傳統的單分支網絡結構主要學習局部特征信息,忽略了全局特征信息的影響,易發生過擬合現象。因此,與PCB(part-based convolutional baseline)網絡[30]的單支路線不同,本文采用的PCB-AL2具有雙分支網絡結構:全局分支結構和局部分支結構,圖1展示了這些分支的結構。首先,本文采用在ImageNet上經過預訓練的ResNet-50作為骨干網絡。它將被分為五個獨立的部分,其中第五部分通過預訓練剪裁得到24×8×1 024的特征圖,本文把最后一個卷積層的步長設置為1,而不是默認的2,這將使特征圖的維度增加二倍,得到24×8×2 048的特征圖作為分支的輸入。其次,給定一組圖像,全局分支依次利用骨干網絡中的結構進行訓練,并在末尾附加目標模塊,得到全局分支的特征向量D g。

圖1 整體網絡結構Fig.1 Overall network structure

除了全局分支結構,局部分支結構也被整合到網絡中。首先,局部分支的輸入是復制來自骨干網絡中的第五部分,且不與全局分支共享權重。其次,現有的東北虎重識別方法主要基于身體條紋,故本文采用PCB中的劃分方法,切片層顯示地將特征圖劃分為六條垂直的水平條紋。最后,在每個水平條紋上使用卷積層進行維數縮減并在末尾附加目標模塊,提取的特征向量沿著通道進行特征融合得到最終的局部分支特征向量D r。其中,剪裁層插入到全局平均池化層和批處理歸一化層之間。剪裁層的工作方式與ReLU-n[31]相似,減輕了后續難三元組損失的優化困難。

圖2展示了目標模塊的結構,該模塊將兩個分支提取出的特征圖分別轉化為學習目標。全局平均池化層將特征圖中的空間維度進行壓縮,經過剪裁層和批處理歸一化層后得到新的不含偏置項的特征向量。最后通過全連接層生成每個唯一標簽的預測概率,從而使模型能夠利用交叉熵損失(ID loss)函數進行優化。在推理過程中,提取批處理歸一化層前的特征嵌入,將多個模塊的特征嵌入連接起來作為特征表示,采用余弦距離度量兩個樣本之間的距離。

圖2 目標模塊的結構Fig.2 Structure of objective module

2.2 特征融合

為利用均勻分塊的局部特征信息指導全局特征的學習和對齊,本文利用相應元素來融合兩個分支的局部特征和全局特征:

其中,Z gr代表全局分支和局部分支的融合特征向量。

2.3 損失函數

2.3.1難三元組損失

三元組損失(triplet loss)是常用的重識別損失函數。如圖3所示,一組三元組包括一個正樣本對和一個負樣本對,固定圖片a(Anchor)、正樣本圖片p(Positive)和負樣本圖片n(Negative),a與p組合成正樣本對,a與n組合成副樣本對,則三元組損失表示為:

圖3 三元組和難三元組原理Fig.3 Triplet and TriHard principle

其中,distance為歐氏距離,α為distancea,p和distancea,n之間的最小距離,根據實際需要設定的閾值參數。對于行人或野生動物重識別任務,交叉熵損失和三元組損失都被廣泛應用到網絡優化。在本文設計的網絡中,同樣在訓練階段使用這兩種損失的組合對網絡進行優化。

經已有實驗驗證,使用基礎的三元組可能會使訓練的特征過于簡單,故使用Alexander等人提出的難三元組損失(TriHard loss)[32]。如圖3所示,對每個圖片a在一個批次里挑選距離最近的負樣本圖片n1和距離最遠的正樣本圖片p1再訓練網絡,使相同身份的樣本距離拉近,不同身份的樣本距離拉遠,旨在使網絡能夠學到更加豐富的特征信息從而提高泛化能力。難三元組損失表示為:

2.3.2整體損失

如圖2所示,由全局分支訓練得到的原始圖像特征向量D g分別計算ID損失和難三元組損失,特征融合的Z gr分別計算ID損失和難三元組損失。

Z gr分別由全局特征和局部特征組成,因此損失的產生不依賴于某個單一分支的特征信息,而是由兩個分支聯合決定。在訓練階段進行反向傳播時,由位姿部分流的融合特征計算得到的全局分支會出現梯度下降。因此,全局特征總是可以受到局部特征的影響來調整網絡參數。也就是說,按垂直均分的局部分支在訓練階段對全局分支的特征學習起到了積極的引導作用。

對于ID損失,每個特征向量之后是批處理歸一化(BN)層和全連接(FC)層。

2.4 引入自適應正則化

常規的L2正則化通常作用于全部可訓練的參數上,對目標函數中的某些參數進行限制,防止模型過擬合,且不隨反向傳播的變化而變化,即正則化因子在整個訓練過程中保持恒定。除此之外,還需要研究者對超參數進行優化,手動選擇正則化因子。

如公式(4)所示,W包含所有可訓練的參數,ωn表示數組組成的向量或矩陣。例如,全連接層中的核函數和偏差項分別是矩陣和向量。常規的L2正則化對目標函數施加了額外的懲罰項,用以下公式表示:

其中,Dλ(S)以及D(S)分別代表更新后和原始的目標函數,在本文提出的模型中,D(S)是ID損失和難三元組損失的加權和。另外,代表ωn的L2范數的平方,λ代表正則化系數代表正則強度。

正則化因子的比重與網絡層的深度成正比,在較淺的層中應用較輕的正則化,在較深的層中應用較強的正則化。因此,可以進一步推廣,即為每個定義一個唯一的系數,也可以對目標函數施加懲罰。其中每個參數ωn都與一個單獨的正則化因子相關聯。

由于ResNet-50中參數眾多,手動調節正則化因子是不現實的。因此,可以將正則化因子作為可學習的參數,從數據中學習到適合的值。

為了使上述正則化因子自適應,本文使用通過反向傳播來訓練的變量來替代原始預定義的常數λn來獲得直接拓展。但是,這種對λn沒有任何約束的方法會導致Dλ(S)迅速下降,即L2正則化懲罰項在訓練過程中占據主導地位,最終導致模型的崩潰,無法學習到有用的特征信息。

為解決上述問題,本文引入由文獻[33]提出的自適應L2正則化函數,該函數可以保證正則化因子λn為非負值,函數定義為:

超參數A的作用是減輕正則化因子的靈活性,以避免正則化因子導致模型崩潰,其中θn∈?{n=1,2,…,N}是可訓練的標量變量。f(θn)采用的是hard sigmod函數,該函數如下:

2.5 優化方法

數據增強。圖片被調整到輸入大小時使用雙線性插值方法,并將圖片水平隨機翻轉,概率設為0.5。圖像的頂部、底部、左側、右側都添加了零間隔,隨后剪裁具有輸入大小的隨機部分。除水平翻轉外,還利用隨機擦除[34]進行數據增強。在訓練過程中,去除原始圖像的一個區域,提高模型的魯棒性,特別是在遮擋的情況下。

Linner Warmup。在訓練初期,學習率從一個較低的值線性增加到預先定義的學習率。在驗證階段,學習率調整為之前的1/10。一方面,Linner Warmup策略可以抑制初期訓練時的梯度消失問題,防止過擬合;另一方面,周期性地降低學習率可以進一步提高性能。

標簽平滑(label smoothing)。標簽平滑正則與ID損失一起使用,即給定一組真實標簽y∈{1,2,…,N},只有當索引j和標簽y相同時,one-hot編碼標簽n(j)等于1,否則等于0。標簽平滑引入超參數α∈(0,1),公式為:

3 實驗驗證與結果分析

本實驗選擇了高效、可擴展性強的TensorFlow框架,TensorFlow采用靜態計算圖機制,可以在訓練階段速度更快、效率更高,并采用GPU加速模型訓練。通過數據增強,本實驗將批處理大小設置為16,并對模型進行200個epoch的訓練,初始化基本學習率為2×10-4,在30個epoch后學習率衰減到2×10-6直至模型收斂,hard sigmod中的參數b設置為2。將全局分支以及融合特征得到的ID損失和難三元組損失分別被加權為1.0、1.5、2.0、2.5,值得一提的是,本實驗將每幅原始圖像的大小調整為128×384時實驗效果最佳。本實驗使用ResNet-50作為骨干網絡,并將最后一個卷積層的stride變為1,極大增加特征信息,便于模型學習。

3.1 數據集

ATRW由文獻[6]提出,作為東北虎重識別的標準數據集,該數據集相比其他動物重識別數據集規模更大、注釋更詳細,且是在各種自然條件下制成。如圖4所示,這對東北虎重識別的研究十分重要。該數據集包含了92只老虎,182個實體(身體兩側的花紋作為不同的實體)的3 649個邊界框注釋。在整個數據集中,與行人重識別數據集Market1501不同,并非所有的實體都是在跨攝像機下拍攝的,約有70個實體來自跨攝像機,其余來自單個攝像機的不同時間幀。在本文實驗中,訓練集中有70個實體來自單一攝像頭,30個實體來自交叉攝像頭,其余圖像作為測試集,即訓練集中包含1 887幅圖片,測試集中包含1 762幅圖片,其中測試集既是查詢集也是圖庫集。為了擴大數據集,通過水平的翻轉訓練集中的圖像來創建更多的“新實體”,因為同一只東北虎的不同側面被視為不同的實體。

圖4 ATRW示例Fig.4 ATRW example

3.2 評估準則

利用ATRW數據集,本文實驗采用兩個評估指標來衡量性能,即平均精度均值(mean average precision,mAP)和累計匹配特征(cumulative match characteristics,CMC)Rank-k精度。度量函數計算查詢圖片和圖庫樣本之間的距離,并結合真實老虎實體和攝像機ID作為輸入。由于查詢樣本在圖庫集中可能具有多個真實匹配項,因此考慮了準確率和召回率的mAP要優于Rank-k。根據查詢圖像出現在相機中的情況,本文將每個查詢圖像分為單一攝像機和跨攝像機兩個部分,包括目標老虎只出現在單一攝像機中以及目標出現在多個攝像機中。

3.3 與現有方法比較

表1展示了PCB-AL2和現有方法的實驗結果。首先,本文所提出的PCB-AL2網絡模型在單攝像頭環境下和交叉攝像頭環境下的性能都優于現有方法。在單攝像頭環境下,本文方法的mAP達到92.1%,相較于PPGNet的性能提升了1.5個百分點,rank-1和rank-5分別達到98.2%和99.7%;在交叉攝像頭環境下,本文的方法mAP達到75.1%,相比PPGNet的性能提升了2.5個百分點,rank-1和rank-5也分別達到了96.3%和97.6%。

表1 本文方法在測試集上的結果與其他方法的比較Table 1 Comparison of results of method in this article on test set and other methods %

其次,利用自適應L2正則化機制對PCB-AL2模型進行訓練。公式(7)中的振幅A設為0.005。一方面,PCB-AL2比采用姿勢對齊等方法取得了不錯的改進,特別是在交叉攝像頭的環境下。另一方面,相比PPGNet模型使用的ResNet-101,本文提出的PCB-AL2使用的ResNet-50減小了計算量;相比PPbM模型,本方法不需要精確的姿態建模。由于將re-ranking[35]方法在推理過程中用于測試數據,mAP達到了92.1%。

綜合來看無論是本文采用的基線方法還是PCB-AL2方法,在單攝像頭環境下的各個評估指標都優于在交叉攝像頭環境下的指標,mAP差距達到17.0個百分點。而對于單攝像頭來說,它采集到的都是某只東北虎在某個攝像頭下的連續圖像,這些圖像的背景、光照、遮擋等方面的差距不是很大。但對于交叉攝像頭環境來說,它采集到的是某只東北虎被兩個或兩個以上攝像頭拍的圖像,也就是說不同攝像頭拍到了同一只老虎,而不同攝像頭采集到的老虎圖片在時間、色調、拍攝角度、自然環境等諸多方面存在這明顯的差異。在實際應用中,解決跨攝像頭下的東北虎識別和追蹤,提升算法在交叉攝像頭環境下的性能具有十分重要的意義。

3.4 消融實驗

為測試本文方法中各個模塊對模型性能的貢獻,本文設計了消融實驗,通過將全局分支、三元組損失以及人工挑選的L2正則化作為模型的基準,以驗證每個模塊的效果。表2展示了消融實驗結果,TriHard Loss的引入使模型性能在單攝像機和跨攝像機中都有顯著提升,對比基礎的三元組損失,這種提升是由于TriHard Loss剔除了訓練集中的簡單數據,更加精準地訓練東北虎細粒度特征,以類似于相似性搜索的方式直接優化了模型。盡管標簽平滑在單攝像機和跨攝像機只帶來了小部分的提升,但在實驗中發現,它能夠有效防止模型過擬合。一方面,局部分支的加入使模型在單攝像機和交叉攝像機下的mAP分別提高了5.0個百分點,這表明只通過全局分支訓練的模型忽略了東北虎身體條紋等局部特征信息,當結合局部特征信息和全局特征信息時,模型可以學習到更加細節的特征,從而性能得到顯著提高。另一方面,通過使用在整個訓練過程中保持自適應更新的L2正則化因子,不僅使模型得到更好的優化,還減輕了人工挑選的負擔,使得兩種攝像機下的mAP均有顯著提升。

表2 使用ResNet50為骨干網絡的消融實驗Table 2 Ablation study of baseline using ResNet50 backbone %

4 總結

本文針對在自然環境下的東北虎重識別任務采用了一種新穎的基于局部分塊網絡和自適應正則化方法的模型(PCB-AL2)。該模型由全局分支和局部分支組成,通過局部分支提取東北虎身體條紋的特征信息來指導全局分支特征的學習。除此之外,本文引入一種自適應L2正則化方法,它與現有的經過人工挑選的恒定正則化因子不同,自適應L2正則化因子隨反向傳播的改變而自適應地更新,從而提高了模型的泛化能力,解決模型在訓練時過擬合等問題。在數據集方面,采用基于東北虎條紋特征的數據擴充方法,增加了數據集的實體個數。最后本文在ATRW數據集上進行實驗對比,結果表明,在單攝像頭和交叉攝像頭下,本文方法的性能都優于現有方法。單攝像頭環境和交叉攝像頭環境下的mAP分別達到了92.1%和75.1%。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲国产理论片在线播放| 亚洲日韩精品综合在线一区二区| 国产av色站网站| 色欲国产一区二区日韩欧美| 中文字幕佐山爱一区二区免费| 91视频国产高清| 国产不卡一级毛片视频| 热久久国产| 久久婷婷色综合老司机| 国产凹凸视频在线观看| 女人18一级毛片免费观看 | 亚洲一区免费看| 国产亚洲精品91| 久久久久国色AV免费观看性色| 999国内精品久久免费视频| 青青草原国产av福利网站| 孕妇高潮太爽了在线观看免费| 亚洲高清无码久久久| 好久久免费视频高清| 直接黄91麻豆网站| 爆操波多野结衣| AⅤ色综合久久天堂AV色综合 | 国产swag在线观看| 伊人久久久久久久| 伊人久久大线影院首页| 在线观看91精品国产剧情免费| 色有码无码视频| 亚洲人成亚洲精品| 在线播放国产99re| 久久久噜噜噜| 无码又爽又刺激的高潮视频| 国产成人久视频免费| 99热这里只有精品在线观看| 国产人碰人摸人爱免费视频| 五月激激激综合网色播免费| 色综合激情网| 国产91成人| 欧美成人一区午夜福利在线| 国产精品观看视频免费完整版| 伊人精品成人久久综合| 午夜综合网| 久久精品人妻中文系列| 亚洲人成网站观看在线观看| 日本国产精品一区久久久| av尤物免费在线观看| 欧美区一区二区三| 久久久久免费精品国产| 国产精品久久精品| 欧美激情一区二区三区成人| 亚洲一级毛片免费观看| 欧美在线网| a毛片基地免费大全| 99re免费视频| 亚洲国产精品VA在线看黑人| 亚洲av日韩av制服丝袜| 九九热这里只有国产精品| 国内精品自在欧美一区| 日韩a级毛片| 青草精品视频| 亚洲激情99| 亚洲自偷自拍另类小说| 欧美国产视频| 91福利一区二区三区| 高潮毛片无遮挡高清视频播放| 亚洲一区二区三区国产精品 | 亚洲无线观看| 波多野结衣视频网站| 天天综合网在线| 青草视频久久| 成人年鲁鲁在线观看视频| 午夜视频日本| 亚洲aaa视频| 伊人福利视频| 亚洲人精品亚洲人成在线| 91色国产在线| 欧美在线精品怡红院| 欧美亚洲一区二区三区在线| 亚洲一区二区精品无码久久久| 国产欧美日韩视频一区二区三区| 国产精品污污在线观看网站| 免费中文字幕在在线不卡| 九九线精品视频在线观看|