









摘 要 東北虎(Panthera tigris altaica)作為世界上最大的貓科(Felidae)動物,同時也是瀕危物種,其個體識別是回答進化生物學中許多重大問題的關鍵步驟。盡管目前已提出虹膜和DNA分析等傳統方法用于東北虎個體識別,但這些方法在遠程獲取和樣本收集方面面臨挑戰,且在很大程度上依賴人工識別。隨著計算機視覺技術的發展,深度學習成為動物個體識別的強大工具。因此,提出使用基于深度學習的方法進行東北虎個體識別。首先收集黑龍江東北虎林園20只東北虎個體的監控視頻圖像,然后采用Mask R-CNN算法對每張圖像中的特征區域進行自動檢測與分割,以構建東北虎條紋數據集(Amur tiger stripe dataset,ATSD),最后在該數據集的基礎上分別應用基于CNN和Transformer的多個分類網絡獨立地對東北虎個體進行識別。結果表明:基于Transformer的分類網絡對東北虎條紋的識別準確率達到91. 49%,取得了更好的識別性能。該方法在降低拍攝條件下,對復雜環境具有良好的適用性,具有擴展生態學調查和非侵入性抽樣設計的潛力,為野生動物的保護和管理提供技術支持。
關鍵詞:東北虎;個體識別;條紋識別;深度學習;Transformer
中圖分類號:Q958; TP391. 4; TP183
文獻標志碼:A
文章編號:2310 - 1490(2024)- 04 - 0734 - 10
DOI:10.12375/ysdwxb.20240406
東北虎(Panthera tigris altaica)不僅是現存的5個虎亞種之一[1],也是我國一級重點保護野生動物[2],被世界自然保護聯盟(IUCN)瀕危物種紅色名錄評估為瀕危(EN)物種[3],目前主要分布在俄羅斯東南部,在中國東北部的中俄邊境和朝鮮邊境有少量種群[4]。大多數關于動物種群行為和生態學的研究都要求受試者具有個體可識別性,動物個體識別的研究不僅是回答進化生物學中許多問題的關鍵步驟,也是衡量實施保護計劃成功的先決條件[5]。此外,東北虎個體識別可為人虎沖突的管理和東北虎的保護提供重要技術支持。起初,研究人員使用傳統方法,如DNA[6]、足跡[7]和氣味[8]等對東北虎進行個體識別。然而,在東北虎種群密度低和非損傷性取樣條件有限的情況下,這類方法在采集糞便和毛發樣本上變得困難且檢測率普遍較低。此外,傳統方法需要投入大量人力與時間,且在很大程度上依賴操作者的經驗,存在主觀性問題。
隨著計算機視覺與人工智能的不斷發展,深度學習(deep learning)技術在動物個體識別等領域取得了巨大進展[9]。何東健等[10]在擠奶間的通道上方安裝攝像機采集奶牛的背部圖像,基于改進的YOLO v3算法對擠奶廳中89頭奶牛進行個體識別,其識別準確率為95. 91%。Freytag et al.[11]使用CZoo和C-Tai 黑猩猩(Pan troglodytes)數據集,訓練AlexNet卷積神經網絡(convolutional neural network,CNN),使用C-Tai 數據集的識別準確率達到75. 66%,而在C-Zoo數據集上則達到91. 99%。Han?sen et al.[12]使用CNN進行農場豬面部識別,準確率達到96. 7%。Hou et al.[13]開發了一種基于CNN 的新型人臉識別模型來識別大熊貓(Ailuropoda mela?noleuca)個體,該模型準確率達到95. 0%。CNN在動物個體鑒定的工作中獲得了較好的識別效果,其準確性遠遠超過傳統的學習算法和人工水平。
基于深度學習的方法目前是東北虎個體識別任務中的重要方法,它無須復雜的圖像預處理即可自動從輸入的動物圖像中學習有利于鑒別的特征。東北虎作為眾多可通過個體生物學特征識別的物種之一,其條紋是身體表面的重要特征[14],它類似于人類指紋,具有唯一性[15]。此外,東北虎條紋的紋理還具有不變性,即東北虎從出生到死亡,其紋理的特性不受大小、體型的影響[16]。由于沒有傳統方法的上述缺點,條紋識別已成為近年來的熱門研究課題[17]。Shi et al.[18]構建了一個9層CNN對東北虎體側條紋圖像進行自動個體識別的方法,但該方法只對在可控條件下拍攝到的東北虎進行個體識別,難以應用到復雜的野外環境。
因此,分別采用基于CNN[19]和Transformer[20]的分類方法用于東北虎的個體識別。首先,收集監控環境下的東北虎個體影像來構建東北虎個體識別數據集,降低對拍攝條件的要求,促進所開發的算法對復雜環境具有良好的適用性。隨后,分別采用主流的基于CNN 和Transformer 的分類方法對東北虎進行個體自動識別,并驗證東北虎體側條紋的識別準確性。此外,為了減少復雜背景對識別性能的影響,采用Mask R-CNN方法來檢測并分割東北虎的身體條紋圖像,用于分類網絡進行東北虎個體識別。試驗結果表明:相比于CNN 網絡,基于Transformer 的東北虎個體識別網絡獲得了更好的識別性能。這也是首次利用Transformer方法對東北虎個體識別研究進行的成功嘗試。這將極大地擴展生態學調查和非侵入性抽樣設計,加快對大規模和長期生態學研究的大數據分析。
1 數據采集與制作
1. 1 數據采集
實驗數據來自2022年黑龍江東北虎林園內部署的監控攝像頭的影像圖片。東北虎林園位于黑龍江省哈爾濱市松北區(45°49′ N,126°36′ E),面積約80 hm2,有近1 000只人工飼養繁育的純種東北虎。實驗影像圖片由監控攝像頭側視(約90°)捕獲(圖1)。由于光線、天氣及東北虎出現在鏡頭內的不確定性等因素,采用Cascade R-CNN[21]目標檢測算法對視頻數據進行無目標及鏡頭污染視頻的篩選和去除,共保留并剪輯了20 只東北虎個體的434 個有效視頻,每個視頻時長約為2 s,視頻為MP4格式,視頻幀速率為25 f/s。從每個序列視頻中每隔1幀提取1張幀圖像,并從提取圖像中隨機抽取4張用于東北虎條紋數據集的構建,共得到1 736張圖像樣本,按照4∶1的比例劃分為訓練集和驗證集。該數據集可以作為研究人員進行東北虎個體識別算法開發和評估的資源。
1. 2 東北虎體側條紋檢測與分割
在東北虎個體識別中,準確提取體側條紋圖像至關重要。然而,由于東北虎不受人為控制和快速位置變動等客觀原因,傳統人工方法面臨諸多挑戰,如圖片數量差異大、圖像質量不佳等,且耗時耗力[22]。Mask R-CNN[23]算法作為一種基于深度學習的端到端模型,能夠通過其多分支結構、對多尺度特征的有效處理和對復雜場景的適應性,從大量數據中學習到復雜和抽象的特征,考慮其在目標檢測和實力分割領域的卓越表現,采用該算法實現東北虎的自動檢測與分割,以獲得東北虎體側條紋圖像,算法的主要流程如圖2所示。
具體而言,在Mask R-CNN中,特征金字塔網絡(feature pyramid network,FPN)以ResNet-50 為主干從東北虎圖像中提取特征圖,并通過自下而上和自上而下的特征傳播將不同尺度的特征有機地結合在一起,生成特征金字塔。根據特征圖,區域建議網絡(region proposal network,RPN)用于生成包含候選對象的區域建議框(region proposals)。RoI Align 的作用主要是為每個區域建議取得的特征能夠更好地對齊原圖上的感興趣區域(region of interest,RoI)。最終,對于每個區域建議,采用了一個三分支網絡,其中,分類分支與邊界框回歸分支分別獲得東北虎的類別概率和東北虎個體的位置信息。掩膜分支是一個應用于每個RoI的全卷積網絡(fully convolutionalnetwork,FCN),用于預測每個RoI上的像素級二進制分割掩碼,它與用于分類和邊界框回歸的分支并行(圖2)。為了更好地獲得東北虎體側軀干條紋圖像,根據掩碼在原圖上的映射分割出東北虎的輪廓,同時找到其重心。最終,確定期望的軀干條紋邊界框的左上角與右下角坐標,從而獲得東北虎軀干條紋圖像,獲得的條紋圖像樣例如圖3所示。通過引入Mask R-CNN技術,不僅能夠更高效地自動提取東北虎圖像,還為后續的個體識別任務提供了可靠的輸入數據。
2 東北虎自動個體識別
目前,盡管基于深度學習的方法在動物個體識別領域已經取得了一些重要進展,但是基于深度學習的東北虎自動個體識別研究還相對較少。因此,對東北虎軀干條紋數據集進行訓練,比較了不同CNN和Transformer網絡在東北虎個體識別任務上的性能,并分別選取最佳模型來評估東北虎條紋個體識別。
2. 1 基于卷積神經網絡的東北虎個體識別
CNN是一個典型的基于最小化預處理數據要求而產生的區分性深度結構,當具有相同參數的神經元應用于前一層的不同位置時,就可以獲取一種變換不變性特征[24]。傳統的圖像分類方法通常需要手動提取特征信息,這一過程既繁瑣又耗時。然而,CNN 方法的端到端建模和學習能力顛覆了傳統的“特征+分類器學習”模式,使得特征提取和分類器不再具有明確的邊界,二者在CNN中實現了一體化學習,自動提取特征,顯著提高了效率。
CNN的結構主要由輸入層、卷積層、池化層和全連接層等組成(圖4)。卷積層作為CNN的核心運算單元,主要由卷積核構成,每個卷積核代表一組可學習的權重,通過不同的權重值從原始輸入數據中提取特征信息。池化層的作用是對數據進行降維處理,去除一些無關緊要的信息,降低參數個數,提高計算效率。全連接層則負責對卷積層和池化層的輸出進行高維特征提取,經過非線性映射后輸出最終的東北虎識別結果。
采用5 種流行的CNN 進行個體識別,包括AlexNet[25]、GoogLeNet[26]、MobileNets[27]、ResNet-18[28]和EfficientNet[29],旨在比較不同CNN 架構的性能,并根據經驗找到性能最佳的模型,以支持東北虎個體識別。為消除參數的影響,在所有CNN架構中均使用交叉熵損失函數[30]測量東北虎預測身份分布和真實分布之間的差異。
2. 2 基于Transformer 的東北虎個體識別
Transformer是Google在2017年提出的一種基于自注意力機制的深度神經網絡,在自然語言處理(natural language processing,NLP)領域有著統治級表現,主要依靠自注意力機制[31]來對內部特征信息進行提取,能夠更好地捕捉長距離的紋理關系。東北虎的條紋具有復雜的結構和變化,CNN可能在處理長距離依賴性時存在局限,使得性能稍遜,而Transformer模型能夠在全局范圍內理解這些紋理特征,提高個體識別的準確性。此外,Transformer在人工智能領域顯示出了巨大的應用潛力,但在東北虎個體識別領域,Transformer網絡尚未有很好的應用。因此,預比較應用于圖像分類任務中的Vision Trans?former(ViT)[32]和一種滑窗操作的層級架構模型Swin Transformer[33]的性能,并選擇一個適用于東北虎條紋個體識別的最優模型,將其首次應用在東北虎個體識別任務上。
鑒于ViT在更細粒度圖像識別上表現不佳,以及存在計算復雜度較高等問題,經過實驗驗證后決定采用Swin Transformer 作為主要識別網絡。通過引入對無重疊窗口區域進行自注意力計算的策略,采用移動窗口的方式,成功實現了全局建模的能力,并顯著降低了計算量。所采用的Swin Transformer模型架構,包含Patch Partition、線性嵌入層(LinearEmbeding)、Swin Transformer Block 和塊合并層(Patch Merging)等組件(圖5)。該模型采用層次化設計,共包含4 個階段,其中第一階段(stage 1)由Linear Embeding和2個Swin Transformer Block組成,其余3 個階段由Patch Merging 和多個Swin Trans?former Block 結構組成。具體而言,首先,圖像經過Patch Partition 操作被劃分為非重疊等尺寸的圖像塊,即每4 × 4相鄰的像素為1個Patch,然后在通道方向展平。Linear Embeding 用于將圖像塊進行嵌入,并對每個像素的通道數據進行線性變換。隨后,在每一個Block中,通過自注意力機制提取圖像的關鍵特征。通過Patch Merging下采樣操作,特征圖的寬度和高度被縮減,同時通道數增加。通過多次的Block塊和Patch Merging操作,模型能夠逐步提取圖像的深層特征。最終,通過全連接層將這些特征映射到最終的特征空間。
每個Swin Transformer 塊的具體結構如圖6 所示,它由層歸一化(layer normalization,LN)、窗口多頭自注意力(window multi-head self-attention,WMSA)、多層感知機(multi-layer perceptron,MLP)和滑動窗口多頭自注意力(shifted window multi-head selfattention,SW-MSA)組成。LN模塊用于對輸入特征進行歸一化處理,確保不同通道的特征具有相似的分布;W-MSA 將輸入特征圖分割成等大小的局部塊,通過自注意力計算捕捉全局關系;MLP模塊是一個全連接前饋網絡,通過多個全連接層和激活函數,對特征進行復雜的非線性變換,以允許模型更靈活地學習特征表示;SW-MSA會在局部塊之間使用一定的重疊方式進行窗口移動,以捕捉局部信息。通過LN、W-MSA、MLP和SW-MSA的逐次作用,實現了對窗口內特征的建模和整合。
Swin Transformer塊的計算公式為
z?l = W - MSA [ LN (zl - 1 ) ] + zl - 1, (1)
zl = MLP [ LN (z?l ) ] + z?l, (2)
z?l + 1 = SW - MSA [ LN (z1 ) ] + zl, (3)
zl + 1 = MLP [ LN (z?l + 1 ) ] + z?l + 1。(4)
式中:z?l 和zl 分別表示第l 個Block 的W-MSA、SWMSA和MLP 模塊的輸出特征。在每個Swin Trans?former Block中,首先對輸入特征zl - 1 進行W-MSA計算,并與原始輸入zl - 1 相加得到z?l,以實現全局交互和信息融合;然后,通過MLP對上一步得到的特征z?l進行非線性變換,并再次與z?l 相加得到zl;接下來,采用SW-MSA對zl 進行局部交互和融合,并將其與zl 相加得到z?l + 1;最后,再次通過MLP對特征z?l + 1 進行非線性變換,并與之相加,得到最終的輸出特征zl + 1。同時,每個計算過程均通過LN對特征進行歸一化操作。上述計算過程結合了多頭自注意力機制和非線性變換,充分利用了全局和局部信息,使網絡提取到具有高級語義的特征表示。
3 結果與分析
3. 1 實驗設置
實驗平臺的硬件配置包括Inter中央處理器和NVIDIA GeForce RTX 3090顯卡,以確保實驗的高性能和可比性。實驗中所有代碼均采用Python編寫,并在PyTorch框架上運行。為了保持各個網絡的可比性,保持了相同的參數設置,并分別加載在Ima?geNet上進行預訓練的權重,以初始化這些參數。實驗中,訓練周期設置為200,batch size為16,并采用SGD[34]作為網絡的優化器。為了更有效地訓練模型,采用余弦退火策略[35]調整學習率,初始學習率被設定為0. 01,最小學習率為10-7,而權重衰減設為10-4。此外,為了減輕數據集劃分對性能的影響,對每個網絡分別進行10次實驗。
3. 2 評價指標
為了評估識別準確性,采用Top-1和Top-5準確率作為評價指標。Top-1準確率是被列為第一候選的正確東北虎數量的百分比[36];Top-5是衡量模型預測中前五高概率的準確性。Top-1與Top-5的準確率公式表示為
式中:M 為測試集所有樣本的數量,maxi為數值最大的前i 個置信度對應的標簽,R 為判斷函數,若預測的標簽pj內含有真實標簽c 為1,反之為0。
3. 3 結果
為了評估CNN 與Transformer 模型在東北虎個體識別上的性能,在條紋數據集上進行了驗證。圖7A展示了訓練集上的損失值隨迭代次數的變化,圖7B 則展示了驗證集上的識別精度。由圖7 可知,CNN和Transformer模型通過反向傳播算法持續計算全局最優值、更新卷積核參數,逐漸降低損失值并穩定(圖7A);每種方法的識別準確率隨著訓練周期的增加而提高,當達到一定的訓練數時,識別精度趨于穩定(圖7B)。在CNN網絡中,AlexNet、GoogLeNet、MobileNets、ResNet-18和EfficientNet相對表現較好,而MobileNets的準確度較低。具體的識別準確率如表1所示。在CNN方法中,EfficientNet展現了最佳的預測性能,達到了90. 43% 的Top-1 準確率。因此,基于經驗選擇EfficientNet作為基于CNN的東北虎個體識別方法。在基于Transformer 的方法中,Swin Transformer 性能不僅優于Vision Transformer,而且其識別準確率高于其他CNN模型。
為了分析對每只東北虎個體的識別效果,通過混淆矩陣進行可視化,橫軸表示東北虎預測身份ID,縱軸表示實際身份ID,發現識別準確率較高的Efficient?Net方法與Swin Transformer方法均在身份ID為17的東北虎識別上存在明顯偏差(圖8),容易產生誤識別,而對其他個體大多能夠實現良好的識別效果。
4 討論
智能保護和準確監測大型貓科動物種群和個體是動物保護領域中至關重要的問題,開發一種準確、可靠和自動的東北虎個體識別方法具有重要意義。在以往的個體識別過程中,如DNA、足跡等個體識別方法通常需要人工處理以提取特征區域再進行識別,過程繁瑣耗時,且嚴重依賴于人的主觀性。隨著深度學習技術的迅猛發展,許多方法已被用于個體識別[37]。因此,本研究采用CNN對東北虎圖像實現了自動檢測與特征區域定位,有效提高了特征提取的效率和準確性。此外,本研究還初步探索了使用Transformer方法對東北虎個體進行識別,并驗證了該方法的有效性。基于深度學習方法的東北虎個體識別研究不僅能夠極大地增強基于圖像或視頻的個體監測和長期大數據分析[38],還可以為研究東北虎行為模式和社會機制提供新的思路,從而為其保護提供更全面的支持。
在基于圖像的動物個體識別領域,圖像預處理被認為是至關重要的步驟,且深度學習方法對訓練樣本的數量高度依賴。然而,對采集到的圖像數據進行處理有時可能耗費大量時間與人力。因此,本研究采用Mask R-CNN算法準確地分割出東北虎個體的身體條紋圖像。盡管用于目前數據集中的各種網絡都實現了相對較高的精度,但對于不同圖像數量的個體而言,仍存在一定的性能差異。如對17號東北虎與其他虎個體的圖像數據進行分析,發現17號東北虎的圖像數量相對較少,且身體條紋圖像的一部分可能被植被遮擋或分辨率較低(圖3),這些因素都可能對東北虎個體識別準確性產生影響。
為了進一步推進這項研究,研究組將從三方面做出努力:(1)數據集的擴充。擴大東北虎個體樣本規模和每個個體的圖像數量,以避免過度擬合;同時,提高圖像質量,從而提升模型的準確性和穩定性。(2)模型識別性能的提升。對個體識別模型進行改進以提高模型的泛化能力和東北虎個體識別的準確率。(3)野外場景的應用?;谠摲椒ǖ挠行耘c實用性,未來考慮將該項研究應用到自動紅外相機的野外場景中,以實現東北虎體況監測和行為監測等。
5 結論
本研究利用CNN和Transformer模型,致力于通過東北虎軀干條紋進行個體識別。為了實現準確的個體識別,采用Mask R-CNN算法對從黑龍江東北虎林園收集的每張圖像中的特征區域進行自動檢測與定位,并對東北虎軀干條紋實現了準確分割,成功構建了東北虎條紋數據集。隨后分別在該數據集上應用多種CNN和Transformer分類網絡,實現對東北虎個體的自動識別。結果顯示,相較于時下主流的CNN識別方法,Transformer方法提高了對東北虎條紋的個體識別效果,識別準確率達到91. 49%。值得注意的是,這是首次成功嘗試利用Transformer進行東北虎個體識別。對于未來,應收集更多的東北虎圖像,考慮一些更復雜的網絡,并嘗試應用于野生東北虎個體識別中。該方法能夠應用于東北虎的長期監測中,包括對該物種的行為進行數據分析,并為其他野生動物的個體識別提供有益經驗。
致謝:感謝黑龍江東北虎林園的領導、國家林業和草原局貓科動物研究中心和東北林業大學貓科動物智能監測小組的大力支持與辛勤付出!
參考文獻:
[1] ALIBHAI S K, GU J Y, JEWELL Z C, et al.‘ I know the tiger byhis paw’: a non-invasive footprint identification technique formonitoring individual Amur tigers (Panthera tigris altaica) insnow[J]. Ecological Informatics, 2023, 73: 101947.
[2] 國家林業和草原局, 農業農村部. 國家重點保護野生動物名錄(2021 年2 月1 日修訂)[J]. 野生動物學報, 2021, 42(2):605-640.
National Forestry and Grassland Administration, Ministry of Agri?culture and Rural Affairs. List of national key protected wild ani?mals( revised on February 1, 2021)[J]. Chinese Journal of Wild?life, 2021, 42(2): 605-640.
[3] GOODRICH J, T. WIBISONO H, MIQUELLE D, et al. Pan?thera tigris[J/OL]. The IUCN Red List of Threatened Species,2022: e. T15955A214862019[2024-01-17]. https://dx. doi. org/10. 2305/IUCN. UK. 2022-1. RLTS. T15955A214862019. en.
[4] QI J Z, HOLYOAK M, NING Y, et al. Ecological thresholds andlarge carnivores conservation: implications for the Amur tiger andleopard in China[J]. Global Ecology and Conservation, 2020,21: e00837.
[5] LOOS A, ERNST A. An automated chimpanzee identification sys?tem using face detection and recognition[J]. EURASIP Journal onImage and Video Processing, 2013, 2013(1): 49.
[6] CARAGIULO A, PICKLES R S A, SMITH J A, et al. Tiger(Panthera tigris) scent DNA: a valuable conservation tool for indi?vidual identification and population monitoring[J]. ConservationGenetics Resources, 2015, 7: 681-683.
[7] GU J Y, ALIBHAI S K, JEWELL Z C, et al. Sex determinationof Amur tigers (Panthera tigris altaica) from footprints in snow[J]. Wildlife Society Bulletin, 2014, 38(3): 495-502.
[8] KERLEY L L. Using dogs for tiger conservation and research[J].Integrative Zoology, 2010, 5(4): 390-396.
[9] SCHNEIDER S, TAYLOR G W, KREMER S C, et al. Bulk ar?thropod abundance, biomass and diversity estimation using deeplearning for computer vision[J]. Methods in Ecology and Evolu?tion, 2022, 13(2): 346-357.
[10] 何東健, 劉建敏, 熊虹婷, 等. 基于改進YOLO v3模型的擠奶奶牛個體識別方法[J]. 農業機械學報, 2020, 51(4):250-260.
HE D J, LIU J M, XIONG H T, et al. Individual identificationof dairy cows based on improved YOLO v3[J]. Transactions ofthe Chinese Society for Agricultural Machinery, 2020, 51(4):250-260.
[11] FREYTAG A, RODNER E, SIMON M, et al. Chimpanzee facesin the wild: log-euclidean CNNs for predicting identities and attri?butes of primates[C]//ROSENHAHN B, ANORES B. Patternrecognition: 38th German Conference, GCPR 2016,Hannover,Germany, September 12-15, 2016, Proceedings. Cham: Springer,2016, 9796: 51-63.
[12] HANSEN M F, SMITH M L, SMITH L N, et al. Towards onfarmpig face recognition using convolutional neural networks[J]. Computers in Industry, 2018, 98: 145-152.
[13] HOU J, HE Y X, YANG H B, et al. Identification of animal in?dividuals using deep learning: a case study of giant panda[J].Biological Conservation, 2020, 242: 108414.
[14] HIBY L, LOVELL P, PATIL N, et al. A tiger cannot change itsstripes: using a three-dimensional model to match images of liv?ing tigers and tiger skins[J]. Biology Letters, 2009, 5(3):383-386.
[15] SHI C M, XU J, ROBERTS N J, et al. Individual automatic de?tection and identification of big cats with the combination of differ?ent body parts[J]. Integrative Zoology, 2023, 18(1): 157-168.
[16] 顧佳音, 劉輝, 姜廣順. 東北虎(Panthera tigris altaica)個體識別技術研究進展[J]. 野生動物, 2013, 34(4): 229-237; 248.
GU J Y, LIU H, JIANG G S. A review of potential techniquesfor indentifying individual Amur tigers(Panthera tigris altaica)[J]. Chinese Journal of Wildlife, 2013, 34(4): 229-237; 248.
[17] KUMAR S, SINGH S K. Cattle recognition: a new frontier in vi?sual animal biometrics research[J]. Proceedings of the NationalAcademy of Sciences, India Section A: Physical Sciences,2020, 90(4): 689-708.
[18] SHI C M, LIU D, CUI Y L, et al. Amur tiger stripes: individualidentification based on deep convolutional neural network[J]. In?tegrative Zoology, 2020, 15(6): 461-470.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-basedlearning applied to document recognition[J]. Proceedings of theIEEE, 1998, 86(11): 2278-2324.
[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention isall you need[EB/OL]. arXiv: 1706. 03762[2024-01-10]. http://arxiv. org/abs/1706. 03762.
[21] CAI Z W, VASCONCELOS N. Cascade R-CNN: delving intohigh quality object detection[EB/OL]. arXiv: 1712. 00726[2024-01-10]. http://arxiv. org/abs/1712. 00726.
[22] 張雪瑩, 張浩林, 韓瑩瑩, 等. 基于深度學習的野生動物監測與識別研究進展[J]. 野生動物學報, 2022, 43(1):251-258.
ZHANG X Y, ZHANG H L, HAN Y Y, et al. Research prog?ress of the wildlife monitoring and identification based on deeplearning[J]. Chinese Journal of Wildlife, 2022, 43(1):251-258.
[23] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[EB/OL]. arXiv: 1703. 06870[2024-01-10]. http://arxiv. org/abs/1703. 06870.
[24] 徐波, 劉成林, 曾毅. 類腦智能研究現狀與發展思考[J]. 中國科學院院刊, 2016, 31(7): 793-802.
XU B, LIU C L, ZENG Y. Research status and developments ofbrain-inspired intelligence[J]. Bulletin of Chinese Academy ofSciences, 2016, 31(7): 793-802.
[25] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNetclassification with deep convolutional neural networks[J]. Com?munications of the ACM, 2017, 60(6): 84-90.
[26] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolu?tions[EB/OL]. arXiv: 1409. 4842[2024-01-10]. http://arxiv. org/abs/1409. 4842.
[27] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: effi?cient convolutional neural networks for mobile vision applications[EB/OL]. arXiv: 1704. 04861[2024-01-10]. http://arxiv. org/abs/1704. 04861.
[28] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learningfor image recognition[EB/OL]. arXiv: 1512. 03385[2024-01-10]. http://arxiv. org/abs/1512. 03385.
[29] TAN M X, LE Q V. EfficientNet: rethinking model scaling forconvolutional neural networks[EB/OL]. arXiv: 1905. 11946[2024-01-10]. http://arxiv. org/abs/1905. 11946.
[30] ZHANG Z L, SABUNCU M R. Generalized cross entropy lossfor training deep neural networks with noisy labels[EB/OL].arXiv: 1805. 07836[2024-01-10]. http://arxiv. org/abs/1805.07836.
[31] PARIKH A, T?CKSTR?M O, DAS D, et al. A decomposableattention model for natural language inference[EB/OL]. arXiv:1606. 01933[2024-01-10]. http://arxiv. org/abs/1606. 01933.
[32] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An im?age is worth 16×16 words: Transformers for image recognition atscale[EB/OL]. arXiv: 2010. 11929[2024-01-10]. http://arxiv.org/abs/2010. 11929.
[33] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: hierarchicalvision Transformer using shifted windows[EB/OL]. arXiv:2130. 14030[2024-01-10]. http://arxiv. org/abs/2130. 14030.
[34] BOTTOU L. Large-scale machine learning with stochastic gradi?ent descent[C]//LECHEVALLIER Y, SAPORTA G. Proceed?ings of COMPSTAT′2010. Paris: Physica-Verlag HD, 2010:177-186.
[35] LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient de?scent with warm restarts[EB/OL]. arXiv: 1608. 03983[2024-01-10]. http://arxiv. org/abs/1608. 03983.
[36] MA G K, WU L G, WANG Y. A general subspace ensemblelearning framework via totally-corrective boosting and tensorbasedand local patch-based extensions for gait recognition[J].Pattern Recognition, 2017, 66: 280-294.
[37] CIHAN P, SAYGILI A, OZMEN N E, et al. Identification andrecognition of animals from biometric markers using computer vi?sion approaches: a review[J]. Kafkas Universitesi VeterinerFakultesi Dergisi, 2023, 29(6): 581-593.
[38] GUO S T, XU P F, MIAO Q G, et al. Automatic identificationof individual Primates with deep learning techniques[J].iScience, 2020, 23(8): 101412.
基金項目:國家重點研發計劃子課題/子任務項目(2023YFF130500203);中央高?;究蒲袠I務費專項基金項目(2572021BF08,2572022DS04)