張媛媛 穆浩文 孫哲 郭松濤 許鵬飛

智能科技推動野生動物保護事業蓬勃發展,為該領域帶來新的活力與機遇。傳統的野生動物監測技術如紅外線技術、遠程攝像、人工觀察等方法具有分辨率有限、成本高、覆蓋范圍小、易受天氣和環境影響等缺點。而智能科技通過先進的數據采集設備與AI算法模型幫助科研人員提高監測和追蹤野生動物的效率,更準確地了解物種分布、遷徙路徑,以及數量變化,為保護策略的制定提供有力支持。
智能科技助力野生動物保護是指使用計算機視覺技術監測野生動物,主要體現為野生動物的精準檢測、追蹤和智能識別。計算機視覺技術監測野生動物的流程一般為:①數據采集。使用無人機、高清攝像機等智能設備采集目標野生動物的圖像或視頻。②數據處理。人工手動篩選圖像,去除模糊圖像與無目標圖像,再對剩余數據進行標注。③模型訓練。將標注好的數據分為訓練數據與測試數據,根據不同的監測要求選擇合適的深度學習網絡模型進行訓練與測試。④模型評估。選擇合適的評價指標度量模型,根據反饋改進網絡,進而提升性能。

野生動物智能精準檢測有助于野生動物計數、遏制非法獵捕野生動物和保護瀕危野生動物。野生動物智能檢測是指在復雜場景中使用傳統機器學習方法或深度神經網絡及其他算法對無人機、相機陷阱、車輛攝像頭等設備采集的視頻或圖像中的動物進行精確定位與分類。
發展迅猛的AI技術大力推動目標檢測模型的更新迭代,目標檢測由最初基于傳統機器學習算法的檢測方法發展到基于深度學習的方法。動物檢測方法跟隨AI發展的趨勢,也逐漸由基于傳統機器學習方法的檢測方法過渡到深度學習檢測模型。順應深度學習發展的熱潮,目標檢測模型的更新層出不窮。兩階段的檢測模型如R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]到單階段的檢測模型如YOLO系列、SSD[4]、RetinaNet[5]等都展示出優越的檢測性能。這些卓越的模型最初用于檢測行人,以及車輛、房屋、樹木等物體,但也可以用于檢測難度更大的處于復雜場景中的動物。大量研究已經表明基于深度學習的檢測模型不僅可以檢測動物,還能克服動物檢測領域的挑戰并顯著提升動物檢測的準確率。
傳統的基于特征的檢測方法分為3步:①區域選擇。使用滑動窗從左到右、從上到下對圖像進行滑動,裁剪圖像。②特征提取。采用一些傳統機器學習算法如HOG、Haar、SIFT等來對圖像塊進行特征提取。③分類器。如使用支持向量機等分類算法對目標動物進行分類。雖然傳統的基于特征的目標檢測方法因計算復雜度高、滑動窗口冗余及復雜環境條件下魯棒性較低等固有缺陷導致其逐漸邊緣化,但基于深度學習的檢測模型受到計算機資源、檢測基礎理論、數據集等條件的限制,因此傳統檢測方法沒有銷聲匿跡,動物檢測相關研究中仍有它的身影。
基于深度學習的檢測方法可以分為兩類:①兩階段檢測方法。將檢測中的定位與分類分開操作,先生成區域建議再進行分類。②單階段檢測方法。直接生成目標動物的位置坐標和類別概率。兩階段的目標檢測方法檢測精度高但速度慢,單階段的目標檢測方法檢測速度快但精度不如兩階段的目標檢測方法。在動物檢測領域中,經常根據不同場景與檢測需求選擇合適的檢測方法,兩階段與單階段的檢測方法都應用廣泛。
隨著深度學習的蓬勃發展及眾多學者對目標檢測模型的研究,基于深度學習的檢測方法已經突破傳統目標檢測算法帶來的瓶頸,并成功解決動物檢測過程中遇到的許多挑戰,成為當下檢測算法的主流技術手段。與傳統目標檢測方法相比,基于深度學習的檢測方法可以同時學習圖像的低級特征和高級特征,且學到的特征比傳統方法學到的更具有代表性。基于深度學習的檢測方法在一些問題與挑戰的處理上具有良好的潛力,例如:①解決動物與車輛在公路上發生碰撞的問題。②解決野生動物入侵人類居住區域的問題。③防止偷獵野生動物。④實現復雜自然場景下的動物檢測。搖擺的樹、混濁的水、暴風暴雨天氣等復雜的自然環境,以及動物自身狀態多變嚴重影響檢測性能,而使用基于深度學習的模型可以有效改善這一困境。如2021年研究者針對復雜的水下環境[6],使用YOLOv4準確檢測出處于渾濁水質及低亮度環境中的水下動物,其平均準確率達到97.96% [7]。
除了深度學習模型以外,動物檢測中還有一些使用運動目標檢測算法的研究。常見的運動目標檢測算法有背景差分法(也稱背景減法)、幀間差分法、光流法等,在動物檢測領域較為常見的是背景減法。如2019年有研究者以區分人與動物為目的,采用背景減法檢測和分類運動目標,將人與動物快速檢測出來[8]。

總而言之,動物檢測研究涉及的數據主要來源于常規設備采集、無人機拍攝和相機陷阱捕獲。相比于傳統的目標檢測算法,基于深度學習的目標檢測算法的使用率更高,大部分相關研究都是使用基于深度學習的方法來進行目標動物檢測。而在基于深度學習的目標檢測算法檢測動物的研究中,盡管兩階段的Faster R-CNN應用較為廣泛[3],但單階段的目標檢測方法比兩階段的目標檢測方法更受歡迎,尤其是YOLO與后來出現的RetinaNet[5]。除此以外,針對運動動物目標檢測,背景減法在研究中出現的頻率較高。背景減法是將圖像序列中的當前幀與已經確定好或實時獲取的背景參考模型(背景圖像)做減法,找不同,計算出與背景圖像像素差異超過一定閾值的區域,將其作為運動區域,從而來確定運動物體位置、輪廓、大小等特征。將背景減法與其他運動目標檢測算法相結合也是一個提高檢測性能的發展方向。高性能的檢測模型不僅有助于動物檢測的研究,同時也能推動其他動物智能監測任務前行。
在動物智能識別以及其他動物智能監測中,動物追蹤發揮著極其重要的作用,有效的追蹤技術能夠減少科研人員在動物智能監測相關任務中消耗的時間與精力。動物追蹤指使用一些追蹤算法如卡爾曼濾波算法或深度學習網絡給出圖像序列、視頻中的單個或多個目標動物的身份標簽或者運動軌跡,并使得目標動物的身份標簽隨著時間序列的更新而保持不變。
在視覺領域中,目標追蹤技術有很多,如GPS追蹤、攝像機陷阱追蹤、車輛追蹤、無線電追蹤、衛星追蹤、射頻識別等,它們各有優缺點。但這些侵入性的方法并不適用于動物追蹤領域,因為它們會給動物帶來痛苦和壓力,損害動物的健康。而基于計算機視覺的追蹤方法是更好的選擇,這些方法具有對動物友好、易維護、成本低的優點。
目前,在多數動物追蹤的相關研究中,使用傳統機器學習方法如卡爾曼濾波算法,少數研究使用端到端的基于深度學習的追蹤網絡。盡管目標追蹤在深度學習發展的浪潮下日趨成熟,但由于其研究的出發點不是針對動物,所以這些經典的追蹤模型很難直接應用于動物追蹤領域。因此,早已具備完整成熟體系的傳統追蹤算法則被廣泛用于動物追蹤任務中。這些算法大多是基于檢測的追蹤算法,即先檢測圖像或視頻幀中的目標動物,然后在此基礎上使用一些追蹤算法追蹤這些動物。基于檢測的追蹤能夠簡化追蹤過程,自深度學習出現以來,目標檢測比目標追蹤受到學者們更多的關注,相對而言目標檢測的發展更為成熟。并且在動物研究領域中,大量動物智能監測的研究是關于動物檢測或基于動物檢測的,因此在動物追蹤中結合目標檢測的模型具有很大的發展前景。
盡管使用基于傳統機器學習的追蹤算法可以在一定程度上解決動物追蹤任務中遇到的困難,但是在面臨由于遮擋出現動物身份切換、大量動物群體的頻繁移動、動物移動速度很快并改變行動方向、水下動物追蹤遇到漂浮物遮擋及水質渾濁等挑戰時,仍具有一定的局限性。在追蹤階段,直接應用深度學習方法會使模型在面對這些挑戰時性能更上一層樓。
2017年研究者使用自己搭建的CNN跟蹤斑馬魚[9]。由于當時的追蹤技術在追蹤大量目標時,無法在發生嚴重遮擋后長期保持動物身份的正確,因此開發出一款名為CNNTracker的追蹤軟件。CNNTracker首先從每一幀中提取每條魚的頭部特征圖,然后利用兩幀中相同頭部點之間的位移和同一條魚的頭部特征圖形成連續兩幀之間的頭部點對。通過連接相應的頭點對,可以得到魚的軌跡片段。根據片段終點和起點之間的位移,以及終點和起點之間的幀差生成用于訓練的初始軌跡。有些片段可能在很短的時間跨度內共享相同的時間戳,如果這些片段的數量與圖像序列中魚的總數相同,則可以將這些片段與初始軌跡融合,并作為CNN訓練的初始訓練樣本。通過使用迭代CNN訓練方法來優化CNN的精度,將軌跡的每一段輸入最終訓練的CNN中以確定它屬于哪個身份。這些片段根據其分配的身份進行連接,形成時間順序的軌跡。最后,軟件檢測并修正軌跡錯誤,填補軌跡空白,并評估軌跡的可信度。整個過程是完全自動的,不受誤差傳播的影響,能為任何復雜的交叉給出可靠的正確標識,以及在嚴重遮擋下長時間保持動物的身份。
總體來說,基于深度學習的追蹤方法具有更強大的核心競爭力,不論是專業的追蹤模型還是其他類型的深度學習網絡,在面對動物追蹤任務中涉及的挑戰時都具有優秀的潛力。
動物智能識別(身份識別)是指利用非生物特征或生物特征識別方法對照相機、無人機、深度相機、紅外相機等設備拍攝的圖像或視頻中的動物進行識別,即給出該動物的身份標簽。隨著計算機視覺技術的快速發展,動物智能識別領域的相關研究也跨入新的高度。諸如耳標、文身、植入芯片(如可注射應答器)、射頻識別及油漆標記等非生物特征識別方法,因具有侵入性、對動物不友好、不易維護、易丟失、耗時耗力等缺點,逐漸被發展成熟的計算機視覺技術所代替。動物智能識別方法中蘊含的計算機視覺技術是指基于生物特征的識別方法,主要表現為傳統機器學習方法與深度學習方法。
具有非侵入性、成本低、易維護等優點的生物特征識別方法不僅深受廣大學者的歡迎,而且對動物十分友好。最初的生物特征識別方法以傳統機器學習算法為代表。使用傳統機器學習方法實現動物智能識別主要包括4個階段:數據預處理、特征提取、識別分類(特征匹配)和評估。基于傳統機器學習方法的動物識別技術常用于家畜識別,也可用于野生保護動物的識別。如2017年研究者設計出一個狐猴識別系統LemurFaceID,首次使用面部特征識別狐猴[10]。LemurFaceID的實質是通過LBP、MLBP和LDA相結合的方式實現特征提取與特征匹配,其準確率高達98.7%±1.81%。
發展逐漸成熟的深度視覺技術給動物智能識別研究帶來新機遇,解決了許多傳統機器學習方法不能處理的識別難題,生物特征識別方法也逐漸從傳統機器學習方法轉變為深度學習方法。不像傳統機器學習方法需要手動提取特征,深度學習模型可以通過多層神經元連接來實現自動特征提取和表征學習。具體來說,深度學習模型通過多層神經元連接來逐層學習圖像的特征,每一層都可以看作是對原始圖像的不同級別的抽象表示。初始層可能捕捉到像素級別的細節,而后續層會逐漸學習更高級別、更抽象的特征。例如, CNN 中的卷積層使用卷積核來檢測圖像中的特定特征如邊緣或顏色斑塊。通過卷積操作,模型能夠捕捉到局部的空間關系。在訓練過程中,為更好地區分不同類別的目標并使得模型能根據不同的數據自動提取和優化特征,深度模型通過反向傳播算法調整權重以最小化預測誤差。
基于深度學習的動物智能識別方法的基本流程是將含有目標動物的圖像或視頻作為輸入,送入預先訓練好的深度神經網絡模型中,最后輸出目標動物的身份。一些研究在基本流程的基礎上進行擴展,常見的拓展方式有3種:①將識別與檢測結合起來形成一個自動化的識別體系(兩階段模型);②應用注意力機制或其他算法模塊;③設計或更換模型的損失函數。
基于深度學習的動物智能識別方法形式多樣,應用較為靈活。不論是家畜還是野生動物,不論是提取動物面部特征還是鼻印特征抑或皮毛特征,不論是視頻數據還是圖像數據,不論是常規設備采集還是諸如無人機、監控攝像頭采集的動物數據,深度學習方法都能高效、精確地識別目標動物的身份。

挑戰
⑴山地林區野生動物監測:走不到、看不全、看不清、難辨別。
目前技術主要是利用探測器網絡和AI相結合,逐步實現了人工監測到半自動化監測,也達到了智能化監測。但現階段,數據探測、采集、處理及智能監測等都面臨著困境:如何在探測層面實現大尺度野生動物監測,解決走不到、看不全的問題;如何建立自動化數據采集體系,實現多源數據智能化處理和智能識別,解決看不清、難辨別的問題。
⑵水生動物智能監測:水下環境復雜多變,技術空白多。
水生態(水環境和魚類資源)問題突出,智慧監測與評估是水生態保護的必要手段和未來發展方向。國內智能監測技術發展緩慢,尤其是魚類智能化監測還處于技術空白階段,國外設備使用不夠便捷,且存在跨域不可用的問題,亟須研究相關設備及先進技術來解決水下生物保護行業獲取清晰圖像、機器魚引導、仿生魚設計等問題。
⑶智能識別與監測技術:初始數據庫創建難、環境不受控。
在數據采集工作過程中,野外環境變化不受控,如刮風、暴雨、暴雪天氣會影響研究人員的觀測以及動物的蹤跡。動物行為動作變化多樣以及動物不配合等因素也會導致數據很難采集。此外,一些野生動物的生存環境人類無法到達,借助無人機等設備會驚擾動物,也不便于采集數據。
未來
⑴野生動物智能監測未來發展方向:探索“數據+機理”驅動的智能監測技術。
⑵智能科技未來發展方向是人機協同、人機共融。
⑶生態監測和新一代信息學科交融點應該更多考慮在技術上的共性。
⑷落實產品化:研究成果與產品落地應用需要市場驅動和利益權衡。現階段要在技術創新的基礎上形成一個完整的便于應用的裝置,需要工程化設計和產業化推廣。建議組建創新性科技公司,或者聯合創新性公司開展技術產業化,實現技術落地。
未來野生動物智能監測應聚焦于數據與機理相結合的技術,促進人機共融與協同發展,并通過市場驅動和產業化推廣,實現技術產品化和落地應用。

[1]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[2]Girshick R. Fast R-CNN//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440-1448.
[3]Ren S Q, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems, 2015, 28.
[4]Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector//Computer Vision–ECCV 2016: 14th European Conference. Springer, 2016: 21-37.
[5]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988.
[6]Rosli M S A B, Isa I S, Maruzuki M I F, et al. Underwater animal detection using YOLOv4 //2021 11th IEEE International Conference on Control System, Computing and Engineering. IEEE, 2021: 158-163.
[7]Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv: 2004. 10934, 2020.
[8]Yousif H, Yuan J, Kays R, et al. Animal scanner: Software for classifying humans, animals, and empty frames in camera trap images. Ecology and Evolution, 2019, 9(4): 1578-1589.
[9]Xu Z P, Cheng X E. Zebrafish tracking using convolutional neural networks. Scientific Reports, 2017, 7(1): 42815.
[10]Crouse D, Jacobs R L, Richardson Z, et al. LemurFaceID: A face recognition system to facilitate individual identification of lemurs. Bmc Zoology, 2017, 2(1): 1-14.
關鍵詞:智能監測 計算機視覺 深度學習 野生動物保護 ■