張雪瑩 張浩林 韓瑩瑩 翁 強 袁崢嶸* 姚 遠
(1.北京林業大學生物科學與技術學院,北京,100083;2.中國科學院自動化研究所,北京,100190)
野生動物作為生態系統的重要組成部分,與維持生態平衡與穩定息息相關。由于自然環境惡化、野生動物非法捕獵與交易等問題的存在,使得野生動物物種多樣性銳減,瀕危野生動物的保護已經成為當前社會關注的熱點問題。因此,如何開展野生動物資源的觀測與評估工作,更高效、更準確地獲取野生動物相關數據成為了研究的重點問題。深度學習作為一種新興手段,開始逐漸出現在人們的視野中,并不斷被深入研究與使用。近幾年,深度學習在動物識別中的應用在全球范圍均取得了巨大的進展。在其基礎之上,研究學者實現了野外條件下的動物物種識別、數量統計、行為檢測、棲息地觀測等智能化、無人化工作,不僅節省了大量人力與時間,更提高了精確度,具有明顯的優勢。筆者對此領域已有的研究進行歸納總結,并對深度學習在野生動物保護領域應用存在的問題及發展方向做出探討。
人工智能的核心領域是機器學習,而深度學習是機器學習研究中的一門新興技術[1]。深度學習的概念于2006年被Hinton等[2]及其學生正式提出,并立即引起了巨大的反響。它受到人腦多層神經網絡的啟發[3],以數學和工程為支撐,近年來在自然科學、交通安全、醫療診斷等諸多領域逐漸被廣泛應用。從人工智能、機器學習、深度學習3種學習方式的關系上,可以看出深度學習在人工智能領域中的重要性及關鍵性(圖1)。

圖1 人工智能、機器學習、深度學習的關系
深度學習構建的是一個多層網絡,相比淺層機器學習,深度學習具有強大的特征提取能力,對圖像、聲音、文本等高維數據的識別與分析有顯著優勢[4]。因此,在計算機視覺、自然語言處理、圖像與視頻分析等領域,深度學習已經成為研究的熱門方向。
常見的深度學習網絡模型有:適用范圍最廣的卷積神經網絡(Convolution Neural Network,CNN),目前被應用較多的AlexNet、VGGNet、ResNet、GoogLeNet、DenseNet等深度學習網絡,其基礎都是CNN;適用于處理序列數據問題的循環神經網絡(Recurrent Neural Network,RNN),在其基礎之上進行優化產生了長短期記憶網絡(Long Short-Term Memory,LSTM)、門控循環單元(Gated Recurrent Unit,GRU)、分層RNN、雙向RNN等常用網絡模型;生成式對抗網絡(Generative Adversarial Network,GAN)、深度信念網絡(Deep Belief Network,DBN)、膠囊網絡(Capsule Network,CapsNet)等。在不同的應用環境下可以根據功能特性選擇不同的網絡模型進行訓練(表1)。

表1 典型深度學習網絡模型對比
為了提高深度學習的效率,各種開源學習框架也不斷被提出并應用[5]。例如Google研發的TensorFlow、Facebook的Torch、Microsoft的CNTK、百度的PaddlePaddle等,這些框架主要應用于圖像識別、自然語言處理、語音識別等,它們使深度學習的操作更為簡便高效,達到了事半功倍的效果。
野生動物作為生物多樣性的重要組成部分,其生存發展狀況對生態系統的穩定與人類自身的發展密切相關[6]。近年來,人們投入大量人力物力加強對生態環境的保護,同時開展重要地區野生動物資源考察統計及棲息地恢復等工作,努力維護野生動物物種多樣性,這雖然使部分瀕危物種的生存狀況得到一定程度上的改善,但仍然存在許多客觀問題,導致保護與治理的結果并不十分理想[7]。因此,除了對野生動物實行直接及間接的保護之外,監測與識別工作的開展也與野生動物保護有著緊密的聯系。為了進行更深入地分析與研究,人們通過對野生動物進行識別與分類、物種數量監測、遷徙軌跡跟蹤等途徑獲得其相關信息,并以此為依據制定計策與規劃,使野生動物的保護具有更強的針對性與更明確的方向性。
起初人們對動物監測識別及其生存空間的研究與評估是通過直接觀測的傳統方法,觀測物種的活動軌跡并記錄,之后通過實地調查與查閱相關文獻等手段獲取更多相關數據,但由于較多客觀影響因素而導致觀測結果較為粗糙。19世紀末,人們用相機陷阱來拍攝野生動物,但需要特定的觸發條件。直到20世紀90年代中期,具有紅外傳感器的相機陷阱開始應用于各個領域。1994年,馬世來等[8]最早于云南省高黎貢山地區將自動感應紅外相機應用于野生動物的分布研究。21世紀初期,數碼相機與紅外相機相結合產生的數碼紅外相機誕生,性能得到了進一步完善。2010年后,紅外相機性能不斷提高,價格不斷下降,因而得到了進一步普及,被廣泛應用于野生動物的種群監測與評估等保護工作中[9]。
計算機及網絡技術的快速發展與逐漸完備的地理信息技術體系加速了人們對野生動物及其棲息地關系的研究進程,進而更好地對物種進行保護。3S技術,包括遙感技術(remote sensing,RS)、地理信息系統(geography information systems,GIS)和全球定位系統(global positioning systems,GPS),作為新興技術手段,對數據的提取、處理及分析具有更高的精確度,在野生動物保護、環境資源調查與管理等方面發揮了重要作用。
3S技術主要利用GPS實現實時定位,通過RS與GIS獲取環境數據并進行分析與數據更新,并且隨著技術的不斷發展,3S技術也可配合各種分析模型對物種數據進行評價與預測[10]。例如Harrision等[11]、Bian等[12]在3S技術的支持下結合各種統計模型分別對狼(Canislupus)、駝鹿(Alcesalces)的生存環境及動態變化進行了分析與評估。宓春榮等[13]將3S獲得的數據與物種分布模型結合,高效獲取了黑頸鶴(Grusnigricollis)與白頭鶴(Grusmonacha)的物種數據。盛琪等[14]結合GIS空間分析技術,使大興安嶺瀕危物種紫貂(Marteszibellina)生境適宜性分級評價的分析結果更加精確。翟天慶等[15]則將3S技術與BIOMOD模型結合,預測了朱鹮(Nipponianippon)的物種數據變動,從而制定對朱鹮保護的針對性策略。除此之外,在3S技術提供如此豐富的基礎數據的平臺上,近年來,無人機[16]、GPS項圈[17]等新興技術的輔助也為野生動物的觀測提供了更加精細與全面的數據。
種群密度作為種群的基本數量特征,是調查和保護野生動物的重要依據,與動物生存環境相結合,用于判斷生態系統的變化對種群密度的影響,從而實施針對性保護。目前人們監測野生動物的傳統調查方法主要分為人工監測和智能監測2種。
2.2.1 人工監測
人工監測以定期人工野外調查獲得相關數據。其中對哺乳動物、鳥類及魚類等野生脊椎動物的調查主要使用樣線法[18]、樣點法、抽樣調查法、計數法、標記重捕法[19]等,以動物獨特的天然標記作為鑒別依據[20],再根據獲得的數據估計動物種群數量及密度的變化參數。盡管人工監測對設備方面要求較低,更為經濟,但會消耗大量的時間與人力,分揀成本高,且易受環境條件及其他因素影響,導致效率低、數據結果準確度低等問題。
2.2.2 智能監測
由于人工監測受時間環境等各種因素的限制,動物監測也逐漸向智能化發展,不僅節省了人力物力財力,使監測相對高效,同時也減少了人類對動物及其棲息地的影響,從而使數據更加準確。智能監測主要包括無線電遙測技術、自動感應紅外相機技術[21]等。無線電遙測技術以目標動物佩戴發射器為媒介,通過無線電波的發射和接收來跟蹤動物軌跡并獲得其活動狀態,適合觀察大型動物的運動及繁殖[22]。紅外相機通過溫差傳感器自動拍攝動物照片,主要應用于陸生獸類。盡管智能監測較人工監測便利許多,但也存在著一些問題,如硬件設施成本較高,受限于數據存儲方式及傳輸速度導致時間成本大,易受自然環境影響而造成數據傳送、存儲管理、丟失、共享不及時等[23]。如今,人工智能的出現引發了動物監測與識別的巨大變革,面對海量的數據,信息技術的發展趨于將空間數據管理轉化為分布式存儲,并與云端GIS、人工智能等技術結合,將成為未來野生動物調查與治理的主要發展方向。
目前,野生動物識別與分類的方法主要分為2種:一是人眼識別,雖然相對準確,但由于數據量極大,人的連續工作時間有限,很容易疲勞而產生差錯,使效率和準確率降低;二是計算機識別,即以基于神經網絡的深度學習技術為基礎,幫助計算機完成對動物的數據監測、物種識別、棲息地觀測等工作,節省了大量人力與時間,具有明顯優勢。
CNN作為一種學習效率極高且易于訓練的深度學習模型,在動物識別中最為常用,并且在不斷進步。在CNN基礎之上,人們通過對卷積層、池化層、全連接層等結構的交替與優化,加強對圖像的特征提取并通過調整網絡層數加強學習能力,進一步訓練提高識別性能。2014年Chen等[24]研究發現CNN的學習能力明顯優于傳統的Bag of visual words(BOW)模型,但通過CNN進行野生動物物種分類的準確率僅有38%。2016年,Okafor等[25]在Wild-Anim數據集的基礎上,通過減少全連接層中神經元的數量改善CNN架構,簡化了識別流程,并且提高了識別的效率。Norouzzadeh等[26]在Snapshot Serengeti數據集(現存最大的野生動物標記數據集)的基礎上,使用2階段多任務學習的檢測方式,對48個物種進行識別并對其行為等其他特征進行分析,準確率達到93.8%以上。Shi等[27]通過構建DCNN(Deep Convoluted Neural Network)框架對40只東北虎個體進行識別,準確率達到93.5%,且較于其他神經網絡大大縮短了運行時間。拉毛杰等[28]基于Darknet-53框架,通過數據增強實現了部分畜牧業動物圖像的識別,準確率達到87.9%。王文成等[29]利用ResNet50網絡框架對10種魚類進行分類識別,準確率達到93.3%。馬夢園[30]利用DCNN網絡對70種鱗翅目(Lepidoptera)昆蟲進行分類,識別率達到了99.8%。Guo等[31]基于Tri-AI技術,對41種靈長類動物進行識別,準確率高達94.1%,該技術不僅適用于多物種識別,也可應用于夜間數據分析。此外,CNN可結合其他神經網絡架構,如RNN的LSTM[32]、GAN[33]等,增強特征提取能力,進一步優化網絡結構,提高識別準確度。以CNN為基礎的動物識別流程見圖2。

圖2 通過CNN進行動物識別簡化流程圖
相對于靜態圖像識別的廣泛應用,目前深度學習在視頻識別方面的研究較為欠缺。主要原因為圖像識別、視頻識別分別處于空間和時空領域,二者有著很大程度上的不同。視頻中物體通常存在運動模糊、視頻散焦等問題而導致外觀難以識別,因此需要層次更深、結構更復雜的網絡模型進行訓練,以發掘連續幀之間觀測對象的關聯,而這些要求導致的巨大計算量與訓練時間成為難以解決的關鍵問題。
視頻識別主要有3種方式:一是利用多張序列融合[34],即利用CNN提取每張圖像特征并輸入到LSTM網絡中,最后進行多分類標簽輸出;二是利用雙流架構[35],即空間流與時域運動流,二者通過多卷積層進行分類,最后對結果進行融合,是目前視頻識別領域的主流路線;三是利用三維卷積(3D Convolutional Neural Network,3DCNN)的方式[36],需要對視頻進行預處理,再利用3D的卷積核進行特征提取并輸出結果。
目前,視頻識別在人體行為識別、交通、醫療等方面得到了較為廣泛地應用,但在動物識別方面應用較少。陳建促[37]通過構建包含時間序列信息的野生動物檢測數據集WVDDS(Wildlife Video Detection Datasets)并結合YOLOv3模型解決了野生動物視頻中的遮擋問題。趙凱旋等[38]利用卷積神經網絡精確識別奶牛個體,視頻識別率為93.3%。Nyiringabo[39]利用SSD網絡(Single Shot Multibox Detector)對盧旺達國家公園的10種動物進行檢測,精度達到了82.5%。Ravbar等[40]通過對蒼蠅視頻進行行為識別,設計了一種基于時空特征的識別系統,可以和CNNs結合應用于其他動物視頻識別中,但仍存在輸入轉換(如平移和旋轉)后的不變性的表達問題。Schofield等[41]基于CNN對黑猩猩(Pantroglodytesrerus)進行跟蹤監測與識別,準確率高達92.5%,顯示了視頻監測識別的潛力,但由于其觀測個體相對較少,研究結果具有一定局限性。可見,將深度學習應用于動物視頻識別仍有很大的發展空間及應用趨勢。動物視頻識別簡化流程見圖3。

圖3 動物視頻識別簡化流程圖
近年來,利用生物聲學的監測方式也開始在野生動物生態學中應用。人們將深度學習神經網絡與一系列自動記錄裝置結合,并不斷改進分析方法,收集大量的動物音頻數據進行處理,將有效信息提取,從而對目標物種進行識別與檢測。其原理是將音頻轉化為聲譜圖,將圖片識別算法應用于聲音的識別。Ruff等[42]通過CNN對5種貓頭鷹(Strigiformes)的叫聲進行識別,節省了大量時間與人力,提高了檢測效率。之后,Ruff等[43]又通過對系統的進一步完善,對14種鳥類和哺乳類動物的音頻片段進行檢測,大部分物種的識別準確率超過90%,而自動檢測相比手動數據篩查,減少了近99%的人工工作量。馮郁茜[33]將CNN與LSTM結合建立雙模態分類算法,對鳥鳴聲進行特征提取,使鳴聲算法得到進一步優化,完成了基于鳴聲的物種自動分類與數量統計工作。
深度學習在音頻識別方面的應用雖然在一定程度上解決了如何高效自動檢測目標物種的問題,但準確率仍受物種活躍度及音頻質量的影響。此外,對于自動檢測目標物種往往需要大型的聲學數據集,數據的收集與處理不僅可能耗費大量的時間,更依賴于計算機的性能。如何解決這些問題仍然是人們研究的重點方向,但對于行跡難以發現的稀有野生動物來說,用相對較容易獲得的音頻進行處理與識別,不失為監測與保護的一條新路。
深度學習已經在計算機視覺領域被廣泛應用并取得了相當顯著的研究成果,但在野生動物識別方面,仍然存在許多難題亟待解決。若針對以下問題進行更深入地探討與研究,有望進一步推動深度學習在動物識別方面的發展,并加強其在野生動物保護方面的應用。
目前,深度學習取得的有效成果大部分源于監督學習,無監督學習的準確性往往不如監督學習,但如果想讓人工智能有更進一步地發展,無監督學習將起到舉足輕重的作用。在無監督學習中,機器可以自主學習沒有人為正確標簽的數據并進行預測,但所需的巨大的計算量及深層次的網絡結構引起欠擬合問題仍有待解決。
一些深度學習模型本身存在訓練時間長、訓練難度大、由于存在過多參數設計困難、自身模型過于龐大、樣本利用率低等問題。因此,如何對參數進行調整或通過利用不同模型搭建集成模型可以成為解決問題并提高準確率的方向[25]。除此之外,也可提出全新的算法與設計,或制造出全新的硬件來配合模型訓練,例如Google為Tensorflow設計的ASIC芯片TPU取代硬件方面的GPU、Google Deep Mind通過Learning to learn算法[44]調整網絡結構使學習效率更高等。
數據集獲取難易度不同,大部分來源主要為網絡或人工拍攝整理,由于野生動物活動隱蔽、位置變動快、背景環境復雜等客觀原因,可獲取的完整數據集較少。若受到光照、氣候條件、捕捉角度、個體姿態、部分或完全遮擋等影響,也將造成數據質量參差不齊,這需要人工或計算機進行后續處理,此過程需要大量的時間和成本,處理的完成度與后續訓練和識別等工作的順利展開有重要聯系。同時,訓練結果也受限于數據的數量及質量,如果物種數據來源不夠廣泛且不具有代表性,訓練和測試的準確率可能較低。數據量與復雜度的增加也會對識別過程造成一定影響,需要根據需求改善或改變網絡參數與結構,因此對硬件環境的要求較高,需要更多的資金投入。
針對于動物數據集的數量與質量問題,有3種解決方案:一是對深度學習框架性能的提升,包括對網絡架構的優化、識別速度的提高、識別準確度的強化等。目前的識別學習網絡需要以大量的樣本數據為依托進行訓練,而野生動物的數據資料往往比較匱乏,因此對小樣本數據進行訓練并有效識別可能成為未來的研究方向之一;二是通過數據增強,例如旋轉、翻轉、移位、裁剪等增強技術,在無法獲得更多數據的情況下獲得更多的參數,提升學習網絡的性能;三是加強對野生動物資源調查與評估的投入,需要大量的資料收集和錄入工作來充實野生動物數據庫中的信息資料。
獲得大批量準確的帶標簽數據往往需要耗費大量的人力物力財力,因此如何減少訓練所需標簽的數量也成為研究的一個新方向。He等[45]曾提出對偶學習范式減少訓練對帶標簽數據的依賴,這對于標記數據難以收集的珍稀物種的識別將會更為有利。
將深度學習與其他技術結合,應用于野生動物識別與調查。例如,微軟的AI for Earth項目利用CNN網絡結合OpenCV和Caffe框架對物種識別分類及監測種群狀況,并使用DNA采樣和GPS項圈跟蹤物種以了解總體種群數量與其棲息地的關系。此外還有以下幾種思路:一是直接將衛星遙感與深度學習結合進行物種識別。目前比較成功的例子是Yang等[46]利用衛星圖像在神經網絡算法的基礎上對牛羚(Budorcastaxicolor)、布氏斑馬(Equusburchelli)進行了自動識別,Sergio等[47]也發現GPS與衛星數據在瀕危物種保護與管理的應用不斷增多,人們可以通過這些數據對物種死亡率進行調查并評估潛在死亡風險,甚至可以遠程追蹤威脅野生動物的非法活動。二是將GIS空間分析與深度學習結合進行分類并評估。三是基于深度學習的無人機檢測方法[48],可以高效地識別定位目標、獲取地物信息。例如,Eikelboom等[49]通過無人機與卷積神經網絡結合搭建的半自動檢測方法對肯尼亞大草原的非洲象(Loxodontaafricana)、長頸鹿(Giraffacamelopardalis)、平原斑馬(Equusquagga)等物種進行檢測,發現空中觀測與人工觀測相比,不僅在效率上有很大提升,其受到飛行速度、物種群體規模、觀察者狀態等干擾因素影響極小,精確度會有所提高。這些方法雖然還在完善之中,但都有望成為對野生動物進行監測與保護的有力技術支撐。
人工智能的應用領域在不斷擴大,基于深度學習的識別算法也在不斷進步,這個趨勢已成為發展的必然。深度學習是一個十分抽象的領域,但它卻有著不可小覷的上升潛力。研究表明,將人工智能應用于動物數據分析與評估在國內外均已略顯成效,但在動物視頻、音頻識別方面仍有較大的局限性。相信在互聯網大數據時代的推動下,人工智能將更廣泛地應用于野生動物資源的監測與識別,并通過對野生動物的動態變化與棲息地的觀測,對其生存狀態做出更完善地評估,輔助野生動物保護機構更好地進行有針對性的研究與保護工作,為維護自然生態平衡貢獻新的力量。