楊雪珂,蒙金超,馮悅恒,林婷婷,,王兆君,劉 輝
(1. 海南大學 林學院,海口 570228; 2. 中國科學院 動物研究所,北京 100101)
隨著科技的發(fā)展,鳥類圖像的大量采集變得更加便捷,可利用圖像采集設(shè)備(如紅外相機[1]、普通相機)采集,也可利用智能手機采集。隨著鳥類數(shù)據(jù)共享平臺(eBird[2]、中國愛鳥網(wǎng)等)的建立,來自世界各地的大量鳥類圖像數(shù)據(jù)被上傳至網(wǎng)絡(luò)數(shù)據(jù)庫。僅以eBird為例,已有超過2 000萬張鳥類圖像被上傳至該平臺,并且圖像數(shù)量依舊在迅速增長。鳥類圖像記錄了鳥類形態(tài)學特征、生境信息[3]及行為學特征,對鳥類學研究有著重要的價值,但面對如此大量的鳥類圖像數(shù)據(jù),僅憑人工處理是無法滿足需求的。為了能快速自動化處理大量的鳥類圖像數(shù)據(jù),深度學習(Deep Learning)領(lǐng)域的研究人員已經(jīng)開展了相關(guān)研究。圖像識別技術(shù)應(yīng)用于鳥類物種識別已有一些成功案例,在標準鳥類圖像數(shù)據(jù)庫CUB200-2011[4]的技術(shù)報告中,Welinder等[4]就使用局部區(qū)域和基于傳統(tǒng)特征的詞包模型實現(xiàn)分類,Berg等[5]提出POOF特征,Yao[6]和Yang[7]等均嘗試使用模板匹配的方法替換定位算法中的滑動窗口,以降低算法復(fù)雜度。基于圖像識別技術(shù)的珍稀瀕危鳥類的行為識別具有重大應(yīng)用價值[8],但整體看來,目前的研究主要涉及計數(shù)[9]、密度估計[10]、生境因素識別[11]等。雖然目前自動監(jiān)測獲得的影像數(shù)據(jù)量極大,其中很大一部分行為表達數(shù)據(jù)對于無人為干擾下鳥類行為的研究很有價值,但是目前使用這種方式對野生鳥類行為學進行的研究少之又少。動物通常以身體運動和身體姿勢來表達行為,動物的行為是其對環(huán)境和生理狀況的一種反應(yīng),為研究動物健康水平提供了重要的線索[12],所以進行動物行為識別或動作識別是十分必要的。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為深度學習的代表算法之一,其在圖像識別領(lǐng)域展現(xiàn)了非常大的潛力和極佳的性能[13-15]。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型包括ResNet[16]、VGG Net[17]、ALexNet[18]、GoogLeNet[19]等,其中,殘差網(wǎng)絡(luò)(Residual Network, ResNet)良好地解決了網(wǎng)絡(luò)加深帶來的學習退化問題,該模型目前在各領(lǐng)域取得了廣泛應(yīng)用[20]。目前利用卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)野生動物自動識別的研究較多。史春妹等[21]運用單次多盒目標檢測方法來進行東北虎的個體識別,達到97.4%的準確率。石鑫鑫等[22]提出了一種全連接算法與稀疏連接算法相結(jié)合的全卷積神經(jīng)網(wǎng)絡(luò)解決了蛙聲識別問題,準確率達到99.67%。還有使用基于感興趣區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)的野生動物物種自動識別方法實現(xiàn)了基于野生動物監(jiān)測圖像的物種識別研究,平均識別率均可達到90%左右[23]。殘差網(wǎng)絡(luò)模型的應(yīng)用研究成果對于鳥類圖像大數(shù)據(jù)的有效利用有著重要的輔助作用,但仍不能滿足實際需要,仍缺乏應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進行野生鳥類的動作自動化識別研究[24]。
勺嘴鷸隸屬鷸科(Scolopacidae)濱鷸屬(Calidris), 是一種僅分布于東亞–澳大利西亞候鳥遷徙路線上的涉禽[25],被世界自然保護聯(lián)盟(IUCN)紅色名錄列為極度瀕危(CR)物種。其在我國的江蘇、浙江、福建、廣東、海南等省份均有被記錄到,其中,海南儋州灣是海南島目前已知的為數(shù)不多的勺嘴鷸的為數(shù)不多的越冬地。繁殖期以外的時期,勺嘴鷸只在濱海灘涂濕地有分布,覓食地主要為潮間帶的灘涂[26]。目前,國內(nèi)外主要利用環(huán)志等回收數(shù)據(jù),開展勺嘴鷸的棲息地保護[27]、種群數(shù)量[28]和分布區(qū)系[29]等的研究,未涉及其行為動作的識別。因此,筆者嘗試使用卷積神經(jīng)網(wǎng)絡(luò)模型(ResNet50、ResNet101和ResNet152)進行勺嘴鷸動作的自動識別研究,以期開啟海南熱帶地區(qū)鸻鷸類[30]涉禽的動作識別以及其他野生鳥類行為學自動識別的研究。
1.1 研究區(qū)域概況 儋州灣(109°02′~109°36′E,19°33′~20°01′N)位于海南省儋州市中北部,由北部灣伸入洋浦半島進而形成的半封閉內(nèi)灣, 面積約為 50 km2。該區(qū)域?qū)儆诩撅L性氣候,冬季干燥、夏季濕潤,年平均降雨量約1 426 mm,年均氣溫23.1 ℃[31]。儋州灣于1986年被設(shè)立為市級自然保護區(qū),紅樹林面積約133 hm2,是黑臉琵鷺(Platalea minor)、小青腳鷸(Tringa guttifer)、勺嘴鷸等珍稀瀕危遷徙涉禽的重要越冬地和停歇地[32]。
1.2 研究方法
1.2.1 數(shù)據(jù)的采集與預(yù)處理 數(shù)據(jù)采集于2020-11-21—2021-03-20,采集時間段主要集中在9:00-17:30,共獲得42份用相機拍攝的勺嘴鷸視頻(佳能SX60HS長焦數(shù)碼相機、尼康D500單反相機和尼康Z6微單相機,視頻尺寸為1920×1 080 30p)。將采集的數(shù)據(jù)進行預(yù)處理:1)通過查找相關(guān)文獻、咨詢專家和快速瀏覽現(xiàn)有視頻資料確定可以用于識別勺嘴鷸動作的標簽(表1);2)將42份視頻數(shù)據(jù)解幀(每5秒解幀,有重復(fù)的圖片只保留1張,再進行人工修正),共獲得66 875張勺嘴鷸圖像;3)刪除勺嘴鷸與其他鳥類同框的圖像和因拍攝抖動或?qū)故⌒纬傻哪:龍D像,手動篩選相應(yīng)標簽的圖像(每1張圖像包含1種標簽),并在篩選結(jié)束后創(chuàng)建以標簽命名的文件夾,最后共獲得9個標簽文件夾;4)使用Grad-Cam[33]對3種模型的預(yù)測結(jié)果進行可視化處理(圖1)。圖1中橙色部分表示模型是基于這些區(qū)域判斷出圖像中的動作類別。

圖1 Grad-CAM熱力圖

表1 勺嘴鷸的動作分類及定義
1.2.2 構(gòu)建數(shù)據(jù)集 由于目前沒有用于識別勺嘴鷸動作的公共數(shù)據(jù)集,因此,筆者建立了1個由獵食、覓食、休憩、理羽、洗浴、抖羽、振翅和踱步9種動作標簽構(gòu)成的共2 174張圖片的數(shù)據(jù)集(表2),該數(shù)據(jù)集按照 3∶ 1∶ 1的比例隨機劃為訓練集、驗證集和測試集[34]。

表2 動作標簽數(shù)據(jù)集
1.3 殘差卷積神經(jīng)網(wǎng)絡(luò)和遷移學習 卷積神經(jīng)網(wǎng)絡(luò)包含多個卷積層、池化層和全連接層[35]。卷積層和池化層是提煉圖像特征關(guān)鍵部分的模型,全連接層能夠在高層次特征域內(nèi)把圖像分類作為主要實現(xiàn)的圖像映射[36-38]。卷積神經(jīng)網(wǎng)絡(luò)也可以被認為是由特征提取器和分類器2個部分組成,具有端到端特征提取和分類的特性。在卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,卷積的層次更深,網(wǎng)絡(luò)學習的能力也就更強,那么特征圖能得到的信息也會更全。然而,隨著網(wǎng)絡(luò)層次和結(jié)構(gòu)逐漸加深,網(wǎng)絡(luò)內(nèi)的計算量也將隨之增多,進而導(dǎo)致網(wǎng)絡(luò)也變得更為復(fù)雜,同時可能會導(dǎo)致梯度消失和網(wǎng)絡(luò)退化等問題[39],從而導(dǎo)致識別效果和穩(wěn)定性都不理想。
殘差網(wǎng)絡(luò)(ResNet)是最近十多年以來相關(guān)領(lǐng)域研究人員提出的最新關(guān)于執(zhí)行計算機領(lǐng)域視覺任務(wù)的一種典型的卷積神經(jīng)網(wǎng)絡(luò),因其加入了殘差模塊從而減少了隨網(wǎng)絡(luò)深度的增加而引起的梯度消失的問題[40],一方面減少了參數(shù)數(shù)量,另一方面在網(wǎng)絡(luò)中增加了直連通道,增加了卷積神經(jīng)網(wǎng)絡(luò)對特征的學習能力[41]。鑒于此背景,筆者使用ResNet101[42]、ResNet50[43]和ResNet152[44]3種不同層數(shù)的殘差卷積網(wǎng)絡(luò)模型作為本研究的基本網(wǎng)絡(luò)。
因本研究數(shù)據(jù)集的圖像相對較少,所以采用殘差網(wǎng)絡(luò)遷移學習[20]的方法, 將前人訓練ImageNet 圖像數(shù)據(jù)集得到的不同深度殘差網(wǎng)絡(luò)模型的模型參數(shù)當作勺嘴鷸圖像訓練3種網(wǎng)絡(luò)模型的初始化值, 然后把預(yù)訓練網(wǎng)絡(luò)內(nèi)的最后一層的全連接層輸出替換為本研究的勺嘴鷸圖像數(shù)據(jù)集的類別數(shù)9,以此為基礎(chǔ),再將勺嘴鷸圖像識別模型進行下一步訓練(圖2)。

圖2 殘差網(wǎng)絡(luò)數(shù)據(jù)分析流程圖
1.4 實驗環(huán)境配置 實驗中所有代碼均是在PyTorch[45]神經(jīng)網(wǎng)絡(luò)框架下完成的。本研究選用的是PyTorch1.3.1,框架環(huán)境為GPU: Tesla V100Mem: 32 GB,操作系統(tǒng)是Linux Cento OS 7.2服務(wù)器。
1.5 實驗?zāi)P?/p>
1.5.1 模型結(jié)構(gòu) 本研究所用模型是以經(jīng)典的ResNet50、ResNet101和ResNet152模型為基礎(chǔ)進行新的改善,網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)具體設(shè)置分別為損失函數(shù)設(shè)置為交叉熵函數(shù);優(yōu)化器設(shè)置為自適應(yīng)矩估算法;學習率設(shè)置為0.000 1;訓練輪數(shù)為100;批量為64。
1.5.2 模型優(yōu)化與評價標準 本研究采用自適應(yīng)矩估計(Adam)方法[46]進行模型的優(yōu)化。圖像分類評估中常用的評價指標有準確率(精度)、精確率、召回率和F1-score[47],在此基礎(chǔ)上本研究添加模型訓練時長作為模型的評價指標。根據(jù)真實標簽和預(yù)測結(jié)果,將所有測試圖像分為4類。總共有4個基本數(shù):真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)。正確預(yù)測的測試圖像的數(shù)量由TP和TN表示,錯誤預(yù)測的圖像的數(shù)量由FN和FP表示。準確率就是正確分類樣本所占總樣本的比率,能夠衡量分類器對于總樣本的判斷能力[33]。精確率又稱查準率,值越高說明正確分類率越高。召回率又稱查全率,值越高說明識別得越全面。F1-score表示的是算法的綜合性能,可以平衡召回率和準確率的影響,其取值范圍為0~1,值越大表示算法性能越好。以上評價標準形式化定義如下:
式中:陽性與陰性是相對的,若陽性代表覓食,陰性代表踱步;TP為真陽性(true positive)圖像數(shù)目,真陽性則證明這個圖像在整個預(yù)測分類的結(jié)果和標記標簽中屬于覓食;FP為假陽性(false positive)圖像數(shù)目,假陽性證明此圖像標記標簽是覓食,但是在預(yù)測分類結(jié)果中為踱步;TN為真陰性(true negative)圖像數(shù)目,真陰性證明該圖像標記標簽為踱步,并且對其預(yù)測的結(jié)果也屬于踱步;FN(false negative)是假陰性圖像數(shù)目,假陰性是圖像標記標簽踱步,但在預(yù)測的分類結(jié)果里是覓食[26]。
2.1 不同模型的損失和驗證精度 隨著訓練輪數(shù)的增加,每個模型的預(yù)測值與真實值之間的損失都呈下降趨勢,驗證集中的準確性都呈上升趨勢(圖3)。最后,隨著訓練輪數(shù)增多,每個模型的驗證準確率都趨于穩(wěn)定,僅存在小幅波動,這表明網(wǎng)絡(luò)得到了充分的訓練。

圖3 3種模型的損失和準確率
2.2 不同模型的識別準確率和訓練時長 從準確率來說,3種網(wǎng)絡(luò)模型準確率之間的差別較小,不同模型的驗證集準確率和測試集準確率都在95%以上,說明模型的泛化能力良好(表3)。模型在每輪訓練時長上都有較快的速度,時長由短到長依次為ResNet50、ResNet101和ResNet152,其中,ResNet50和ResNet152測試集準確率都是96.90%,ResNet101測試集準確率為96.64%,低于其他2個模型。ResNet50訓練時長是89.78 s·輪,ResNet152訓練時長是101.87 s·輪,在同樣準確率的情況下,ResNet50訓練時長低于ResNet152。
2.3 3種模型的精度、召回率及F1-score 圖4展示了不同模型在數(shù)據(jù)集上的評價指標結(jié)果。進食動作標簽在ResNet101和ResNet152模型的F1-score值偏低于0.90,除此之外的其他動作標簽在不同的模型的F1-score值都高于0.90,表明本研究算法的綜合性能較好。在模型精度方面,除踱步和進食2種動作標簽的精度在ResNet50和ResNet101上低于0.90,其余標簽的精度都不低于0.90,說明3種模型在識別動作標簽時都有較強的識別能力。在召回率方面,進食標簽在ResNet152上的召回率在0.80以下,其余標簽在不同的模型上召回率都在0.80以上,且大部分高于0.90,說明進食動作識別得不夠全面。

圖4 3種模型的精度、召回率及F1-score
2.4 勺嘴鷸9種動作標簽的預(yù)測分類結(jié)果 圖5對角線上表示在測試集中預(yù)測正確的圖像數(shù)量,其余為預(yù)測錯誤的數(shù)量。模型對一些動作的識別容易存在誤判現(xiàn)象,如ResNet50模型在識別獵食和踱步時錯判最多,有4張獵食被錯判成踱步;ResNet101模型有2張抖羽被錯判成理羽;ResNet152模型有3張進食被錯判成覓食。Res-Net50、ResNet101和ResNet152模型識別錯誤的圖像總數(shù)分別是12、13、20張。

圖5 測試集勺嘴鷸圖像識別后統(tǒng)計的混淆矩陣
目前在家禽的動作和行為識別方面已經(jīng)有了初步研究。勞鳳丹等[48]基于人工設(shè)計的10種特征利用貝葉斯分類法對單只蛋雞的行為進行了識別,取得了不錯的結(jié)果。但文獻[48]中蛋雞的行為識別是在人工設(shè)計的特征(如蛋雞圖像的質(zhì)心點坐標、輪廓面積、移動距離等)的基礎(chǔ)上進行的,人工設(shè)計的特征往往對領(lǐng)域知識依賴度高,還需要大量的實驗測試,可能只在特定的任務(wù)上才能獲得不錯的效果[49]。相比而言,本研究利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)“端到端”的方式進行勺嘴鷸動作識別,特征提取和分類過程均由模型自動完成,使用這種方法的門檻被大大降低。Wang等[11]驗證了利用深度卷積神經(jīng)網(wǎng)絡(luò)從鳥類圖像中識別棲息環(huán)境元素的可行性,最大識別率達到95.52%,所以筆者期望未來可以進行勺嘴鷸等稀瀕危涉禽棲息地的因素識別,進一步推進棲息地選擇的研究。本研究的數(shù)據(jù)集樣本相對較少,只實現(xiàn)了9種動作識別,未實現(xiàn)勺嘴鷸所有可能動作的識別,期望未來可以通過補充勺嘴鷸不同動作類別的圖像進一步完善勺嘴鷸的其他動作的識別研究。因鸻鷸類涉禽可能存在外觀、體型或行為相似的情況(勺嘴鷸與紅頸濱鷸),所以模型未來可以推廣到鸻鷸類涉禽的動作識別,進一步推動有關(guān)瀕危珍稀涉禽的保護研究。
本研究的不足主要有兩個。第一,只進行勺嘴鷸的動作研究,所以模型在識別與勺嘴鷸體型、行為等方面差異較大的鳥類時,識別效果可能不大理想。此外,因一些不可避免的環(huán)境因素和人為因素,采集的視頻數(shù)據(jù)主要集中在光線較好的9:00-17:30,所以模型可能更適用于在光線良好時間段拍攝圖像的識別。本研究中踱步和進食的識別精度低于其他動作的主要原因是數(shù)據(jù)量不夠充足,導(dǎo)致識別某幾個標簽的時候容易混淆,而且因為靜態(tài)圖像識別動作的缺陷,導(dǎo)致踱步和進食的識別較差,筆者會在后續(xù)工作中進行數(shù)據(jù)補充。第二,使用的是單標簽方法來標記勺嘴鷸的動作,而在實際應(yīng)用時可能會出現(xiàn)1張圖像有多標簽、部分分類照片較少的情況,遷徙候鳥具有顯著的集群行為[50],此類研究往往需要識別1張圖像中不同鳥種的不同動作。如果未來通過結(jié)合目標檢測、圖像分割和物種識別等技術(shù),把一群鳥轉(zhuǎn)換成單只鳥進行識別,實現(xiàn)從多種鳥同框的圖片中識別出多個不同的動作并用一個框?qū)⒚總€動作分割出來,進一步再通過采集更多的圖像數(shù)據(jù)進行訓練,可以使訓練模型在實際應(yīng)用時具有更強的適應(yīng)性。
致謝:新英灣紅樹林保護區(qū)陳正平同志和中國熱帶農(nóng)業(yè)科學院橡膠研究所楊川助理研究員對本研究的野外工作提供了大力的支持,在此深表感謝!