基于注意力機制和可變形卷積的雞只圖像實例分割提取

2021-05-19 01:50:12郝宏運李騰飛王紅英

農(nóng)業(yè)機械學(xué)報 2021年4期

方鵬郝宏運李騰飛王紅英

(1.中國農(nóng)業(yè)大學(xué)工學(xué)院，北京 100083； 2.北京城市學(xué)院北京3D打印研究院，北京 100083)

0 引言

人類對畜牧業(yè)產(chǎn)品的消費需求逐年上升，同時，畜牧業(yè)所需的生產(chǎn)資料(土地、水資源、勞動力等)卻不斷萎縮[1]，生產(chǎn)力與社會需求的矛盾日益凸顯。在這種情況下，精準(zhǔn)畜牧業(yè)[2-3]理念以其可持續(xù)、高效、低耗的特點應(yīng)運而生。獲取動物的個體行為、健康、福利信息對精準(zhǔn)畜牧業(yè)管理決策十分重要[4-5]。機器視覺技術(shù)廣泛應(yīng)用于動物監(jiān)測中，而基于視覺的監(jiān)測技術(shù)的前提是實現(xiàn)對動物圖像的提取和分割，只有對動物輪廓信息進行精準(zhǔn)分割，才能對動物個體進行生長評估[6]、體況評價和行為分析[7-8](如發(fā)情行為、產(chǎn)前行為)等方面的研究。

機器視覺技術(shù)具有采集速度快、識別精度高的特點，同時更具有無接觸、對動物應(yīng)激小的優(yōu)勢，在雞只體況監(jiān)測[9-12]、雞只行為識別[13-14]和雞只福利狀態(tài)監(jiān)測[15-16]等方面都有廣泛的應(yīng)用。相關(guān)研究在很大程度上依賴于圖像的分割，顯然，圖像分割的準(zhǔn)確性和精度對基于機器視覺的雞只監(jiān)測技術(shù)至關(guān)重要。然而，傳統(tǒng)的基于顏色空間[17]、幀差或者光流[18]的分割方法難以在復(fù)雜養(yǎng)殖環(huán)境中實現(xiàn)高精度、高魯棒性的圖像分割。

近年來，具有很強特征學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域得到了廣泛應(yīng)用。通過大量經(jīng)過人工標(biāo)注的圖像數(shù)據(jù)的訓(xùn)練，神經(jīng)網(wǎng)絡(luò)可以充分提取攜帶豐富空間和語義信息的圖像特征，并將其用于圖像分割，其分割效果良好[19]。作為一種像素級識別分割目標(biāo)輪廓的目標(biāo)檢測算法，實例分割最早在2014年提出，并迅速得到發(fā)展，先后出現(xiàn)了DeepMask[19]、SharpMask[20]等實例分割算法，但均存在精度不高、模型泛化性不夠的缺點。文獻[21]提出的Mask R-CNN框架在模型泛化能力、分類精度和分割精度上均有優(yōu)異的表現(xiàn)。研究表明，通過深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)養(yǎng)殖環(huán)境下雞只輪廓的提取和分割是可行的。

為了實現(xiàn)疊層籠養(yǎng)環(huán)境下雞只圖像的高精度分割和輪廓提取，本文提出一種基于Mask R-CNN的雞只圖像分割和輪廓提取方法，先對原始圖像進行增強，以提高圖像品質(zhì)，隨后進行雞只圖像的分割和輪廓的提取。

1 圖像采集與圖像增強處理

以疊層籠養(yǎng)環(huán)境下的白羽肉雞為研究對象，進行識別分割試驗。于2019年7月9—11日在山東省煙臺市蓬萊區(qū)民和牧業(yè)股份有限公司肉雞養(yǎng)殖場采集了27～29日齡的肉雞圖像。試驗雞舍為一棟全封閉的8層疊層籠養(yǎng)肉雞舍，舍內(nèi)平均光照強度為8 lx，共飼養(yǎng)羅斯308肉雞114 240只。

圖像采集所用設(shè)備主要包括：Sony XCG-240C型彩色數(shù)字相機，分辨率為1 920像素×1 200像素，匹配焦距6 mm的Ricoh FL-CC0614A-2M型定焦鏡頭；立式三腳架，最大拍攝高度可達2.2 m。拍攝時相機參數(shù)設(shè)定為：采集幀率3 f/s，曝光時間80 ms。

將工業(yè)相機安裝在立式三角架上，固定相機的工作距離、拍攝高度和拍攝角度，在籠門前方位置對籠內(nèi)雞群進行拍攝。將采集的視頻按幀提取成靜態(tài)圖像，人工挑選出800幅肉雞圖像建立樣本集。由于舍內(nèi)照度較低，采集的圖像亮度不夠，為便于后續(xù)的圖像標(biāo)注和圖像特征提取，先對采集的圖像進行Retinex增強。同時，為減少計算量，降低模型訓(xùn)練時間，將原圖像調(diào)整為448像素×256像素。隨后，在Labelme圖像標(biāo)注工具中用多邊形標(biāo)注出雞只的外輪廓，共標(biāo)注目標(biāo)11 034個，制作成COCO(Common objects in context)格式的數(shù)據(jù)集。在樣本集中隨機選取70%(560幅)圖像作為訓(xùn)練集，用于模型的訓(xùn)練，選取20%(160幅)圖像作為驗證集，用于訓(xùn)練參數(shù)的調(diào)優(yōu)，選取10%(80幅)圖像作為測試集，用于評估最終模型的識別能力。采集的原圖及Retinex增強后的圖像如圖1所示。

2 基于Mask R-CNN的雞只輪廓實例分割模型優(yōu)化

Mask R-CNN作為一種實例分割算法，集成了目標(biāo)檢測和語義分割兩大功能，可以同時完成目標(biāo)分割、分類和檢測任務(wù)，且在這3種任務(wù)上均有較優(yōu)的表現(xiàn)，是一種綜合性能很優(yōu)異的實例分割方法。因此，本文選擇在Mask R-CNN模型框架下進行雞只圖像實例分割模型的研究，其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

整體上，Mask R-CNN網(wǎng)絡(luò)分為主干網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)(Region proposal networks, RPN)和頭部網(wǎng)絡(luò)。主干網(wǎng)絡(luò)主要進行圖像特征的提取，區(qū)域生成網(wǎng)絡(luò)主要通過提取的圖像特征生成感興趣區(qū)域(ROI)，而頭部網(wǎng)絡(luò)則在此基礎(chǔ)上完成之后的目標(biāo)分類、邊框回歸及掩膜預(yù)測生成工作。

針對本文待分割圖像的特點，在現(xiàn)有Mask R-CNN網(wǎng)絡(luò)基礎(chǔ)上進行了調(diào)整和優(yōu)化，構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。主要對主干網(wǎng)絡(luò)做出3點優(yōu)化：①調(diào)整卷積層結(jié)構(gòu)。②構(gòu)建基于注意力機制的卷積層。③引入可變形卷積。

2.1 主干網(wǎng)絡(luò)卷積層結(jié)構(gòu)調(diào)整優(yōu)化

目前，通用的Mask R-CNN網(wǎng)絡(luò)以深度殘差網(wǎng)絡(luò)[22](ResNet)和特征金字塔網(wǎng)絡(luò)(Feature pyramid networks, FPN)相結(jié)合的方式作為主干網(wǎng)絡(luò)，負責(zé)輸入圖像的特征提取。ResNet網(wǎng)絡(luò)作為一種深層網(wǎng)絡(luò)，可以有效解決常規(guī)網(wǎng)絡(luò)堆疊到一定深度時出現(xiàn)的梯度彌散問題，通過深層次的網(wǎng)絡(luò)達到較好的特征提取效果，其基本結(jié)構(gòu)為殘差模塊(Residual block)，通過模塊的堆疊，使網(wǎng)絡(luò)達到較大深度。

現(xiàn)有研究表明，淺層網(wǎng)絡(luò)的感受野較小，能夠捕獲更多的圖像細節(jié)，提升檢測的精度；而深層網(wǎng)絡(luò)輸出的特征更加抽象，更加關(guān)注圖像的語義信息，有利于目標(biāo)的檢出[23]。本文研究對象為籠養(yǎng)狀態(tài)下的雞只，目標(biāo)單一，類別少，目標(biāo)檢出相對容易。因此對現(xiàn)有主干網(wǎng)絡(luò)卷積層數(shù)量和殘差學(xué)習(xí)模塊堆疊方式進行調(diào)整，適當(dāng)削減卷積層的數(shù)量，增加淺層網(wǎng)絡(luò)深度，減小深層網(wǎng)絡(luò)深度，使網(wǎng)絡(luò)更加關(guān)注圖像的細節(jié)信息。網(wǎng)絡(luò)由原來的101層卷積層減少為41層，降低網(wǎng)絡(luò)計算量；同時網(wǎng)絡(luò)第3階段卷積層數(shù)量從12層增加為15層，第4階段卷積層數(shù)量從69層減少為9層，第5階段卷積層數(shù)量從9層減少為6層，降低圖像特征損耗。調(diào)整后的ResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。圖中只包含卷積層和池化層，每個卷積層后還有批量正則化層和激活層未畫出；第1～5階段分別為ResNet網(wǎng)絡(luò)的5個階段；2x、4x為模塊重復(fù)次數(shù)；Conv(64, 256,k=(1,1),s=1,p=0)中，k為卷積核尺寸，s為滑動步長，p為填充像素數(shù)，256為卷積核通道數(shù)，64為上一層卷積層輸出的通道數(shù)，其余卷積層類似。主干網(wǎng)絡(luò)由殘差學(xué)習(xí)模塊堆疊而成，殘差學(xué)習(xí)模塊首端和末端為1×1卷積核，中間為3×3卷積核。在網(wǎng)絡(luò)每個階段的第1個殘差模塊，除了3個卷積層的串聯(lián)，輸入和輸出之間還通過一個卷積層旁路相連，以增加輸入特征圖的通道數(shù)，便于和輸出特征圖融合，而后面接的殘差學(xué)習(xí)模塊輸入和輸出特征圖的通道數(shù)一致，故可以不通過卷積層升高維度而直接進行加操作。這種結(jié)構(gòu)可以有效降低特征損耗，提升模型訓(xùn)練效果。

FPN[23]網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。輸入圖像自下而上分別經(jīng)過ResNet網(wǎng)絡(luò)5個階段的處理，輸出5種不同尺度的特征圖(C1～C5)。輸出的特征圖分別通過一個1×1的卷積操作后與自上而下的上采樣操作生成的特征圖進行融合，生成特征圖M5、M4、M3和M2，隨后經(jīng)過3×3的卷積操作消除上采樣的混疊效應(yīng)，生成特征圖P5、P4、P3和P2，P5經(jīng)過一次下采樣操作生成P6，特征圖P2、P3、P4、P5和P6分別獨立地輸入到RPN網(wǎng)絡(luò)，生成若干個感興趣區(qū)域(ROI)。FPN網(wǎng)絡(luò)將ResNet網(wǎng)絡(luò)每一階段輸出的特征圖融合，既利用了高層特征圖的強語義信息，又利用了低層特征圖的強空間位置信息，大大提升了主干網(wǎng)絡(luò)的特征提取能力。

2.2 基于注意力機制的卷積層構(gòu)建

注意力機制最早由MNIH等[24]提出并引入圖像分類領(lǐng)域，隨后在機器學(xué)習(xí)領(lǐng)域迅速發(fā)展，眾多應(yīng)用于不同領(lǐng)域的注意力模型相繼提出。注意力機制模仿人類視覺系統(tǒng)的處理機制，人類在進行視覺信息處理時會自動過濾不重要的信息，而把更多注意力資源用于需要重點關(guān)注的目標(biāo)區(qū)域，大大提高了視覺信息處理效率與準(zhǔn)確性。而當(dāng)注意力機制引入基于神經(jīng)網(wǎng)絡(luò)的圖像處理領(lǐng)域時，其本質(zhì)是一種資源的重新分配機制，即對不同重要程度的信息賦予不同的權(quán)重，大大提高神經(jīng)網(wǎng)絡(luò)效率，用很小的計算量換取網(wǎng)絡(luò)性能的顯著提升。

為提升雞只輪廓實例分割模型網(wǎng)絡(luò)性能，本文在ResNet網(wǎng)絡(luò)中引入注意力機制。在原有網(wǎng)絡(luò)結(jié)構(gòu)中添加1個通道注意力模塊和1個空間注意力模塊[25]。

通道注意力模塊結(jié)構(gòu)如圖5a所示，輸入的特征圖經(jīng)過1個全局最大池化層和平均池化層后，分別得到1個通道描述，隨后這2個通道描述送入1個2層的神經(jīng)網(wǎng)絡(luò)，得到2個特征向量，2個特征向量通過逐元素累加的方式合并成1個，通過1個激活函數(shù)輸出通道權(quán)重系數(shù)，權(quán)重系數(shù)與輸入特征相乘即得到新的特征圖。空間注意力模塊結(jié)構(gòu)如圖5b所示。

本文在ResNet網(wǎng)絡(luò)的每一個殘差模塊中串聯(lián)插入1個通道注意力模塊和1個空間注意力模塊。卷積運算通過將跨通道和空間信息融合在一起來提取信息特征，既考慮了不同通道像素的重要性，又考慮了同一通道不同位置像素的重要性。其在ResNet網(wǎng)絡(luò)殘差學(xué)習(xí)模塊的位置如圖6所示。每個殘差學(xué)習(xí)模塊中，在第2個1×1卷積層之后串聯(lián)接入1個通道注意力模塊和1個空間注意力模塊。

2.3 引入可變形卷積層

在圖像檢測任務(wù)(目標(biāo)檢測、實例分割)中，通常需要網(wǎng)絡(luò)對同一目標(biāo)的不同姿態(tài)，如位置的偏移、角度的旋轉(zhuǎn)及尺度的變化都具有相同的識別能力。然而，受限于卷積操作本身的固定性，卷積神經(jīng)網(wǎng)絡(luò)并不具有尺度不變性和旋轉(zhuǎn)不變性，基本沒有對目標(biāo)幾何形變的適應(yīng)能力[26]。實際中，神經(jīng)網(wǎng)絡(luò)對目標(biāo)變化的適應(yīng)能力幾乎完全來自于數(shù)據(jù)本身的多樣性。現(xiàn)有研究表明，標(biāo)準(zhǔn)卷積中的規(guī)則格點采樣是導(dǎo)致網(wǎng)絡(luò)難以適應(yīng)幾何形變的主要原因，為此DAI等[27]提出了一種可變形卷積網(wǎng)絡(luò)，用可變形卷積取代神經(jīng)網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積，眾多研究表明，該方法在目標(biāo)檢測領(lǐng)域表現(xiàn)優(yōu)異[28-30]。

標(biāo)準(zhǔn)的卷積操作具有非常固定的幾何結(jié)構(gòu)，很難與目標(biāo)復(fù)雜的外形相匹配。而可變形卷積擁有可變化、不規(guī)則的形狀，感受野靈活多變，可以很好適應(yīng)不同尺寸、外形的目標(biāo)。在標(biāo)準(zhǔn)的二維卷積過程中，對于輸出特征圖中的每一個位置P0，其特征值y(P0)計算式為

(1)

式中w(Pn)——該采樣位置的卷積核權(quán)重

x(P0+Pn)——采樣位置的輸入特征值

Pn——感受野區(qū)域中的所有采樣位置

R——感受野區(qū)域

教師在開展中長跑運動時，單一的以訓(xùn)練為主，沒有合適的方式方法，無法引導(dǎo)學(xué)生去擺脫抵觸情緒，所以學(xué)生的畏難心理日益嚴(yán)重，對中長跑運動的興趣也直線下降。

而在可變形卷積中

(2)

式中x(P0+Pn+ΔPn)——采樣偏移位置的輸入特征值

ΔPn——采樣點位置的偏移量

可見，可變形卷積就是在傳統(tǒng)的卷積操作上加入了一個采樣點位置的偏移量，使卷積變形為不規(guī)則卷積，從而擁有更大、更靈活的感受野。

為分割出圖像中雞只的輪廓像素，本文在ResNet網(wǎng)絡(luò)中加入可變形卷積層，通過引入偏移量，增大感受野，同時使感受野可以適應(yīng)不同尺寸、形狀的雞只輪廓，達到更好的分割效果。將ResNet網(wǎng)絡(luò)的第3、4、5階段的3×3卷積調(diào)整為可變形卷積，而第2階段保留為標(biāo)準(zhǔn)卷積層，以減小引入可變形卷積帶來的網(wǎng)絡(luò)參數(shù)量的增加對網(wǎng)絡(luò)負荷的影響。

3 雞只輪廓識別分割試驗

3.1 試驗條件及配置

試驗在Ubuntu 18.04系統(tǒng)下進行，試驗所用機器配置：處理器為Intel(R) Core(TM) i7-9700K，主頻3.6 GHz，內(nèi)存16 GB，顯卡為NVIDIA GeForce RTX 2080(16 GB)，使用GPU加速計算，采用Python作為編程語言，選擇Pytorch框架來實現(xiàn)網(wǎng)絡(luò)模型的搭建、訓(xùn)練和調(diào)試。訓(xùn)練集為560幅圖像，驗證集為160幅圖像，測試集為80幅圖像。

使用Torchvision視覺庫中的ResNet預(yù)訓(xùn)練模型作為初始輸入權(quán)重，采用隨機梯度下降法對雞只輪廓分割網(wǎng)絡(luò)進行訓(xùn)練。設(shè)置學(xué)習(xí)率為0.001，采用熱身策略，初始學(xué)習(xí)率為0.000 18，采用線性增加策略，訓(xùn)練5個epochs后增加到0.001；動量為0.9，權(quán)值衰減系數(shù)為0.000 1，訓(xùn)練迭代100個epochs，每5個epochs保存一個權(quán)重，取精度最高的模型為最終模型。

3.2 試驗結(jié)果與分析

采用不同的主干網(wǎng)絡(luò)進行雞只輪廓分割試驗：①現(xiàn)有的ResNet 101網(wǎng)絡(luò)。②調(diào)整現(xiàn)有網(wǎng)絡(luò)卷積層結(jié)構(gòu)后得到的ResNet 41網(wǎng)絡(luò)。③ResNet 41網(wǎng)絡(luò)中添加注意力機制(簡稱為ResNet 41+cbam)。④ResNet 41網(wǎng)絡(luò)中添加注意力機制并將部分卷積層替換成可變形卷積(簡稱為ResNet 41+cbam+dcn)。⑤ResNet 50網(wǎng)絡(luò)中添加注意力機制和可變形卷積層(簡稱為ResNet 50+cbam+dcn)。

模型對雞只圖像的分割結(jié)果如圖7所示。由圖7可知，分割模型可較準(zhǔn)確地將雞只輪廓之間的粘連區(qū)域分割開，可實現(xiàn)籠養(yǎng)雞只輪廓的提取分割。

以準(zhǔn)確率A(Accuracy)、召回率R(Recall)和精確率P(Precision)、平均檢測時間t作為評價指標(biāo)，衡量分割模型的性能。

不同模型的性能如表1所示。由表1可知，將主干網(wǎng)絡(luò)卷積層數(shù)從101層減小為41層，模型各指標(biāo)未有顯著降低，說明原有的101層卷積網(wǎng)絡(luò)對本文研究的雞只輪廓分割提取任務(wù)有較大冗余，降低其卷積層數(shù)不影響模型性能，但可以大幅降低運算量，其單幅圖像檢測時間從0.32 s減小為0.18 s，降低了44%。在ResNet 41網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機制，模型各指標(biāo)性能有較大提升，其精確率和準(zhǔn)確率分別從77.01%、82.34%大幅提升至85.49%、88.35%，召回率略有下降，而檢測時間卻沒有顯著增加，注意力機制的引入使模型用很小的資源開銷換取了較大的性能提升。在引入注意力機制的基礎(chǔ)上，將部分3×3卷積層調(diào)整為可變形卷積層，模型性能較優(yōu)化前有一定程度的提升，精確率和準(zhǔn)確率分別從85.49%、88.35%提升到88.60%、90.37%，與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比，其精確率和準(zhǔn)確率分別提高了10.37、5.89個百分點。但同時，可變形卷積的引入增加了模型的參數(shù)量，其檢測時間從0.24 s增至0.41 s，對模型的實時性有所影響。在ResNet 50 網(wǎng)絡(luò)中引入注意力機制并添加可變形卷積層，模型在驗證集上的精確率和準(zhǔn)確率分別為87.23%、89.80%，均略低于在ResNet 41網(wǎng)絡(luò)中引入注意力機制及添加可變形卷積層的模型性能，說明本文設(shè)計的41層網(wǎng)絡(luò)結(jié)構(gòu)有利于提升分割網(wǎng)絡(luò)的性能。

表1 不同網(wǎng)絡(luò)性能對比Tab.1 Performance comparison of different networks

3.2.2不同模型損失曲線分析

對上述5個網(wǎng)絡(luò)訓(xùn)練過程中的損失函數(shù)變化進行分析。損失函數(shù)衡量的是模型訓(xùn)練過程中預(yù)測值和真實值之間的差異變化。在基于Mask R-CNN網(wǎng)絡(luò)的雞只輪廓實例分割模型的訓(xùn)練中，損失函數(shù)L主要由分類損失、檢測損失和分割損失3部分組成，定義式[21，31]為

L=Lcls+Lbbox+Lmask

(3)

式中Lcls——模型的分類損失

Lbbox——檢測損失(邊框回歸損失)

Lmask——分割損失

分類損失Lcls計算式為

(4)

式中Ncls——類別數(shù)量

pi——目標(biāo)被預(yù)測為正樣本的概率

檢測損失Lbbox計算式為

(5)

其中

(6)

Nreg——特征圖的像素值

ti——預(yù)測邊框的坐標(biāo)向量

分割損失Lmask計算式為

Lmask=Sigmoid(Ck)

(7)

式中Ck——第k類目標(biāo)

網(wǎng)絡(luò)對于每一個ROI都有k×m2維度的輸出，k為類別數(shù)，共輸出k個分辨率為m×m的二值掩膜。對于第k類目標(biāo)(Ck)，Lmask定義為對掩膜中的每一個像素執(zhí)行Sigmoid函數(shù)得到的平均二值交叉熵損失。

圖8為以ResNet 41為主干網(wǎng)絡(luò)的雞只輪廓分割模型訓(xùn)練過程中檢測損失、分類損失、分割損失和總損失的變化。各損失均在訓(xùn)練開始的很短時間內(nèi)下降到較低值，隨后隨著迭代步數(shù)的增加緩慢下降，訓(xùn)練過程中各損失曲線波動較小，模型收斂較好，說明各超參數(shù)配置較為合理。當(dāng)?shù)綌?shù)達到10 000次(100個epochs)左右時，各損失均趨于穩(wěn)定，不再持續(xù)下降。

圖9為不同網(wǎng)絡(luò)的總損失隨迭代步數(shù)的變化情況。5個網(wǎng)絡(luò)的總損失均隨著網(wǎng)絡(luò)的迭代逐步下降，最終趨于穩(wěn)定，模型收斂。ResNet 101和ResNet 41網(wǎng)絡(luò)的損失曲線在訓(xùn)練后期基本重合，最終訓(xùn)練損失分別為0.85和0.87左右，一定程度上說明2個模型具有相似的性能表現(xiàn)。而ResNet 41+cbam網(wǎng)絡(luò)和ResNet 41+cbam+dcn網(wǎng)絡(luò)最終訓(xùn)練損失分別穩(wěn)定在0.63和0.31左右，較優(yōu)化之前的網(wǎng)絡(luò)有較明顯的下降，將部分卷積層替換成可變形卷積后，模型性能有一定提升。ResNet 50+cbam+dcn的網(wǎng)絡(luò)最終訓(xùn)練損失在0.43左右，略高于ResNet 41+cbam+dcn網(wǎng)絡(luò)，ResNet 41+cbam+dcn網(wǎng)絡(luò)在所有試驗網(wǎng)絡(luò)中性能最優(yōu)。

3.2.3不同模型輸出特征可視化分析

為更好地解釋本文采用的優(yōu)化方式對模型性能的提升，利用GRAD-CAM[32]對不同網(wǎng)絡(luò)進行可視化分析，通過梯度來衡量卷積層中空間位置的重要性，分別輸出不同網(wǎng)絡(luò)、不同階段輸出特征的類激活熱力圖(Class activation heat map)，可以清楚地顯示網(wǎng)絡(luò)在進行預(yù)測時重點關(guān)注的圖像區(qū)域。本文將5種網(wǎng)絡(luò)第2階段和第5階段的特征可視化結(jié)果進行了比較，結(jié)果如圖10所示。圖中紅色區(qū)域的范圍越大，說明網(wǎng)絡(luò)提取的特征更多地覆蓋到了需要識別的目標(biāo)上。由圖可知，ResNet 101網(wǎng)絡(luò)和ResNet 41網(wǎng)絡(luò)均只有少部分特征覆蓋到了雞只輪廓上，而ResNet 41+cbam網(wǎng)絡(luò)、ResNet 41+cbam+dcn及ResNet 50+cbam+dcn網(wǎng)絡(luò)提取的特征更好地覆蓋了目標(biāo)對象區(qū)域，說明在網(wǎng)絡(luò)中引入注意力機制確實加強了網(wǎng)絡(luò)對重點信息的關(guān)注程度，提升了網(wǎng)絡(luò)性能。而可變形卷積使網(wǎng)絡(luò)具有更大、更靈活的感受野，提升了網(wǎng)絡(luò)對不同尺寸、不同外形目標(biāo)的適應(yīng)能力，提升了網(wǎng)絡(luò)對雞只輪廓的分割能力。對比ResNet 41+cbam+dcn網(wǎng)絡(luò)和ResNet 50+cbam+dcn網(wǎng)絡(luò)的可視化結(jié)果，可以發(fā)現(xiàn)ResNet 41+cbam+dcn網(wǎng)絡(luò)特征提取效果略好。從第2階段和第5階段的特征圖可以看出，隨著網(wǎng)絡(luò)的加深，網(wǎng)絡(luò)提取的特征越來越多地覆蓋到了雞只輪廓上，同時網(wǎng)絡(luò)也過濾掉了一些不屬于雞只輪廓的特征，提升了模型的檢測精度。模型輸出特征的可視化分析結(jié)果與上文中模型性能指標(biāo)和訓(xùn)練損失分析結(jié)果一致，進一步說明本文對網(wǎng)絡(luò)進行的優(yōu)化是有效的。

4 結(jié)論

(1)以疊層籠養(yǎng)下的肉雞為研究對象，將Mask R-CNN網(wǎng)絡(luò)引入雞只輪廓的分割提取中，構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)以基于注意力機制、可變形卷積的41層深度殘差網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)相融合的方式作為主干網(wǎng)絡(luò)，可以實現(xiàn)籠養(yǎng)狀態(tài)下肉雞圖像的分割和輪廓提取。

(2)優(yōu)化后的模型在驗證集的精確率、準(zhǔn)確率和召回率分別為88.60%、90.37%和77.48%，與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比，其精確率和準(zhǔn)確率分別提高了10.37、5.89個百分點，而單幅圖像的檢測時間僅增加了0.09 s，說明注意力機制和可變形卷積的引入有效提高了網(wǎng)絡(luò)的綜合性能。

(3)特征圖可視化分析表明，網(wǎng)絡(luò)中引入注意力機制和可變形卷積后，網(wǎng)絡(luò)提取的特征更多地覆蓋到雞只輪廓上，提高了檢測精度。本文算法模型對籠養(yǎng)狀態(tài)下的雞群分割效果較好，能準(zhǔn)確分割提取雞只個體輪廓。