薛月菊,李詩(shī)梅,鄭 嬋,甘海明,李程鵬,劉洪山※
(1. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院,廣州 510642;2. 華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州 510642)
仔豬的存活率對(duì)豬場(chǎng)的生產(chǎn)力和養(yǎng)殖效益具有直接影響[1-2]。豬場(chǎng)飼養(yǎng)環(huán)境下,哺乳母豬姿態(tài)轉(zhuǎn)換所導(dǎo)致的踩壓仔豬,是引起仔豬死亡的主要原因之一。不同姿態(tài)轉(zhuǎn)換對(duì)仔豬的威脅不相同[3-4]。研究哺乳母豬姿態(tài)轉(zhuǎn)換行為的自動(dòng)識(shí)別,一方面當(dāng)發(fā)生姿態(tài)轉(zhuǎn)換時(shí)可做出預(yù)警,提高仔豬的存活率;另一方面可統(tǒng)計(jì)母豬姿態(tài)轉(zhuǎn)換的頻率、類型和持續(xù)時(shí)間,挑選母性良好的母豬作為育種豬,從遺傳育種角度降低斷奶前仔豬的死亡率[5]。
目前,針對(duì)豬的姿態(tài)和姿態(tài)轉(zhuǎn)換識(shí)別已有相關(guān)的研究成果。如基于傳感器的母豬立姿、臥姿和爬跨姿態(tài)識(shí)別[6]和姿態(tài)轉(zhuǎn)換檢測(cè)[7]。但豬佩戴的傳感器易脫落、發(fā)生故障,且識(shí)別精度不高[7],而非接觸式的計(jì)算機(jī)視覺技術(shù)開始被用于識(shí)別母豬姿態(tài)和姿態(tài)轉(zhuǎn)換。如利用背景減法和支持向量機(jī)(Support Vector Machine,SVM)自動(dòng)識(shí)別豬只姿態(tài)[8]、在深度圖像中獲得母豬身體各區(qū)域的深度來確定母豬姿態(tài)[9]、利用Faster R-CNN識(shí)別姿態(tài)[10],以及先利用Faster R-CNN識(shí)別姿態(tài)再利用隱馬爾科夫模型(Hidden Markov Model,HMM)識(shí)別母豬姿態(tài)轉(zhuǎn)換[11]。但由于母豬在姿態(tài)轉(zhuǎn)換過程中,身體高度變化幅度不盡相同,HMM未充分利用母豬形狀特征,導(dǎo)致高危動(dòng)作漏檢和誤檢,且姿態(tài)轉(zhuǎn)換時(shí)間定位不夠精確[11]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提供了一種端到端的學(xué)習(xí)模型。近幾年,國(guó)內(nèi)外學(xué)者開始研究長(zhǎng)段視頻的動(dòng)作時(shí)空定位和分類,主流的方法包括:1)基于雙流網(wǎng)絡(luò)結(jié)構(gòu),如I3D+TCN[12]、Mask R-CNN+TCNN[13]和MOC-D[14]。但該類方法分別提取光流特征和RGB圖像特征,限制了時(shí)間特征和空間特征的交互,且需要提取光流特征,速度慢,計(jì)算量大,難以應(yīng)用到實(shí)際場(chǎng)景中[15]。2)基于3D卷積網(wǎng)絡(luò)結(jié)構(gòu),如Segment-Tube[16]、非對(duì)稱3D-CNN[17]和3D CONVNet[18],這些研究表明3D卷積可在提取空間信息的基礎(chǔ)上提取時(shí)序信息[16,19]。然而,3D卷積雖能有效提取目標(biāo)行為的時(shí)空特征,但相比于2D卷積,其計(jì)算成本高,速度慢,目標(biāo)的空間定位不夠準(zhǔn)確[15]。可見,上述兩類方法動(dòng)作時(shí)空定位精度尚待提高。此外,基于CNN模型識(shí)別動(dòng)作需要標(biāo)注大量訓(xùn)練數(shù)據(jù)集。
針對(duì)上述問題,本文受單階段時(shí)空動(dòng)作檢測(cè)模型YOWO[15]啟發(fā),融合2D-3D卷積特征,提出了2D-3D卷積網(wǎng)絡(luò)(2D+3D-CNet,2D+3D Convolutional Network)的母豬姿態(tài)轉(zhuǎn)換識(shí)別方法。用改進(jìn)的3D和2D卷積網(wǎng)絡(luò)提取并融合母豬姿態(tài)轉(zhuǎn)換的時(shí)空特征和空間特征,以期克服3D網(wǎng)絡(luò)計(jì)算成本高、目標(biāo)空間定位不夠準(zhǔn)確的問題;在YOWO基礎(chǔ)上增加姿態(tài)分類分支用于識(shí)別姿態(tài)類別,以期通過結(jié)合兩個(gè)分支的輸出結(jié)果,識(shí)別具體姿態(tài)轉(zhuǎn)換類別,來降低人工標(biāo)注工作量。通過測(cè)試集驗(yàn)證本文方法實(shí)現(xiàn)全天候的母豬姿態(tài)轉(zhuǎn)換高精度識(shí)別的可行性。
本次試驗(yàn)數(shù)據(jù)均采自廣東省佛山市某生豬養(yǎng)殖場(chǎng),共采集5個(gè)批次,采集時(shí)間分別為2016年5月30日、2016年11月29日、2017年4月19日、2017年4月25日和2018年9月5日。按照數(shù)據(jù)先后采集時(shí)間,將5個(gè)批次的數(shù)據(jù)依次標(biāo)記為D1、D2、D3、D4和D5,具體數(shù)據(jù)細(xì)節(jié)如表1所示。其中,D3為連續(xù)29 h視頻片段,D4涵蓋較多欄母豬數(shù)據(jù)。養(yǎng)殖場(chǎng)有若干間豬舍,每間豬舍約有40間豬欄,每間豬欄大小約為長(zhǎng)3.8 m×寬2.0 m。每間豬欄中有1只母豬和8~12只仔豬,母豬品種為梅花豬,其體表帶有黑白花紋,仔豬大部分為純黑色,個(gè)別帶有花色。利用架設(shè)在豬欄正上方的Kinect 2.0攝像機(jī),俯視向下以5幀/s的速度拍攝RGB-D視頻圖像,圖像分辨率為512×424像素。本次試驗(yàn)數(shù)據(jù)為深度視頻圖像,為使拍攝視野盡可能覆蓋整個(gè)豬欄,將攝像機(jī)架設(shè)在豬欄中間區(qū)域,高度為2.1~2.3 m。

表1 試驗(yàn)數(shù)據(jù)集 Table 1 Datasets of experiment
將母豬身體姿態(tài)分為4類,分別為站立、坐立、趴臥和側(cè)臥[20],母豬姿態(tài)轉(zhuǎn)換分為8類[1,21]。不同的姿態(tài)轉(zhuǎn)換對(duì)仔豬威脅程度不盡相同,其中,母豬從站立轉(zhuǎn)換至臥姿,與側(cè)臥和趴臥之間的轉(zhuǎn)換對(duì)仔豬的威脅程度最大[21]。參考文獻(xiàn)[1,20-21],姿態(tài)及姿態(tài)轉(zhuǎn)換具體定義如表2。

表2 哺乳母豬姿態(tài)及姿態(tài)轉(zhuǎn)換定義 Table 2 Definition of postures and posture changes of lactating sow
從D1、D4和D5中挑選姿態(tài)轉(zhuǎn)換片段139個(gè)(5 493幀),非轉(zhuǎn)換片段170個(gè)(4 940幀)作為動(dòng)作識(shí)別訓(xùn)練集。其中,姿態(tài)轉(zhuǎn)換ST、SI-L、L-ST、L-SI、ST-SI、SI-ST、VL和LL-VL片段的個(gè)數(shù)分別為30、18、16、25、8、16、13和13,并且每個(gè)姿態(tài)轉(zhuǎn)換片段前后包括母豬處于未轉(zhuǎn)換狀態(tài)10~100幀。將動(dòng)作識(shí)別訓(xùn)練集進(jìn)行水平、垂直鏡像數(shù)據(jù)擴(kuò)增,最終姿態(tài)轉(zhuǎn)換片段417個(gè)(16 479幀),非轉(zhuǎn)換片段510段(14 820幀);從動(dòng)作識(shí)別訓(xùn)練集的非轉(zhuǎn)換片段中隨機(jī)挑選側(cè)臥2 035幀、站立2 009幀、坐立1 977幀和趴臥2 021幀作為姿態(tài)分類訓(xùn)練集。
從D2和D3中挑選姿態(tài)轉(zhuǎn)換片段156個(gè)(6 624幀),非轉(zhuǎn)換片段160個(gè)(5 740幀)作為動(dòng)作識(shí)別測(cè)試集,其中,姿態(tài)轉(zhuǎn)換片段前后包括母豬處于未轉(zhuǎn)換狀態(tài)10~100幀;從動(dòng)作識(shí)別測(cè)試集的非轉(zhuǎn)換片段中隨機(jī)挑選側(cè)臥1 004幀、站立1 021幀、坐立1 005幀和趴臥1 032幀作為姿態(tài)分類測(cè)試集。從D2和D3中剔除鏡頭抖動(dòng)的視頻段,其余片段作為整體方法測(cè)試集。
對(duì)動(dòng)作識(shí)別數(shù)據(jù)集進(jìn)行人工標(biāo)注,標(biāo)注每一幀母豬空間坐標(biāo)框信息、母豬是否處于姿態(tài)轉(zhuǎn)換,以及非轉(zhuǎn)換時(shí)的姿態(tài)類別。由于整體方法測(cè)試集幀級(jí)標(biāo)注數(shù)據(jù)量過大,為節(jié)省人工,只標(biāo)注視頻片段中轉(zhuǎn)換開始和結(jié)束時(shí)間,以及前后母豬所處姿態(tài)。
本文提出了融合2D-3D卷積特征的卷積網(wǎng)絡(luò)——2D+3D-CNet,將網(wǎng)絡(luò)輸出解耦成兩個(gè)分支:動(dòng)作識(shí)別分支和姿態(tài)分類分支。針對(duì)2D網(wǎng)絡(luò)難以提取時(shí)序信息,3D網(wǎng)絡(luò)計(jì)算成本高、目標(biāo)空間定位不夠準(zhǔn)確等問題,引入注意力機(jī)制SE模塊和3D空洞卷積來提升3D卷積網(wǎng)絡(luò)姿態(tài)轉(zhuǎn)換的時(shí)空特征提取能力,用2D卷積提取母豬的空間特征,并將時(shí)空特征和空間特征進(jìn)行特征融合,然后經(jīng)過動(dòng)作識(shí)別分支輸出母豬坐標(biāo)框和轉(zhuǎn)換概率;為克服基于CNN的動(dòng)作識(shí)別模型訓(xùn)練需要人工標(biāo)注大量數(shù)據(jù)集的困難,增加姿態(tài)分類分支,該分支用于識(shí)別轉(zhuǎn)換前后的姿態(tài)類別。通過結(jié)合兩個(gè)分支的輸出結(jié)果,識(shí)別具體姿態(tài)轉(zhuǎn)換類別。動(dòng)作識(shí)別分支僅關(guān)注轉(zhuǎn)換的時(shí)空定位,而無需關(guān)注具體的轉(zhuǎn)換類別,即將原本的8類姿態(tài)轉(zhuǎn)換識(shí)別問題轉(zhuǎn)化為識(shí)別轉(zhuǎn)換與非轉(zhuǎn)換2類問題,無需對(duì)每個(gè)具體姿態(tài)轉(zhuǎn)換類別進(jìn)行數(shù)據(jù)標(biāo)注。假設(shè)一類姿態(tài)轉(zhuǎn)換需要40段視頻,8類姿態(tài)轉(zhuǎn)換則至少需要320段視頻,人工標(biāo)注時(shí),需要標(biāo)注每一幀母豬的坐標(biāo)框、姿態(tài)以及每次姿態(tài)轉(zhuǎn)換的起始時(shí)間和類別,工作量很大。因此,2D+3D-CNet網(wǎng)絡(luò)避免了直接識(shí)別具體8類姿態(tài)轉(zhuǎn)換需要大量數(shù)據(jù)集的困擾。
2D+3D-CNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要包括時(shí)空特征提取模塊、空間特征提取模塊、特征融合模塊,以及動(dòng)作識(shí)別分支和姿態(tài)分類分支。時(shí)空特征提取模塊作用是同時(shí)提取視頻圖像空間特征和高度、位置等變化運(yùn)動(dòng)特征,空間特征提取模塊作用是提取當(dāng)前圖像外觀、位置等空間特征,經(jīng)過特征融合模塊進(jìn)行特征融合;動(dòng)作識(shí)別分支輸出母豬坐標(biāo)框信息和轉(zhuǎn)換概率。將母豬坐標(biāo)框信息映射回空間特征基礎(chǔ)網(wǎng)絡(luò)特征圖(圖1虛線箭頭所示),截取母豬區(qū)域特征圖,輸入姿態(tài)分類分支,獲得母豬4類姿態(tài)概率。
1)時(shí)空特征提取模塊。本文用3D ResNeXt-50提取連續(xù)16幀視頻圖像母豬運(yùn)動(dòng)時(shí)空特征。為擴(kuò)大時(shí)域感受野,參考文獻(xiàn)[22],引入3D空洞卷積,將3D ResNeXt-50第一層殘差卷積替換成3D空洞卷積進(jìn)行視頻圖像時(shí)空特征提取。同時(shí),為了提升模型對(duì)通道特征的敏感性,將二維SE[23]模塊擴(kuò)展至三維,插入3D ResNeXt-50殘差單元中。圖2為SE模塊插入到ResNeXt的殘差結(jié)構(gòu)。SE模塊利用全局平均池化對(duì)所有特征進(jìn)行壓縮,輸入全連接層進(jìn)行降維,經(jīng)過ReLU激活函數(shù),而后輸入全連接層恢復(fù)原始維度,最后經(jīng)過Sigmoid激活函數(shù)。經(jīng)過SE模塊網(wǎng)絡(luò)將學(xué)到不同通道特征的權(quán)重系數(shù),使網(wǎng)絡(luò)更加關(guān)注信息量大的通道特征,抑制不重要的通道特征。
2)空間特征提取模塊。為獲得母豬空間精確位置信息,用性能較好的Darknet-53[24]作為空間特征提取模塊基礎(chǔ)網(wǎng)絡(luò),進(jìn)行當(dāng)前圖像的母豬空間特征提取。
3)特征融合模塊與動(dòng)作識(shí)別分支。將時(shí)空特征與空間特征進(jìn)行通道拼接,經(jīng)過兩次卷積后輸入特征融合模塊進(jìn)行特征融合,該模塊基于Gram矩陣[25]映射通道間的依賴關(guān)系,根據(jù)不同通道特征關(guān)系賦予不同權(quán)值,有效融合來自不同源的特征,提高識(shí)別結(jié)果。最后經(jīng)過動(dòng)作識(shí)別分支輸出母豬坐標(biāo)信息和轉(zhuǎn)換概率。
4)姿態(tài)分類分支。將動(dòng)作識(shí)別分支輸出的母豬坐標(biāo)框信息映射回Darknet-53基礎(chǔ)網(wǎng)絡(luò)特征圖,截取母豬區(qū)域特征圖。試驗(yàn)表明,Darknet-53第13個(gè)卷積層的特征圖截取后的母豬區(qū)域特征圖分類精度最高。而后將母豬區(qū)域特征圖統(tǒng)一調(diào)整大小至128×14×14后,輸入姿態(tài)分類分支,進(jìn)行母豬4類姿態(tài)分類。該分支包括5個(gè)卷積層和1個(gè)平均池化層。
本文試驗(yàn)平臺(tái)為Ubuntu 16.04,在此基礎(chǔ)上搭建PyTorch深度學(xué)習(xí)框架,使用NVIDIA RTX 2080 Ti GPU訓(xùn)練2D+3D-CNet模型。對(duì)比試驗(yàn)在相同試驗(yàn)平臺(tái)下實(shí)現(xiàn)。將動(dòng)作識(shí)別訓(xùn)練集進(jìn)行中值濾波和直方圖均衡化處理后,利用隨機(jī)縮放和隨機(jī)空間裁剪數(shù)據(jù)增強(qiáng)技術(shù),以增加模型訓(xùn)練的精度和穩(wěn)定性。并利用多尺度訓(xùn)練、動(dòng)量和權(quán)重衰減策略優(yōu)化損失函數(shù),利用隨機(jī)梯度下降法和反向傳播算法進(jìn)行模型參數(shù)微調(diào)。Batch size設(shè)置為4,初始學(xué)習(xí)率設(shè)置為0.000 1,經(jīng)過3×104、5×104、7×104和9×104次迭代后,學(xué)習(xí)率降低0.5倍,總共訓(xùn)練迭代470 000次。
為了盡可能對(duì)母豬姿態(tài)轉(zhuǎn)換進(jìn)行時(shí)間上的精確定位,采用滑動(dòng)窗口長(zhǎng)度為16幀、步長(zhǎng)為1幀的形式將視頻幀輸入網(wǎng)絡(luò),獲得幀級(jí)動(dòng)作識(shí)別結(jié)果。為進(jìn)一步優(yōu)化動(dòng)作識(shí)別分支輸出結(jié)果,考慮前后兩幀檢測(cè)框的面積交并比,經(jīng)過維特比算法[26]選擇最優(yōu)的框作為輸出,形成母豬空間定位管道,并輸出轉(zhuǎn)換概率序列。
姿態(tài)分類分支輸出當(dāng)前圖像母豬4類姿態(tài)概率,將每幀結(jié)果拼接起來再利用中值濾波進(jìn)行過濾,最后得到4類姿態(tài)概率序列。
如何精確定位動(dòng)作發(fā)生的開始和結(jié)束時(shí)間,一直是動(dòng)作識(shí)別任務(wù)需要解決的問題,動(dòng)作發(fā)生邊界的不確定往往也是造成動(dòng)作識(shí)別精度偏低的一個(gè)重要原因[27]。直接利用動(dòng)作識(shí)別分支輸出轉(zhuǎn)換概率進(jìn)行動(dòng)作時(shí)間定位,會(huì)出現(xiàn)定位不精確的問題。母豬處于姿態(tài)轉(zhuǎn)換過程中,其姿態(tài)為非4類標(biāo)準(zhǔn)姿態(tài),姿態(tài)分類分支輸出姿態(tài)分類概率呈現(xiàn)最大概率姿態(tài)類別變化、前后幀對(duì)應(yīng)姿態(tài)類別概率變化的情況(如圖3)。基于該特點(diǎn),借鑒文獻(xiàn)[28]的思路,利用姿態(tài)轉(zhuǎn)換過程中母豬姿態(tài)變化對(duì)姿態(tài)轉(zhuǎn)換時(shí)間定位進(jìn)行優(yōu)化。為表示姿態(tài)轉(zhuǎn)換發(fā)生的可能性,設(shè)計(jì)動(dòng)作分?jǐn)?shù)Ascore為
式中PPC表示轉(zhuǎn)換概率,α表示權(quán)重系數(shù),設(shè)置為0.5,w為滑動(dòng)窗口長(zhǎng)度,設(shè)為4幀,步長(zhǎng)為1幀,iy表示第i幀類別j的姿態(tài)概率。Ascore同時(shí)考慮母豬時(shí)空運(yùn)動(dòng)信息和幀間姿態(tài)變化信息,結(jié)合二者對(duì)姿態(tài)轉(zhuǎn)換進(jìn)行時(shí)間定位優(yōu)化。
母豬姿態(tài)轉(zhuǎn)換時(shí)間定位如圖3所示。橫坐標(biāo)表示時(shí)間,左縱坐標(biāo)表示概率,右縱坐標(biāo)表示動(dòng)作分?jǐn)?shù)。4條虛線分別表示4類姿態(tài)概率。結(jié)合轉(zhuǎn)換概率和4類姿態(tài)概率,計(jì)算動(dòng)作分?jǐn)?shù),設(shè)置閾值T=0.2,對(duì)Ascore進(jìn)行閾值切分得到動(dòng)作起始時(shí)間t'start和t'end(如圖3),最后確定姿態(tài)轉(zhuǎn)換動(dòng)作發(fā)生時(shí)間。
在獲得母豬姿態(tài)轉(zhuǎn)換時(shí)間t'start與t'end后,結(jié)合t'start前1 s母豬所處姿態(tài)與t'end后1 s母豬所處姿態(tài),便可確定母豬具體姿態(tài)轉(zhuǎn)換類別。
本文使用準(zhǔn)確率(Accuracy)和混淆矩陣[29]分別評(píng)價(jià)2D+3D-CNet模型動(dòng)作識(shí)別分支和姿態(tài)分類分支。當(dāng)識(shí)別動(dòng)作片段與人工標(biāo)記片段時(shí)間交并比大于等于0.5(IoUt≥0.5),且動(dòng)作類別一致時(shí)認(rèn)為識(shí)別正確;當(dāng)算法檢測(cè)框與人工標(biāo)記框面積交并比大于等于0.7(IoU≥0.7),且姿態(tài)類別一致時(shí)認(rèn)為姿態(tài)分類正確。準(zhǔn)確率定義為
其中,T PPC表示正確識(shí)別姿態(tài)轉(zhuǎn)換片段數(shù),表示正確識(shí)別非姿態(tài)轉(zhuǎn)換動(dòng)作片段數(shù),表示總的片段數(shù)。
使用精確率(Precision)和召回率(Recall)[30]評(píng)價(jià)整體方法姿態(tài)轉(zhuǎn)換識(shí)別結(jié)果。當(dāng)識(shí)別動(dòng)作片段與人工標(biāo)記片段時(shí)間交并比大于等于0.5(IoUt≥0.5),且姿態(tài)轉(zhuǎn)換類別一致時(shí)認(rèn)為識(shí)別正確。
表3為2D+3D-CNet動(dòng)作識(shí)別分支姿態(tài)轉(zhuǎn)換識(shí)別性能。IoUt≥0.5時(shí),優(yōu)化后的動(dòng)作時(shí)間定位姿態(tài)轉(zhuǎn)換識(shí)別準(zhǔn)確率為96.52%,比未優(yōu)化的識(shí)別結(jié)果高出3.17個(gè)百分點(diǎn)。表4為2D+3D-CNet模型姿態(tài)分類混淆矩陣,姿態(tài)分類精度為98.78%,召回率為97.63%。

表3 2D+3D-CNet動(dòng)作識(shí)別分支識(shí)別性能 Table 3 Recognition performance of action recognition branch of 2D+3D-CNet

表4 姿態(tài)分類混淆矩陣 Table 4 Confusion matrix of postures classification
表5為整體算法識(shí)別母豬姿態(tài)轉(zhuǎn)換結(jié)果。整體方法測(cè)試集中母豬共發(fā)生姿態(tài)轉(zhuǎn)換156次,整體算法識(shí)別出姿態(tài)轉(zhuǎn)換片段146個(gè),正確識(shí)別姿態(tài)轉(zhuǎn)換片段143個(gè),精度為97.95%,召回率為91.67%。

表5 姿態(tài)轉(zhuǎn)換識(shí)別結(jié)果 Table 5 Recognition result of posture changes
其中,SI-ST識(shí)別召回率較低,原因是:母豬在從坐立轉(zhuǎn)換至站立時(shí),由于動(dòng)作簡(jiǎn)短,與輸入視頻圖像相比,可提供的信息較少,3D卷積網(wǎng)絡(luò)提取的視頻圖像特征被無關(guān)信息所主導(dǎo)[31],造成漏檢;另外,動(dòng)作持續(xù)時(shí)間較短被中值濾波濾掉造成漏檢。VL識(shí)別結(jié)果較低是由于母豬在轉(zhuǎn)換過程中,行動(dòng)較為緩慢,時(shí)序動(dòng)作信息不明顯,造成漏檢。母豬姿態(tài)分類錯(cuò)誤也將造成誤檢。
本文將2D+3D-CNet與YOWO、FRCNN-HMM和MOC-D做了姿態(tài)轉(zhuǎn)換識(shí)別對(duì)比試驗(yàn)。其中,與YOWO的對(duì)比,是為了驗(yàn)證本文方法改進(jìn)的有效性;FRCNN-HMM是較早的基于計(jì)算機(jī)視覺的母豬姿態(tài)轉(zhuǎn)換算法[11];MOC-D是2020年在公開數(shù)據(jù)集上時(shí)空動(dòng)作檢測(cè)性能較為優(yōu)越模型[14]。為了公平地比較,試驗(yàn)中給YOWO和MOC-D增加了與2D+3D-CNet結(jié)構(gòu)相同的姿態(tài)分類分支,即原來的YOWO和MOC-D僅用于識(shí)別姿態(tài)轉(zhuǎn)換和非姿態(tài)轉(zhuǎn)換,然后結(jié)合姿態(tài)分類分支的輸出實(shí)現(xiàn)姿態(tài)轉(zhuǎn)換具體類別的識(shí)別。表6為不同方法的結(jié)果對(duì)比。

表6 不同方法結(jié)果比較 Table 6 Comparison of results of different methods
2D+3D-CNet基礎(chǔ)網(wǎng)絡(luò)中加入了注意力機(jī)制SE模塊和3D空洞卷積,分別提高網(wǎng)絡(luò)提取特征能力和擴(kuò)大網(wǎng)絡(luò)時(shí)域感受野,精度和召回率比YOWO分別高出5.06和3.65個(gè)百分點(diǎn),但模型大小和速度差別不大。與FRCNN-HMM方法相比,雖然2D+3D-CNet模型較大,但處理步驟少,且精度、召回率和測(cè)試速度均有一定程度的提升。FRCNN-HMM中模型大小主要來自Faster R-CNN,但母豬姿態(tài)檢測(cè)耗時(shí)較多,降低了速度。MOC-D精度和召回率比2D+3D-CNet分別低了5.53和5.90個(gè)百分點(diǎn),雖然MOC-D基于無錨點(diǎn)的2D卷積動(dòng)作識(shí)別方法,模型小,速度快,但利用2D卷積操作來提取姿態(tài)轉(zhuǎn)換的時(shí)空特征,難以捕捉母豬運(yùn)動(dòng)過程中身體高度、動(dòng)作幅度等變化的運(yùn)動(dòng)特征,其識(shí)別姿態(tài)轉(zhuǎn)換存在一定的局限性。
為比較動(dòng)作時(shí)間定位精度,不同IoUt閾值下,本文比較了2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D姿態(tài)轉(zhuǎn)換識(shí)別的精度和召回率,如圖4所示。當(dāng) IoUt閾值增大時(shí),2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D精度曲線與召回率曲線均會(huì)下降,但本文2D+3D-CNet在不同IoUt閾值下精度和召回率均高于其他的3個(gè)方法。
為進(jìn)一步說明動(dòng)作時(shí)間定位結(jié)果,本文可視化了2D+3D-CNet、YOWO、FRCNN-HMM和MOC-D在兩段時(shí)長(zhǎng)為15 min視頻段上的測(cè)試結(jié)果,如圖5所示。從圖中可以看出,YOWO一般滯后于姿態(tài)轉(zhuǎn)換發(fā)生時(shí)間;由于對(duì)姿態(tài)轉(zhuǎn)換時(shí)空特征提取有限,F(xiàn)RCNN-HMM和MOC-D出現(xiàn)動(dòng)作時(shí)間定位不準(zhǔn)確或者姿態(tài)轉(zhuǎn)換漏檢的情況。另外,YOWO和MOC-D的母豬空間定位不準(zhǔn)確會(huì)導(dǎo)致姿態(tài)分類錯(cuò)誤。
2D+3D-CNet動(dòng)作時(shí)間定位精度高于YOWO、FRCNN-HMM和MOC-D的原因在于,本文動(dòng)作時(shí)間定位不僅考慮母豬時(shí)空運(yùn)動(dòng)信息,也考慮母豬姿態(tài)變化信息。當(dāng)前圖像測(cè)試結(jié)果考慮母豬時(shí)空運(yùn)動(dòng)信息;結(jié)合滑動(dòng)窗口內(nèi)母豬4類姿態(tài)概率變化情況,計(jì)算動(dòng)作分?jǐn)?shù),用于姿態(tài)轉(zhuǎn)換時(shí)間定位。較YOWO、FRCNN-HMM和MOC-D,對(duì)姿態(tài)轉(zhuǎn)換的開始和結(jié)束更加敏感,較為全面覆蓋姿態(tài)轉(zhuǎn)換發(fā)生時(shí)間區(qū)域,時(shí)間定位更加精確。
圖6為2D+3D-CNet在連續(xù)29 h視頻上的自動(dòng)識(shí)別結(jié)果圖,共檢測(cè)出86次姿態(tài)轉(zhuǎn)換。從圖6中可以看出,母豬在白天姿態(tài)轉(zhuǎn)換頻率高于夜間姿態(tài)轉(zhuǎn)換頻率,并且不同姿態(tài)轉(zhuǎn)換發(fā)生次數(shù)相差較大。
本文提出了一種融合2D-3D卷積特征的哺乳母豬姿態(tài)轉(zhuǎn)換識(shí)別算法,結(jié)論如下:
1)引入注意力機(jī)制SE模塊和3D空洞卷積,利用2D卷積和3D卷積分別提取母豬定位空間特征和姿態(tài)轉(zhuǎn)換時(shí)空特征,并進(jìn)行特征融合,提高母豬空間定位和姿態(tài)轉(zhuǎn)換識(shí)別精度。增加姿態(tài)分類分支,通過先檢測(cè)有無發(fā)生姿態(tài)轉(zhuǎn)換,再結(jié)合姿態(tài)轉(zhuǎn)換前后姿態(tài)類別來識(shí)別姿態(tài)轉(zhuǎn)換具體類別,緩解了人工標(biāo)注大量數(shù)據(jù)集的問題。
2)2D+3D-CNet模型姿態(tài)轉(zhuǎn)換識(shí)別準(zhǔn)確率為96.52%,姿態(tài)分類精度為98.78%,召回率為97.63%。整體方法姿態(tài)轉(zhuǎn)換識(shí)別精度97.95%,召回率為91.67%。該方法可適用于全天候母豬姿態(tài)轉(zhuǎn)換識(shí)別。
3)與YOWO、FRCNN-HMM和MOC-D方法相比,2D+3D-CNet能夠較好地捕捉母豬姿態(tài)轉(zhuǎn)換的運(yùn)動(dòng)特征,其識(shí)別精度和召回率較高,但速度稍慢且模型較大,今后的模型設(shè)計(jì)中,可考慮輕量級(jí)網(wǎng)絡(luò)或更高效的卷積網(wǎng)絡(luò)進(jìn)行研究。
農(nóng)業(yè)工程學(xué)報(bào)2021年9期