










關鍵詞:畜禽;深度學習;行為識別
近年來,我國畜禽業持續發展,為人民生活提供豐富的肉蛋奶制品。據國家統計局數據,2022年,全國生豬、牛只、羊只和蛋雞存欄分別約為4.52億頭、1.021萬頭、3.26億頭和11.84億只[1],我國已成為世界第一畜產大國。畜禽典型行為主要分為采食飲水、運動(躺臥、站立、行走等)和社交(性、攻擊、哺乳等)等[2]。畜禽行為直接反映其健康狀況、福利和生產水平,從而影響畜禽產量與經濟效益[3]。因此,通過識別畜禽行為可提前發現威脅畜禽健康的因素,提高精準養殖管理水平,為動物福利提供有力保障。
隨著現代畜牧業規?;厔菁铀?,通過傳統人工觀察方式識別和記錄畜禽行為,難以滿足大規模連續監測需求。當前,農業傳感器種類多樣、技術逐步成熟,通過圖像傳感器處理采集的圖像或視頻獲得相應場景的信息數據,在深度學習系統中訓練神經網絡,識別畜禽行為已成為當前研究熱點。目前,基于機器視覺、人工智能的畜禽行為識別方法[3-8]已經進行了廣泛研究。由于難以對提取的特征數據進行透徹解析,導致構建的畜禽行為識別模型準確度不高,制約了實際應用,缺乏對上述制約因素的系統性研究與分析。
本文系統介紹了深度學習發展歷程,分析了當前幾種重要的神經網絡模型,闡述了深度學習技術的特點及其在畜禽行為識別領域的研究進展,歸納了深度學習技術的研究趨勢,旨在推動深度學習技術在畜禽精準養殖產業全面感知、透徹解析、精準建模及決策服務能力,為畜禽產業數字化、信息化、智能化水平提供支撐。
1 深度學習技術的發展歷程
深度學習技術的發展可以劃分為3個階段[9-11]:第一階段是從1940年到1960年,人們通過模擬人腦工作模式建立了線性神經網絡,盡管其在模擬非線性關系方面存在一定的限制;第二階段是1980年到1990年,強調多個簡單計算單元互聯進行復雜計算;第三階段是2006年至今,隨著軟硬件性能的提高,深度學習逐漸應用于各個領域。
深度學習模型的優勢在于能自動學習和提取數據特征[1213],從而高效地處理和分析畜禽圖像和數據。目前,畜禽領域深度學習模型廣泛應用于疾病診斷、行為監測、品種識別和性別及年齡鑒定等方面[14-16]。畜禽數據集包含圖像數據和視頻數據2種,用來獲取畜禽圖像中的視覺特征的神經網絡包括卷積神經網絡(convolutionalneural networks,CNN)[1718]、生成對抗網絡(generative adversarial networks,GAN)[19]、基于區域的卷積神經網絡(reginal-convolutional neuralnetworks,R-CNN)[20]和YOLO系列[2122]等。畜禽視頻數據中通常包含了大量的時間序列,故常用循環神經網絡(recurrent neural network,RNN)[23]、長短時記憶網絡(long short-term memory,LSTM)[24]及其衍生算法[25]提取數據中的時序信息,也可將二者相結合獲取時空序列信息,以便準確、高效地應用于畜禽領域中。經過多個階段的發展,深度學習技術的發展將為畜禽養殖和管理提供更好的支持。
2 深度學習在畜禽典型行為識別中的研究進展
畜禽典型行為識別主要依靠傳感器獲取畜禽圖像、聲音和視頻等多模態數據,運用深度學習進行數據建模,提取動作特征進行分析識別?;谏疃葘W習技術的畜禽行為識別流程包括數據采集、圖像預處理、目標檢測、特征提取、行為識別以及結果可視化(圖1)等。數據采集通過收集反映畜禽行為的2D、3D圖像數據;圖像預處理是對采集圖像進行如增強、水平垂直旋轉等操作,以便更好地提取特征;目標檢測使用一階段或二階段目標檢測算法識別圖像中的畜禽;提取特征則從畜禽圖像中提取如動作模式、姿態、顏色等關鍵特征;識別行為利用已訓練的模型,將提取的特征與預先定義的行為模式進行比對與匹配,從而識別出畜禽的具體行為;結果可視化將識別結果以圖、表等形式直觀展示,幫助農場管理者了解畜禽的行為狀況。
2.1 牛典型行為識別
深度學習技術已廣泛用于牛行為識別研究,基于深度學習的牛典型行為識別模型及其特性見表1,可分為單行為識別和多行為識別,其中單行為識別包括采食飲水行為、社交行為及運動行為。
在牛采食飲水行為識別方面,Achour等[26]以17 頭荷斯坦奶牛頭部圖像作為感興趣區域(region of interest , ROI),基于CNN的不同分類器來識別其采食行為,準確率為92%,但無法統計牛只采食量。針對此問題,Bezen 等[27]基于Fast RCNN模型和低成本RGB-D相機設計了一種用于識別奶牛采食行為、測量奶牛個體采食量的系統,準確率達93.65%。不同于以往在控制照明的封閉式畜棚中進行的實驗,該研究首次在開放式牛棚條件下測量奶牛飼料攝入量,平均絕對誤差(mean absolute error, MAE)和均方誤差(meansquare error, MSE)分別為0.127 kg 和0.034 kg2。該方法不受場地環境限制,但在更換飼料品種時需對系統重新訓練,且無法測量損失的飼料量。由于牛舍配備固定的采食飲水裝置,因此往往通過監測牛只是否位于采食飲水區域來識別采食飲水行為,基于深度學習的識別方法減少了穿戴式設備對畜禽的健康及日常活動的影響。
在運動行為方面,Li 等[28]基于骨架信息和HRNET(high-resolution net),在原本3D卷積之后串聯2D卷積再添加并行2D卷積,以熱圖形式添加對應幀骨架關鍵點信息識別奶牛站立、躺臥及行走三種基本運動行為,準確率達91.8%。由此可見,基于畜禽骨架識別牛只運動行為的方法是可行的,在實際生產過程中需結合目標檢測算法進行應用。
在社交行為方面,王少華等[29]分別采用改進的高斯混合模型(gaussian mixture model, GMM)和引入DenseBlock結構的改進YOLOv3模型[30]識別牛只交配行為,準確率超過99.15%,在YOLOv3網絡結構中引入DenseBlock結構可以有效解決數據集中奶牛多尺寸導致模型準確率較低的問題,提高模型泛化能力。Wang等[31]在原有YOLOv5網絡模型中加入改進的C3GC3注意力模塊,提高模型特征提取能力;注意力模塊采用空洞空間卷積池化金字塔(atrous spatial pyramid pooling, ASSP)進行多尺度優化,提高奶牛檢測準確性,平均檢測精度為94.30%。采用深度學習識別奶牛交配行為的方法提高了密集場景中奶牛行為檢測的準確性和速度,但上述方法模型較大,耗費大量計算資源,難以滿足實時性及模型部署等要求。因此,王政等[32]在YOLOv5n模型中融入通道剪枝算法,構建輕量化、高精度、魯棒性強的奶牛發情行為識別模型,模型mAP為97.9%,與YOLOv5n模型相比,剪枝后模型的檢測速度提高33.71%。由此可見,基于深度學習技術的奶牛發情行為識別方法提高了特征提取效率和行為檢測速度,模型泛化性能高,滿足實時檢測的需求。但檢測過程中存在漏檢和誤檢情況,未來可考慮采用紅外相機、利用圖像增強算法預處理和融合時空信息等特提高復雜環境中識別的準確率,滿足實際養殖場需求。
在多行為識別方面,Fuentes 等[33] 基于YOLOv3在視頻幀中檢測并識別奶牛行走、站立、躺臥,采食、睡覺、梳理,攻擊和交配行為,準確率為78.8%;通過幀級檢測器提取感興趣區域,利用3D卷積獲取時間上下文特征,從光流中提取運動特征并與感興趣區域關聯,根據RGB與光流融合特征獲得類別置信度得分與邊界框,具體識別流程如圖2所示;該實驗數據集由單只奶牛運動圖像或視頻組成,對于多目標牛只行為檢測具有一定局限性。為識別養殖場中群體奶牛行為,Yin 等[34] 將EfficientNet 模型與特征金字塔網絡(bidirectional feature pyramid, BiFPN)相結合開發一種新的CNN 架構——EfficientNet-LSTM 網絡,識別奶牛采食、飲水和躺臥、站立,行走等行為,準確率達97.87%。但EfficientNet-BIFPN 模型側重于單頭奶牛的運動行為的識別,本研究仍不能識別多頭奶牛運動行為。在現有研究中,牛只多行為識別模型的識別種類多、準確率高,但模型層數較多、計算速度慢,且暫未開發出識別多頭奶牛的多行為模型,后續應開發具備高通用性、適用于實際養殖場的模型識別多種行為,同時也要注重平衡模型大小,提高模型泛化能力,保證模型實時性。
深度學習技術廣泛應用于牛行為識別,其中,單行為主要包括運動、采食、社交等行為,需關注模型大小、計算速度和實時性,未來可采用紅外相機、圖像增強算法和融合時空信息體高識別準確率。
2.2 豬典型行為識別
基于深度學習識別豬典型行為的研究起步較早,行為識別種類較為全面,識別準確率較高,基于深度學習的豬典型行為識別相關研究見表2,可分為單行為識別和多行為識別,單行為包括采食、飲水、社交及運動行為。
在采食飲水行為方面,Yang 等[35]基于FasterR-CNN 和ZFnet網絡結構識別豬只采食行為,準確率為99.60%,但該方法過度依賴于實驗中背部標記點來識別具體豬只采食行為。針對該問題,Chen等[3637]進一步提取了豬只采食過程中的時空特征,基于CNN-LSTM網絡結構來識別群養豬的采食與飲水行為,采食行為識別準確率為98.40%,飲水行為識別準確率為94.10%。楊秋妹等[38]基于GoogLeNet深度學習模型在背景較為簡單的豬圈中精準識別豬飲水行為,準確率為92.11%。上述研究表明,現有大部分研究基于CNN和LSTM模型提取時空特征,提升模型識別準確率與實用性,但仍存在相似行為識別錯誤的情況(如飲水和玩耍行為[37]),因此下一步應研究如何更準確地識別生豬采食和飲水行為,減少錯檢率,同時在保證模型精度的情況下,進一步減少參數量和復雜度,提高模型檢測速度。
在運動行為方面,Faster R-CNN 模型具有檢測多尺度物體高精度的優勢,因此Faster R-CNN及其改進模型被用于識別豬只站立、坐立和側臥和躺臥等運動行為,準確率范圍為93.10%~96.42%[39-43]。相比于2D圖像,深度學習模型具有同時處理時間和空間信息的能力,深度圖像能夠獲取豬只高度信息,識別準確率更高。從實際應用方面考慮,量化了豬1 d內各姿勢所處時間,可以此確定每頭豬飼喂時間。
在社交行為方面,Yang等[49]基于全卷積神經網絡(fully convolutional networks,FCN)分割母豬和仔豬圖像,計算母豬乳房區域及提取對應的空間信息,從視頻幀中提取運動強度和占領指數以識別母豬母性哺乳行為,準確率達97.60%,但該方法在識別時存在30 s延遲,且在哺乳行為發生前后30~90 s內錯誤識別率最高,因此無法實時識別哺乳行為。攻擊行為影響豬健康與生產[50],現有豬攻擊行為研究研究大多采用時空特征進行識別。Chen等[44]基于CNN-LSTM識別豬攻擊行為,VGG-16提取特征對檢測攻擊行為具有更強辨別能力,LSTM 可進一步提取時間信息,準確率達97.2%,但隨著批量數據的增加,模型會過度擬合,需增加數據數量與多樣性。高云等[45]以相同養殖環境下不同豬、不同視頻段時長、不良照明條件等環境下采集實驗數據,基于3DConvNet對豬的撕咬、撞擊、追逐、踩踏4大類,咬耳、咬尾、咬身、頭撞頭、頭撞身、追逐以及踩踏7類攻擊性行為進行識別,圖像檢測時間大幅縮短,準確率達97.2%,精度為98.4%。社交行為種類多,一些社交行為仍未能采用深度學習技術進行識別。同時在制作視頻數據集過程中需人工標注大量數據,且模型較大,計算成本高,較難應用于實際生產中,因此,后續應在保證精度的前提下開發輕量化模型和減少計算時間。
在多行為識別方面,需采用具有較高分類精度與檢測速度的深度學習網絡模型,Zhang等[46]基于MobileNet分類網絡和SSD目標檢測網絡,提出了一種母豬多行為檢測算法,實時識別母豬檢測飲水、排尿和交配行為,平均精度分別為96.5%、91.4%和92.3%。但該模型僅提取時間信息,需在更復雜場景下檢驗。Yang等[47]使用FCN提取了豬頭部區域以及頭部與飼養區域重疊部分作為空間特征,識別群養豬只采食、飲水及哺乳行為,準確率分別為97.49%、95.36%、90.72%。圖3展示了該研究的豬多行為識別框架[49],利用分類網絡和4個卷積層生成的特征圖集進行分類和檢測,通過非極大值抑制算法將檢測結果匯集,得到優化后的豬行為檢測框。Li等[48]開發了一種基于時空卷積網絡的豬多行為識別模型(spatiotemporal convolutionalnetwork for the pig’s multi-behavior recognition,PMB-SCN)識別豬只采食、躺臥、交配、發情和攻擊5種行為,準確率為97.61%。通過提取畜禽運動視頻中的時間與空間特征,可識別畜禽不同行為,如何提高模型通用性是下一步研究方向。
深度學習在豬行為識別領域取得了進展,主要行為包括社交、采食、飲水和運動行為?;谏疃葘W習的方法可處理時空信息,同時準確識別豬只行為,提高運動行為的識別準確率。通過圖像分割和空間信息提取技術可識別母豬的哺乳行為,也有研究關注豬只的攻擊行為。多行為識別方面,深度學習網絡展現了較好的實時性。未來的研究方向包括提高模型通用性及減少計算用時。
2.3 羊典型行為識別
我國現有大型羊養殖地多為內蒙古等地區的遼闊草原,主要實行放養管理,環境較為復雜,多依據無人機設備采集視頻數據進行研究,用于識別其行為的深度學習網絡模型實用性要求較高。小型羊只養殖場雖多為圈養,但養殖規模小,研究的樣本數據量少,模型魯棒性較低。同時圈養羊生長速度快,若采用大模型識別速度較慢,無法及時依據行為準確判斷其健康狀況等。因此,關于羊行為識別的研究較少,基于深度學習的羊典型行為識別相關研究見表3,可分為單行為識別和多行為識別,其中單行為識別包括采食飲水行為、社交行為及運動行為。
在采食飲水行為識別方面,Wang等[51]基于特征提取技術處理羊聲學數據集,采用RNN、CNN、DNN對羊只采食過程中的咀嚼聲、撕咬聲、反芻聲、咬斷咀嚼聲和噪音5種聲音進行分類,準確率分別為93.17%、92.53%和79.43%。結果顯示,在分類性能方面,RNN模型和CNN模型均優于DNN模型。在羊頸部佩戴麥克風,采集聲音數據集識別羊采食行為的方法能夠區分采食行為并且不干擾牲畜的自然生活,但穿戴式麥克風對羊行為造成不便,易引起應激反應。后續應考慮非接觸式方式獲取羊只聲音數據,選取最優聲音分類模型識別其采食行為。陸明洲等[52]基于增加目標框篩選模塊的EfficientDet 網絡識別單只湖羊咀嚼行為,識別準確率為91.42%。識別流程如圖4所示,Bi-FPN(feature pyramid networks)模塊針對視頻幀圖像第3到7層特征進行自上而下和自下而上雙向融合,融合后特征分別輸入類別/目標框預測網絡以完成目標框篩選及行為識別。不同于通過羊只頭部是否位于采食區域識別的方法,本研究依據鳴叫與短時咀嚼行為在上下頜張合狀態不同持續時間判斷咀嚼行為,降低了分類模型復雜度。在羊群飼養應用中,需研究羊嘴狀態檢測網絡輸出多目標框的方法,并結合目標檢測算法,在連續視頻中檢測同一羊嘴目標,以此實現羊群采食量的估計。
在多行為識別方面,李小迪等[53]基于改進的卷積神經網絡識別羊采食、站立和躺臥等行為,準確率分別為90.13%,94.16%和91.90%。Jiang等[54]結合羊只時空位置特征,基于YOLOv4算法從視頻序列中識別羊群采食行為、飲水行為、活動與非活動行為,準確率分別為97.87%、98.27%、96.86%和96.92%。為豐富實驗數據集,提高算法魯棒性,Cheng等[55]將相機放置不同角度、方位和高度下采集圖像,構建不同規模的數據集進行實驗,提出了基于YOLOv5算法自動識別綿羊站立、躺臥、采食和飲水行為的方法,多尺度訓練集行為識別準確率高于96.00%。目前,識別羊只行為多采用基于CNN的YOLO系列模型,行為識別準確率達93%以上,但當前研究中的模型網絡結構過于復雜,應進行進一步改進和簡化,提高算法魯棒性以增加模型實用性。
我國大型羊養殖地主要位于內蒙古等草原地區,采用放養管理。目前研究多使用無人機采集視頻數據,對深度學習模型的實用性要求較高。相比之下,圈養養殖規模小、樣本數據量小、模型魯棒性低。研究發現,聲學數據可識別采食飲水行為,EfficientDet網絡可用于識別湖羊的咀嚼行為。此外,改進的卷積神經網絡和YOLOv4算法可識別羊只的采食、站立、躺臥等行為。當前研究中,模型網絡結構過于復雜,需要進行改進和簡化,提高算法的使用性和魯棒性。
2.4 雞典型行為識別
目前,我國雞養殖范圍密集、環境封閉且本身目標較小,識別較為困難,利用深度學習識別雞行為的研究較少,基于深度學習的雞典型行為識別相關研究見表4,可分為單行為識別和多行為識別,其中單行為識別包括采食飲水、社交及運動行為。
在雞多行為識別方面,Cheng等[56]依據雞骨架狀態識別雞只行為。圖5展示了肉雞姿態估計流程,首先采用DNN 構建肉雞骨骼模型,依據DeepLabCut 算法跟蹤其骨骼關鍵點從而判斷肉雞所處的運動狀態,再使用樸素貝葉斯法(NaiveBayes model, NBS)對其運動行為進行分類,站立、跑步、行走、采食、休息和梳羽行為識別,精度分別為75.11%、62.70%、51.35%、96.23%、93.61% 和92.58%。其中,雞跑步行為識別精度較低,其原因在于行為分割閾值取值精度不高,只在地面跑步時會被誤識別為行走。李娜等[57]使用FCN提取主干網絡圖像特征,采用YOLOv4預測雞只位置識別群養雞采食、梳羽、啄羽、打架,站立和趴臥行為,AP 分別為96.67%、82.01%、63.38%、67.14%、90.34%、78.46%。多行為識別中包含行為種類較多,僅采用圖像識別準確率較低,后續應制作視頻數據集識別雞只多行為,同時提高復雜環境下行為識別準確率。
3 深度學習在畜禽行為識別中的發展建議
近年來,深度學習技術發展迅速,已開展了較多基于深度學習技術的畜禽典型行為識別研究,取得了較好的識別結果,但仍存在一些問題制約其發展和應用,應從以下3個方面加強深入研究。
3.1 提高深度學習模型的通用性
目前,基于深度學習技術的畜禽行為研究主要側重于識別某一種類或特定生長階段(如哺乳期[39]、保育期[41]、育肥期[50]等)的典型行為,缺乏通用性。當該算法用于研究不同生長階段同一行為時,由于畜禽大小和所處空間密度不同會影響算法識別準確性。且現有研究模型多適用于室內場景,無法實現同一模型同時滿足不同場景的識別需求,在實際應用中需結合養殖場環境進行改進。因此,未來的深度學習模型向著多種模態融合發展,結合分布式平臺的計算能力,實現更高精度的場景構建,和對動態場景的處理能力。同時開發用于商業模式的具有通用性和穩定性的深度學習模型識別畜禽行為。
3.2 加強復雜場景數據集的多樣性
采集畜禽圖像及視頻數據時,由于場景較為單一,模型訓練后易出現過擬合的情況。在實際應用中,養殖場環境、光照條件相對復雜,畜禽之間相互遮擋,都會影響識別準確率。目前常見的樣本擴充方法為圖像增強和遷移等,但與真實飼養環境之間存在差異,單純地通過圖像處理擴充數據集地方法并不能解決采集環境單一的問題。因此,需要增加訓練數據的多樣性,添加不同品種、不同生長階段、不同光照環境和飼養密度的畜禽行為作為數據集,以提高模型的魯棒性和泛化性。
3.3 推動畜禽行為數字化表征的全面性
目前,基于深度學習技術的畜禽行為研究主要集中于典型行為(如采食飲水、打斗和交配行為)以及多種行為分類。依據畜禽典型行為的持續時間可判斷其健康狀況,例如,畜禽進食量和進食時間變化與周圍環境變化與其健康狀況密切相關;畜禽若長時間處于躺臥狀態,其患有跛足等疾病的風險增加;畜禽社交距離和頻次可反映畜禽親密程度,依據親密程度劃分畜禽生長區域,可提高養殖場育種效率、畜產品以及乳制品產量。因此,在未來研究中可全面數字化畜禽行為識別結果,有助于提高畜禽生長、生產性能,預防相關疾病。
4 結語
本文簡要介紹了深度學習的發展歷程,主要分析了深度學習在牛、豬、羊和雞等畜禽典型行為識別方面的研究進展,提出了深度學習在畜禽典型行為識別中的發展建議??傮w來說,國內外學者已利用深度學習技術開展了行為識別方面研究,算法識別準確率高、處理速度快,但數據采集環境單一,缺少多模態、通用性模型的開發。因此,在未來研究中,應提高深度學習模型的通用性,增加數據集多樣性,全面數字化行為識別結果。另外,應結合養殖場實際環境因素,開發適用于商業性畜牧業的深度學習模型,實現畜禽養殖的自動化與智能化。