












摘要:精準飼喂是全齡人工飼料工廠化養蠶節本增效的核心技術之一,家蠶自動化識別與計數是實現精準飼喂的關鍵環節。本研究基于機器視覺系統獲取工廠化養蠶過程中蠶在4齡和5齡期的數字圖像,利用改進深度學習模型 Mask R-CNN檢測蠶體和殘余飼料。通過在 Mask R-CNN模型框架中加入像素重加權策略和邊界框細調策略,從噪聲數據中訓練一個魯棒性更好的目標檢測模型,實現模型性能的優化,提高對蠶體和飼料邊界的檢測和分割能力。改進 Mask R-CNN 模型對蠶的檢測和分割交并比閾值為0.5時的平均精度(Average Precision at IoU=0.5,AP50)分別為0.790和0.795,識別準確率為96.83%;對殘余飼料的檢測和分割AP50分別為0.641和0.653,識別準確率為87.71%。模型部署在 NVIDIA Jetson AGX Xavier開發板上,單張圖像平均檢測時間為1.32 s,最長檢測時間為2.05 s,運算速度可以滿足養蠶盒單元在生產線上移動實時檢測的要求。該研究為工廠化養蠶精準飼喂信息系統和投喂裝置的研發提供了核心算法,可提高人工飼料的利用率,提升工廠化養蠶生產管理水平。
關鍵詞:家蠶;人工飼料;精準飼喂;機器視覺;深度學習;mask R-CNN;噪聲數據
中圖分類號:S126;TP18"""""" 文獻標志碼:A"""""""" 文章編號:SA202201012
引用格式:何銳敏, 鄭可鋒, 尉欽洋, 張小斌, 張俊, 朱怡航, 趙懿瀅, 顧清.基于改進 mask R-CNN模型的工廠化養蠶蠶體識別與計數[J].智慧農業(中英文), 2022, 4(2):163-173.
HE Ruimin, ZHENG Kefeng, WEI Qinyang, ZHANG Xiaobin, ZHANG Jun, ZHU Yihang, ZHAO Yiying, GU Qing. Identification and counting of silkworms in factory farm using improved mask R-CNN model[J]. Smart Agriculture, 2022, 4(2):163-173.(in Chinese with English abstract)
1引言
全齡人工飼料工廠化養蠶是一種全新的家蠶飼養模式,它以人工飼料代替桑葉,通過控制環境,以工業化流水線方式實現家蠶自動化大規模周年循環飼養,顛覆了傳統的家蠶飼養模式,是蠶業轉型升級的重要方向[1-3]。全齡人工飼料工廠化養蠶技術體系的研究取得了諸多成果,已建成投產了全齡期使用人工飼料的規?;B蠶工廠[4,5]。人工飼料的生產是工廠化養蠶的主要投入,飼料的加工和飼喂是最重要的技術環節之一。因此,嚴格控制飼料用量、提高飼料利用率對控制工廠化養蠶成本具有十分重要的意義。目前,工廠化養蠶采用常量投喂模式,即在同一齡期中,每個養蠶盒單元中的人工飼料投喂量是相同的。然而,隨著飼養的進行,由于蠶盒中的初始蟻蠶數量不同、蠶死亡、出現疑似病癥人工移除、蠶爬離蠶盒等多種因素會導致蠶盒中的蠶數出現較大的差異。因此,常量投喂會導致喂食不均、飼料過多或不足等情況,最終導致飼料浪費或蠶繭質量下降。因此,精準投喂人工飼料對提高飼料利用率、降低飼養成本和提高蠶繭的質量具有重要意義。根據蠶的數量投喂人工飼料是一種有效實現蠶精準飼喂的方法,需要首先快速準確地檢測每個養蠶盒單元中的蠶數,并將其轉換成該蠶盒所需投喂的飼料量并傳輸給投喂裝置,裝置收到信號后即時調整出料量,達到精準飼喂目的。
圖像識別中的目標檢測技術可用于對蠶進行識別并計數。傳統的目標檢測方法多是基于目標物體邊緣相關特征[6,7],雖然在特定場景下能夠得到較好的檢測精度和速度,但自適應性和泛化性較弱。近年來,深度學習技術被廣泛應用于目標檢測。基于深度學習的目標檢測方法能夠自適應提取不同層次的圖像特征,訓練得到的模型可以應用于不同場景,大幅度提升模型的精度和泛化能力[8-12]。Mask R-CNN 模型是近年來較為常用的深度學習算法之一,在眾多的應用場景中均取得了優秀的表現。 Mask R-CNN 通過使用 RoIAlign 改進了 Faster R-CNN 的 RoIPooling ,并且采用雙線性插值算法來減小邊界框回歸的位置誤差[13]。Mask R-CNN模型不僅具有較好的檢測性能,還能對檢測目標進行像素級的分割,符合本研究應用場景的需求。但 Msak R-CNN在進行蠶體和殘余飼料檢測時,如果數據標注不清、標注區域存在其它背景、目標物體輪廓重疊和粘連等,訓練數據中存在一定的噪聲,會降低模型檢測和掩碼分割的精確性和穩定性。針對此問題,本研究利用噪聲數據對 Mask R-CNN模型進行改進和調整,在模型框架中加入像素重加權策略和邊界框細調策略,以提升模型對蠶體和飼料邊界的分割能力。
本研究利用機器視覺系統獲取人工飼料工廠化養蠶過程中4齡和5齡蠶的數字圖像,并利用噪聲數據對深度學習模型 Mask R-CNN 進行改進,用于對圖像中的蠶體和殘余飼料進行目標分割,之后利用分割掩碼輸出對蠶生長發育和飼料剩余等情況進行評估,為工廠化養蠶中人工飼料精準飼喂設備和管理系統的研發提供算法支持,實現工廠化養蠶中人工飼料投喂量的精確控制,提高飼料利用效率。
2材料和方法
2.1數據采集和預處理
2.1.1數據采集
數據采集地點為浙江省嵊州陌桑高科股份有限公司的工廠化養蠶人工飼料喂食車間(29°35' N,120°51' E)。家蠶品種為“中2016×日2016”,是為工廠化養蠶培育的特有品種。圖像獲取環境溫度為(25±1) ℃,濕度為60%~70%。
從蟻蠶到結繭,蠶需要經歷1~5個齡期,每個齡期之間會進行一次休眠(蛻皮)。每次蛻皮后,蠶體都會長大,并需要更多的食物。前3齡的蠶只需要很少的食物,約占整個生長周期所需飼料的5%,4齡期和5齡期消耗飼料占整個蠶生長周期中消耗飼料總量的95%以上。因此,本研究僅針對4齡和5齡的蠶進行識別。
圖像采集設備為工業相機 FLIR Blackfly SUSB3,鏡頭型號為長步道 FA3516A 。相機主要規格參數為:分辨率2000萬像素,定焦鏡頭焦距35 mm ,光圈 F2.8,C-Mount鏡頭類型、最大分辨率5472×3648、幀率18 f/s 、像素大小2.4μm 。蠶盒在流水線系統上以1.5 m/s 的速度水平移動,并在投喂飼料時有5 s 左右的停止。蠶盒的尺寸為60 cm×100 cm。相機安裝在養蠶盒單元停止處正上方2 m處,并在蠶盒停留間隙進行圖像拍攝。相機通過 USB 3.0接口連接到筆記本電腦,使用相機附帶的應用程序進行控制操作。
2.1.2圖像預處理
原始圖像的尺寸較大,蠶體數量較多,給目標物體標注和建模帶來一定困難。為提高標注效率,統一圖像尺寸,便于數據處理和后續分析,對原始圖像數據進行了同尺寸裁剪,裁剪像素為2000×2000,從中挑選較為清晰的數據進行后續處理。
數據增廣(Image Augmentation)可以提高圖像數據的質量、擴大訓練數據集的規模[14]。本研究使用旋轉與翻轉、亮度增強、添加噪聲3種方法對原始圖像進行增廣。旋轉與翻轉是廣泛使用的圖像增廣方法之一[14, 15],對所有圖像進行90°、180°以及270°旋轉和水平鏡像翻轉處理。由于工廠化養蠶對車間照度有嚴格要求,蠶室光線較暗,無法采用常規方法進行補光,原始圖像的亮度偏低,所以將圖像的亮度提升20%,用于彌補環境光強的不足。此外,在圖像獲取過程中,圖像采集設備的不穩定性可能會導致隨機噪聲的產生。針對此,參考 Zhou等[14] 的方法,在原始圖像中加入方差為0.01的高斯噪聲,用于提升模型的魯棒性。處理后的數據增加到訓練集中,進行模型訓練。
在對圖像進行增廣和編號后,使用開源圖形界面標注工具 Labelme進行圖像標注。通過繪制多邊形來標注蠶體和殘留的飼料,標注完成后將圖片保存為*. Json文件??偣策x擇了180張裁剪后的高質量圖片進行標注,其中90張為4齡,90張為5齡。每張圖像包含約150~200個蠶體標注和30~50個飼料殘留標注,對圖像邊緣處不完整的蠶也進行標注。圖 1為裁剪后的4齡和5齡蠶的原始圖像及不同預處理結果示例。
2.2 Mask R-CNN
Mask R-CNN 由 He等[13]提出,通過在 Faster R-CNN 網絡中添加掩碼分支,在目標檢測的同時實現了實例分割。該模型沿用了 Faster R-CNN 的思想,特征提取采用 ResNet-FPN 架構,另外增加了一個 Mask 預測分支。Mask R-CNN 主要分為三個模塊:Faster R-CNN 、RoIAlign 和全卷積網絡(Fully Convolutional Networks , FCN )。其采用了與 Faster R-CNN 相同的兩階段檢測方法。在第一階段建立區域候選網絡(Region Pro‐ posal Network , RPN ),然后進行特征提取[16]。在第二階段,Mask R-CNN 引入了 RoIAlign方法代替 Faster R-CNN 的重采樣方法 RoIPooling [17]。除了類別檢測,Mask R-CNN會為每個候選對象輸出一個二進制的分割掩碼[18]。Mask R-CNN的損失函數 L表示為:
其中,Lcls 是分類損失;Lloc 是框回歸損失; Lmask 為掩碼損失。
為了針對不同大小的家蠶進行多尺度蠶體預測,采用特征金字塔網絡(Feature Pyramid Net‐ work ,FPN )進行多尺度特征學習。FPN采用自上而下和自下而上的雙向多尺度邊框預測方法,可以將各個層級的特征進行融合,使其同時具有強語義信息和強空間信息[19]。圖2所示為 FPN的結構示意圖。本研究中的 Mask R-CNN 采用ResNet50-FPN 的骨干網絡進行特征提取。在RPN生成過程中,anchor的大小為32、64、128、256和512,尺度為0.5、1.0和2.0。
2.3利用噪聲數據改進Mask R-CNN模型
2.3.1 原始 Mask R-CNN 模型存在問題及改進思路
原始 Mask R-CNN模型雖然在自然圖像分割上效果優越,但在分割小物體以及遮擋嚴重等情況下分割性能仍需改進。由于相互重疊、粘連以及其它背景物體的干擾,蠶體和殘余飼料的邊界可能存在模糊、難以界定的情況,導致標注數據中存在一定的錯誤,給模型的訓練帶入噪聲。有噪聲情況下的分割模型可能出現以下問題:①錯誤類別標簽損壞檢測器;②錯誤分割掩碼誤導模型產生不精確的掩碼預測。一個過大的標注區域將導致覆蓋更多的背景區域,而過小的標注區域無法覆蓋完整蠶或飼料。這些因素使得模型無法生成精準掩碼;③有噪聲的標注導致不穩定訓練過程。當訓練數據沒有正確的類別標簽或精確的掩碼標注時,模型在訓練過程中將出現不穩定的現象,損失函數不穩定將導致學習參數無法收斂至更優解。針對上述標注噪聲對模型造成的影響,本研究在原始 Mask R-CNN框架基礎上,增加一個像素重加權策略和邊界框細調策略,從噪聲數據中訓練一個更魯棒的目標檢測模型,實現模型性能的優化和提升。
2.3.2 主要處理流程
基于噪聲數據改進的 Mask R-CNN模型訓練過程如下。
(1) 將數據集分為訓練集與元測試集,其中元測試集中的圖片為人工檢驗后完全正確的標注數據,而訓練集的標注存在噪聲。
(2) 使用遷移學習策略對預訓練 CNN 模型進行微調和重訓練。預訓練模型使用 COCO (Common Objects in Context)數據集訓練。使用原始 Mask R-CNN 框架流程進行訓練集數據訓練,獲得初始分類、邊框回歸和掩碼分割結果。
(3) 像素重加權策略將分類損失值作為輸入,θ1表示像素重加權策略中的參數。通過兩層感知機后輸出權重β作為像素的噪聲水平。當像素標簽不正確時,像素重加權模塊輸出較小的權重,而對于正確的像素標簽,像素重加權模塊輸出的權重較大。
(4) 邊界框細調策略將邊界框回歸損失作為輸入,θ2表示邊界框細調策略中的參數。通過兩層感知機后輸出邊框位移變換參數,從而自適應地修改不精確的標注邊界,并產生更準確的估計。經過邊界框細調后,檢測器將通過更準確的回歸損失進行模型優化。
像素重加權策略和邊界框細調策略的具體算法詳見 Xu等[20] 的介紹。圖3所示為基于噪聲數據改進的 Mask R-CNN模型用于蠶體和殘余飼料檢測的框架流程。將所有180張圖像分成訓練集、驗證集、元測試集和測試集4個數據集。隨機選取100張圖像作為訓練集,用于模型的訓練。選取20張圖像作為驗證集,進行超參數的調試和選取。元測試集中的圖片為人工檢驗后完全正確的標注數據,用于像素重加權和邊界框細調,共有20張圖像。40張圖像作為測試集用于模型測試和性能評價。每個數據集中的4齡和5齡蠶圖像數量均相同。
2.4模型性能評價
預測結果可分為四類:真正例( True Posi‐tives , TP )、真負例(True Negatives , TN )、假正例( False" Positives , FP ) 和假負例( FalseNegatives ,FN )。 TP表示被模型預測為正的正樣本,TN表示被模型預測為正的負樣本,FP表示被模型預測為正的負樣本,FN 表示被模型預測為負的正樣本。在判定上述四種預測類型的歸屬前,需要預先定義交并比 ( Intersection" overUnion ,IoU )閾值。IoU衡量檢測邊界與真實邊界(標注邊界)之間的重疊率,表示為檢測結果和標注區域的重疊部分占兩個區域的并集面積的比例:
其中," CandidateBox 為檢測結果邊界;GroundTruth為標注范圍邊界。如果 IoU值等于1,則表示預測結果與標注完全重合;IoU越接近1,預測結果越好。在本研究中,定義 IoU=0.5為判定預測結果的閾值,即如果 IoU 大于0.5,將該預測結果視為一個成功的預測,歸入上述四種類別中的一種;如果小于0.5,則將其視為一個失敗的預測。
在本研究中,利用準確率(Accuracy)、平均精度(Average Precision,AP)和檢測速度3項指標對 Mask R-CNN模型的性能進行評價。
2.4.1 準確率
準確率是正確分類的樣本數占樣本總數的比例[8]。
其中, TP+TN為正確分類的數量; TP+TN+ FP+FN 為樣本總數。整個數據集的準確率是所有圖像預測結果的平均值。
2.4.2 平均精度
平均精度( Precision )和召回率( Recall )是評價深度學習模型性能的常用指標,計算方式如下:
其中,TP+FP表示目標物的預測數量;TP+FN 為目標物的真實數量。查準率表示預測結果中正確的比例,查全率表示正確預測的目標樣本占目標樣本數量的比例。當 Precision和 Recall都較高時,模型性能較好。將 Precision 作為縱軸,Re‐ call 作為橫軸繪制曲線( P-R 曲線)。 AP 的定義為不同 Recall值下的平均 Precision值,計算方法為 P-R曲線的積分[21]:
其中,p表示 Precision;r為 Recall 。AP值即為 P-R 曲線下方圍成的面積。AP 是最常用的目標檢測模型性能評價指標之一。本研究中,AP在 IoU閾值為0.5下計算,表示為AP50。
2.3.3 檢測速度
運算速度是檢測目標算法的重要評價指標。在本研究中,飼料投喂過程在流水線上進行,養蠶盒單元持續移動并只在飼料投放時作短暫的停止。因此,為實現不間斷檢測,模型運算速度必須滿足一定要求。采用最大運行時間 Tmax 和平均運行時間(Average Running Time , ART )兩個指標對深度學習模型的運算速度進行評價[14, 16]。在特定硬件配置下, Tmax 表示模型在測試集圖片上檢測所需的單張最長時間,ART表示模型在測試圖像上執行檢測過程所需的單張平均時間,s/張,描述為:
其中,Nt 代表模型檢測所有測試圖像的總運行時間,s;NI 是圖像的數量,張。
3試驗與結果分析
3.1試驗設置和模型訓練參數
使用遷移學習策略對預訓練的模型進行微調和重訓練。預訓練模型使用 COCO 數據集訓練。初始學習率為0.02,在50, 000步時降低為0.0001,在 70, 000步時降低到0.00001。FPN 在2、3、4和5殘差塊單元的輸出上執行。研究使用開源深度學習框架 PyTorch用于模型訓練,編程語言為 Python 。試驗在 Ubuntu 操作系統上進行,計算機配置32.0 GB 內存和 Intel?Core TM i7-9700K CPU @3.60 GHz×8處理器。在四個 NVIDIA Tesla V100圖形處理單元(Graphics Pro‐ cessing Unit ,GPU )上并行訓練。使用驗證集數據進行模型評估和超參數調整,選取最優的參數組構建模型,再用測試集數據進行模型性能評估。模型其他初始參數見表1。
3.2檢測與分割結果
將預測結果與標注數據進行比較,評估模型的性能。改進Mask R-CNN模型的檢測結果如圖4所示。其中邊框表示蠶和殘余飼料的識別檢測結果,掩碼表示分割結果。從圖中可以看出,改進Mask R-CNN 模型在定位目標對象方面表現良好,可以準確識別出蠶。盡管蠶蛻與蠶體較為相似,模型仍可以準確地區分兩者。對于相互重疊的蠶也有較好的識別效果。
表2顯示了 Mask R-CNN 模型和改進 Mask R-CNN 的檢測和分割準確率以及 AP 值結果。 Mask R-CNN 模型的蠶檢測和分割 AP50分別為0.764和0.768,識別準確率為95.23%;殘余飼料識別表現與蠶體相比較差,檢測和分割 AP50分別為0.602和0.611,識別準確率為85.35%。改進Mask R-CNN 模型的蠶檢測和分割 AP50分別為0.790和0.795,識別準確率為96.83%;殘余飼料檢測和分割AP50分別為0.641和0.653,識別準確率為87.71%。上述結果表明,改進 Mask R-CNN 模型相比 Mask R-CNN模型在性能上有一定的提升,并且在蠶體和殘余飼料的檢測和分割方面表現出良好的性能,該模型可作為工廠化養蠶人工飼料精準投喂控制系統和投喂硬件裝置開發的核心算法。
在檢測速度方面,訓練完成的改進 Mask R-CNN模型在配置 NVIDIA Tesla V100顯卡和 i7-9700K CPU 的計算機上檢測測試集圖像的 ART 為0.075 s , Tmax 為0.142 s 。在 NVIDIA" Jetson AGX Xavier 開發板上部署模型進行測試,檢測 ART 為1.32 s , Tmax 為2.05 s 。該運算速度可以達到飼喂流水線上基于機器視覺系統的蠶體和殘余飼料的實時檢測要求。
3.3不同齡期蠶分割模型表現
由于不同齡期蠶的形態特征不同,使用蠶不同生長階段的圖像數據訓練的模型可能出現不同的檢測表現。為比較蠶不同齡期數據集訓練模型的性能,將整個數據集分為4齡和5齡兩類,分別進行蠶體檢測模型的訓練和測試。從表3所示的模型測試結果可以看出,5 齡模型比表2中完整數據模型的表現更好,而4齡模型的表現低于完整數據模型。兩者相比,5齡數據集訓練的模型在測試數據上比4齡模型展現出更好的性能。這表明訓練圖像的齡期將影響模型的檢測性能。蠶齡較大的模型要好于蠶齡較小的模型,這是因為4齡的蠶體型相對較小,顏色暗黃且分布密集,而5齡的蠶具有更清晰的輪廓特征、較大的個體和更少的重疊情況。
3.4蠶體重疊對檢測性能影響
生產中,蠶體之間相互重疊的情況較多,可能會影響檢測結果。本節分析了改進 Mask R-CNN模型對重疊蠶的檢測性能。圖5為重疊情況下的蠶的檢測和分割輸出實例。在測試圖像中,出現重疊情況的蠶體被單獨統計。測試集中共存在823條被覆蓋的蠶,占總蠶數的13.4%。被重疊后顯露的兩段或三段蠶體被準確識別為同一條蠶的結果為正確識別,這些蠶體的總體檢測準確率為95.06%,略低于整個測試數據集的檢測準確率(96.83%),這說明重疊情況在一定程度上影響了檢測的性能。盡管如此,改進 Mask R-CNN 對重疊蠶的檢測性能依然較為理想,準確率接近于完整數據集,說明該模型對蠶體的檢測性能較強,可以應對較為復雜的相互重疊情況。
3.5數據增廣對檢測性能影響
為評估數據增廣對模型性能的影響,對使用完整數據建立的模型和使用剔除不同處理圖像的數據集構建的模型進行了性能比較。根據表4所示,3種不同的圖像增強方法對模型精度產生了不同程度的影響。其中亮度增強方法對模型性能的貢獻最大。刪除亮度增強處理的圖像,模型的準確率降低了3.49%,檢測 AP50和分割 AP50也有明顯的下降。旋轉與翻轉處理對模型性能的幫助較弱,移除旋轉與翻轉圖像后的模型準確率降低了2.04%。高斯噪聲添加對模型的性能沒有明顯的影響。
4討論與結論
4.1討論
人工飼料工廠化養蠶是養蠶業的技術創新,為中國養蠶業的發展提供了新的方向。根據蠶的數量飼喂人工飼料,可有效提高飼料利用率,降低成本,提高蠶繭的整體品質。蠶的準確計數還可為預測蠶繭產量、估算飼料用量、計算家蠶損失量提供參考數據,為生產決策提供支持,提高工廠化養蠶的生產管理水平。近年來,深度學習技術在目標檢測中得到了越來越多的應用?;跀底謭D像的目標檢測結果取決于目標物體的大小、格局、重疊度、圖片質量和訓練樣本量等多種因素。在本研究中,數據類別(不同齡期、重疊蠶體)會影響檢測結果,這與 Tian 等[22] 的研究結果一致。數據增廣處理能夠提高深度學習模型的檢測能力,這與其他研究結果相一致[14, 15]。亮度增強方法對模型的性能提高具有最大的貢獻。
隨著整個技術體系的不斷更新和完善,大規模全齡人工飼料工廠化養蠶產業化日趨成熟。本研究證實了深度學習技術在工廠化養蠶中蠶和飼料殘渣檢測的可行性。然而,目前還存在一些問題需要在未來的工作中解決。例如,蠶體相互重疊較多會降低模型的檢測性能,后續需要進一步分析其影響程度并增加此類訓練樣本,以提高模型的檢測和分割能力。在殘余人工飼料檢測方面,由于其形狀不規則,表面質地多樣且不均勻,以及部分被蠶體覆蓋,給識別帶來了較大的困難。另外,家蠶糞便的顏色和表面紋理與殘留飼料相似,使得數據標注較困難,容易出錯,而錯誤的標注又會導致識別的錯誤。因此,模型在殘余飼料檢測性能方面還存在較大的提升空間。
利用改進 Mask R-CNN模型的分割掩碼輸出可以進一步分析蠶的大小和勻整度,以及殘余人工飼料的重量估算。這些信息可用于飼料用量管理、蠶繭大小和勻整性預測等環節。此外,該技術在家蠶育種的表型分析,如蠶大小、勻整性、死亡率和生長速率計算評價等方面具有很大的應用潛力。
4.2結論
為實現自動識別養蠶盒蠶頭數,本研究提出了一種利用噪聲數據改進的 Mask R-CNN 模型,用于家蠶和殘留人工飼料的檢測,為工廠化養蠶中精準飼喂管理系統和投喂裝置的研發提供核心算法。
利用噪聲數據改進的 Mask R-CNN模型對家蠶和人工飼料殘渣具有較好的檢測能力,總體檢測準確率分別達到96.83%和87.71%,對蠶的檢測和分割 AP50分別為0.790和0.795,對殘余飼料的檢測和分割AP50分別為0.641和0.653。模型在 NVIDIA Jetson AGX Xavier開發板上測試的 ART 為1.32 s , Tmax 為2.05 s ,可以實現工業流水線上蠶體和殘余飼料的實時檢測。
本研究建立的模型在精度和運算速度上可滿足工業流水線上養蠶盒單元中蠶體的快速準確檢測,因此可作為工廠化養蠶中人工飼料精準投喂控制信息系統和投喂裝置開發的核心算法。
未來的工作重點是進一步提高模型的精度、魯棒性和穩定性。為提高模型的性能,將引入更大規模的訓練圖像數據集,特別是蠶體相互重疊和粘連的樣本,以及更多樣的殘余飼料樣本。另外,下一步將選取不同結構的模型進行對比分析,對蠶體和殘余飼料的圖像特征提取、檢測和輪廓分割作更深入的研究。
參考文獻:
[1] TANAKA Y, SUDO M. Studies on the technology ofartifical" diet" rearing" for" parental" strains" of the" silk‐ worm, 4: The relationship between the water content of artificial diets for the fifth larval instar and egg laying results[J]. Journal of Dainippon Silk Foundation, 2006, 53:1-5.
[2] 吳亞群, 張升祥, 王洪江, 等.家蠶不同品種對人工飼料攝食性的遺傳模式[J].蠶業科學 , 2017, 43(4):603-609.
WU Y, ZHANG S, WANG H, et al. Inheritance pattern of feeding habit on artificial diet in different bombyx mori varieties[J]. Science of Sericulture, 2017, 43(4):603-609.
[3] 錢秋杰 , 陳偉國.家蠶人工飼料研究與應用進展[J].蠶桑通報, 2016, 47(2):11-14.
QIAN Q, CHEN W. Research and application progress of artificial" diet" for" silkworm[J]. Bulletin" of Sericul‐ ture, 2016, 47(2):11-14.
[4] 董久鳴, 潘美良, 吳海平.加快推進蠶桑產業轉型發展的思考——巴貝工廠化養蠶的探索與啟示[J].蠶桑通報, 2018, 49(2):14-16.
DONG J, PAN M, WU H. Thinking on speeding up the transformation and development of sericulture Industry —The" exploration" and" enlightenment" based" on" the BABEI's silkworm rearing in the factory[J]. Bulletin of Sericulture, 2018, 49(2):14-16.
[5] 王亮, 胡帥棟.推進全齡人工飼料工廠化養蠶的巴貝模式[J].蠶桑通報, 2020, 51(1):37-45.
WANG L, HU S. Babe model of promoting industrial sericulture by feeding artificial diet of full larval stage[J]. Bulletin of Sericulture, 2020, 51(1):37-45.
[6] DOU J, LI J. Robust object detection based on deform ‐able part model" and" improved" scale" invariant" featuretransform[J]. Optik-International Journal for Light andElectron Optics, 2013, 124(24):6485-6492.
[7] HONG G S, KIM B G, HWANG Y S, et al. Fast multi-feature pedestrian detection algorithm based on histo‐gram of oriented gradient using discrete wavelet trans‐form[J]. Multimedia Tools and Applications, 2015, 75(23):1-17.
[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Im ‐agenet" classification" with" deep" convolutional" neuralnetworks[J]. Advances in Neural Information Process‐ing Systems, 2012, 25:1097-1105.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Richfeature hierarchies for accurate object detection and se‐mantic" segmentation[C]// IEEE" Conference" on" Com ‐puter Vision and Pattern Recognition. Piscataway, NewYork, USA: IEEE, 2014.
[10] HE K, ZHANG X, REN S, et al. Spatial pyramid pool‐ing in deep convolutional networks for visual recogni‐tion[J]. IEEE Transactions on Pattern Analysis and Ma‐chine Intelligence, 2014, 37(9):1904-1916.
[11] GIRSHICK" R. Fast" R-CNN [C]//2015 IEEE" Interna‐tional" Conference" on" Computer" Vision. Piscataway,New York, USA: IEEE, 2015.
[12] REN S, HE K, GIRSHICK R, et al. Faster R-CNN : To‐wards real-time object detection with region proposalnetworks[J]. IEEE" Transactions" on" Pattern" Analysisand Machine Intelligence, 2015, 39(6):1137-1149.
[13] HE" K," GKIOXARI" G," DOLLAR" P," et" al. Mask "R-CNN [C]// IEEE International Conference on ComputerVision. Piscataway, New York, USA: IEEE, 2017.
[14] ZHOU" C," HU" J," XU" Z," et" al. A Novel" greenhouse-based system for the detection and plumpness assess‐ment" of strawberry using" an" improved" deep" learningtechnique[J]. Frontiers" in" Plant" Science, 2020, 11:ID 559.
[15] TIAN Y, YANG" G, WANG Z," et" al. Apple" detectionduring different growth stages in orchards using the im ‐proved YOLO-V3 model[J]. Computers and Electron‐ics in Agriculture, 2019, 157:417-426.
[16]張遠琴, 肖德琴, 陳煥坤, 等.基于改進 Faster R-CNN的水稻稻穗檢測方法[J].農業機械學報 , 52(8):231-240.
ZHANG Y, XIAO D, CHEN H, et al. Rice panicle de‐tection method based" on" improved" Faster R-CNN [J].Transactions of the CSAM, 52(8):231-240.
[17] WEN Q, LUO Z, CHEN R, et al. Deep learning ap‐proaches on defect detection in high resolution aerialimages of insulators[J]. Sensors, 2021, 21(4): ID 1033.
[18] WJPD A, YT A, RONG L. B, et al. Detection and seg‐mentation" of" overlapped" fruits" based" on" optimizedmask R-CNN application in apple harvesting robot[J].Computers" and" Electronics" in Agriculture, 2020, 172(6): ID 105380.
[19] M.AKHAN, ZHANG Y D, SHARIF M, et al. Pixels toclasses: Intelligent" learning" framework" for" multiclass skin lesion localization and classification[J]. Comput‐ ers and Electrical Engineering, 2021, 90:1-20.
[20] XU Y, ZHU L, YANG Y, et al. Training robust objectdetectors" from" noisy" category" labels" and" imprecise bounding boxes[J]. IEEE Transactions on Image Pro‐cessing, 2021, 30:5782-5792.
[21] ZHANG Y, CHU J, LENG L, et al. Mask-refined R-CNN : A network for refining object details in instancesegmentation[J]. Sensors, 2020, 20(4): ID 1010.
[22] TIAN Y, YANG G, WANG Z, et al. Instance segmenta‐tion of apple flowers using the improved mask R-CNNmodel[J]. BiosystemsEngineering, 2020, 193:264-278.
Identification and Counting of Silkworms in FactoryFarm Using Improved Mask R-CNN Model
HE Ruimin1 , ZHENG Kefeng2 , WEI Qinyang1 , ZHANG Xiaobin2 , ZHANG Jun1 , ZHU Yihang2 , ZHAO Yiying2 , GU Qing2*
(1. Shengzhou Mosang High-tech Co. , Ltd. , Shaoxing 312400, China;2. Institute of Digital Agriculture, Zhejiang Academy of Agricultural Sciences, Hangzhou 310021, China )
Abstract: Factory-like rearing of silkworm (Bombyx mori) using artificial diet for all instars is a brand-new rearing mode of silk‐ worm. Accurate feeding is one of the core technologies to save cost and increase efficiency in factory silkworm rearing. Auto‐ matic identification and counting of silkworm play a key role to realize accurate feeding. In this study, a machine vision system was used to obtain digital images of silkworms during main instars, and an improved Mask R-CNN model was proposed to de‐ tect the silkworms and residual artificial diet. The original Mask R-CNN was improved using the noise data of annotations by adding a pixel reweighting strategy and a bounding box fine-tuning strategy to the model frame. A more robust model was trained to improve the detection and segmentation abilities of silkworm and residual feed. Three different data augmentation methods were used to expand the training dataset. The influences of silkworm instars, data augmentation, and the overlap be‐ tween silkworms on the model performance were evaluated. Then the improved Mask R-CNN was used to detect silkworms and residual feed. The AP50(Average Precision at IoU=0.5) of the model for silkworm detection and segmentation were 0.790 and 0.795, respectively, and the detection accuracy was 96.83%. The detection and segmentation AP50 of residual feed were 0.641 and 0.653, respectively, and the detection accuracy was 87.71%. The model was deployed on the NVIDIA Jetson AGX Xavier development board with an average detection time of 1.32 s and a maximum detection time of 2.05 s for a image. The computa‐ tional speed of the improved Mask R-CNN can meet the requirement of real-time detection of the moving unit of the silkworm box on the production line. The model trained by the fifth instar data showed a better performance on test data than the fourth in‐ star model. The brightness enhancement method had the greatest contribution to the model performance as compared to the oth‐ er data augmentation methods. The overlap between silkworms also negatively affected the performance of the model. This study can provide a core algorithm for the research and development of the accurate feeding information system and feeding de‐ vice for factory silkworm rearing, which can improve the utilization rate of artificial diet and improve the production and man‐ agement level of factory silkworm rearing.
Key words: silkworm; artificial diet; accurate feeding; machine vision; deep learning; mask R-CNN; noise data