收稿日期:2023-09-07
基金項目:廣東省重點領域研發(fā)計劃項目(2021B0202070001)
作者簡介:丁 寅(1998-),男,江蘇泰州人,碩士研究生,主要從事農(nóng)業(yè)信息化、機器視覺與視頻分類研究。(E-mail)2794873588@qq.com
通訊作者:陳 明,(E-mail)mchen@shou.edu.cn
摘要: 本研究提出一種基于時間動作檢測的輕量化視頻分類網(wǎng)絡,旨在解決水產(chǎn)智能化養(yǎng)殖中餌料的投喂不均和水體污染等問題,提高投喂準確性和效率。該網(wǎng)絡以ResNet 3D為基礎,引入深度可分離卷積模塊和三維動態(tài)卷積模塊,以降低模型規(guī)模和參數(shù)量;同時采用圖卷積全局推理模塊和稠密卷積模塊構建區(qū)域和全局關系,增強網(wǎng)絡深層特征的表達,提高網(wǎng)絡分類準確率。經(jīng)試驗驗證,該模型檢測準確率可達96.70%,相較變分自動編碼器卷積網(wǎng)絡和3D ResNet-GloRe網(wǎng)絡,其準確率分別提高7.7個百分點和4.4個百分點;同時,該模型的參數(shù)量和計算量也明顯降低,分別為1.10 M和3.87 G。研究結果表明,該基于時間動作檢測的輕量化視頻分類網(wǎng)絡可以有效提高水產(chǎn)養(yǎng)殖中餌料的智能化投喂的準確性和效率,減少餌料投喂不均以及水體污染等問題,具有較高的應用價值。
關鍵詞: 魚類行為;機器視覺;視頻分類;全局圖推理;動態(tài)卷積
中圖分類號: S951.2"" 文獻標識碼: A"" 文章編號: 1000-4440(2024)10-1863-12
Fish feeding behavior analysis based on global graph reasoning and improved three-dimensional dynamic convolution
DING Yin1,2, CHEN Ming1,2, LI Zheng3, XUE Jianghao1,2
(1.College of Information Technology, Shanghai Ocean University, Shanghai 201306, China;2.Key Laboratory of Fisheries Information, Ministry of Agriculture and Rural Affairs, Shanghai 201306, China;3.Shanghai Shilin Information Technology Co., Ltd., Shanghai 201314, China)
Abstract: In this study, a lightweight video classification network based on temporal action detection was proposed to solve the problems of uneven feeding of bait and water pollution in intelligent aquaculture, and improve the accuracy and efficiency of feeding. Based on ResNet 3D, a deep separable convolution module and a three-dimensional dynamic convolution module were introduced into the network to reduce the model size and parameter quantity. The graph convolution global inference module and DenseBlock module were used to construct the regional and global relationships, which could enhance the expression of deep features of the network and improve the classification accuracy of network. Experimental results showed that the detection accuracy of the model could reach 96.70%, which was 7.7 percentage points and 4.4 percentage points higher than that of the variational autoencoder convolutional network and 3D ResNet-GloRe network, respectively. The number of parameters and calculation amount of the model were also significantly reduced, which were 1.10 M and 3.87 G, respectively. Therefore, the lightweight video classification network based on time motion detection could effectively improve the accuracy and efficiency of intelligent feeding in aquaculture, reduce the problems of uneven feeding of bait and water pollution, and had high application value.
Key words: fish behavior;machine vision;video classification;global graph inference;dynamic convolution
據(jù)世界糧農(nóng)組織統(tǒng)計,2022年水產(chǎn)品產(chǎn)量達1.191 8×108 t,其中人工養(yǎng)殖的水產(chǎn)品產(chǎn)量占比52%[1]。現(xiàn)有人工養(yǎng)殖產(chǎn)業(yè)中,餌料成本支出約占總成本的40%[2-3],控制餌料精準投喂有助于降低養(yǎng)殖成本。此外,餌料投喂不足會導致魚類生長減緩,養(yǎng)殖周期變長;而投喂過量會導致水體污染,增加魚類患病概率[4]。準確識別魚類行為是精準投喂的關鍵。現(xiàn)階段餌料投喂量多由養(yǎng)殖人員人工判斷,主觀性強,準確性差[5]。
現(xiàn)有對魚類行為的研究主要采用水質檢測、聲學標簽及計算機視覺等技術[6]。其中,計算機視覺技術因具有對觀測事物無侵害、運行效率高等特點被廣泛運用[7-8]。基于計算機視覺技術的魚類行為分析方法分為通過觀察魚群行為狀態(tài)進行直接檢測和通過水面餌料殘留量進行間接檢測。
直接檢測法運用較廣。陳彩文等[9]利用灰度共生矩陣提取魚群紋理特征并使用主成分分析法進行降維,實現(xiàn)對魚群攝食和非攝食狀態(tài)的識別;陳明等[10]利用背景減除法等提取圖像特征,并結合Relief等算法進行加權融合來檢測魚類攝食狀態(tài);陳志鵬等[11]利用光流法提取魚群運動速度轉角等特征來檢測魚群運動的快慢,從而進行攝食狀態(tài)識別;劉世晶等[12]利用幀間光流特征和改進遞歸神經(jīng)網(wǎng)絡來檢測草魚攝食狀態(tài);Zhou等[13]采用深度學習方法訓練LeNet5模型,對魚類攝食強度進行分類,檢測魚類攝食狀態(tài);朱明等[14]使用輕量級神經(jīng)網(wǎng)絡MobileNetV3-Small采集投喂后80~110 s圖片對鱸魚攝食狀態(tài)進行檢測。
除直接檢測魚類行為數(shù)據(jù)外,對餌料等進行檢測也能間接反映魚群行為。錢陽[15]通過計算連續(xù)圖像中餌料像素差值對魚類攝食強度進行量化,建立最小二乘支持向量機來檢測餌料數(shù)量,從而間接檢測魚類攝食狀態(tài);Li等[16]基于圖像掩模局部強度直方圖構建自適應閾值算法,檢測水下殘留餌料數(shù)量,從而間接檢測魚類攝食狀態(tài);Liu等[17]通過自適應大津閾值和線性時間分量標簽算法來檢測剩余餌料顆粒數(shù)量。
以上魚類行為研究大多基于單個圖片特征,此類方法的弊端是單一的圖像特征無法完全體現(xiàn)魚群的運動信息且特征提取對光照和背景等環(huán)境條件要求苛刻。此外,傳統(tǒng)機器學習的識別效果依賴特征的選取,當數(shù)據(jù)類別過多或類別不平衡時,算法容易失效[18-19]。因此,本研究擬采用基于視頻數(shù)據(jù)和深度學習的視頻分類方法對魚類行為進行研究。
在視頻分類領域常見的魚類攝食行為分類方法有以下幾種,Mly等[20]通過雙流循環(huán)神經(jīng)網(wǎng)絡對水下魚類視頻進行分類;張佳林等[21]采用變分自動編碼器對視頻序列編碼預處理,計算特征后再進行卷積分類;Feng等[22]采用改進的3D ResNet-GloRe網(wǎng)絡對魚類攝食行為進行分類,并根據(jù)其攝食行為的強弱來量化魚類攝食質量的好壞;Shou等[23]開發(fā)了一種多階段3D卷積網(wǎng)絡,通過時間動作檢測定位動作標簽來準確反映魚類攝食活動變化。
本研究擬提出一種準確率高、參數(shù)量少、計算量小的可用來部署于嵌入式設備中的輕量級神經(jīng)網(wǎng)絡,對魚類行為視頻進行分類,以ResNet 3D[24]為基礎,引入由6層稠密卷積層(DenseLayer)組成的稠密卷積模塊(DenseBlock)[25],通過構建卷積層間的稠密連接來實現(xiàn)特征復用,增強輸入特征來提高網(wǎng)絡準確率;使用深度可分離卷積模塊[26]進行逐通道卷積和逐點卷積,實現(xiàn)通道和區(qū)域分離,減少模型計算量和參數(shù)量;引入基于圖卷積的全局推理模塊[27],構建全局圖獲取上下文信息,尋找全局和局部特征關聯(lián),加快網(wǎng)絡訓練速度,提高網(wǎng)絡準確率;使用三維動態(tài)卷積模塊[28],通過注意力機制根據(jù)輸入尺寸自適應調整卷積核的大小和形狀,更好地提取特征,有效降低參數(shù)量和計算量,以期為魚類攝食行為檢測相關研究提供參考,為魚類養(yǎng)殖餌料精準投喂提供科學依據(jù)。
1 材料與方法
1.1 試驗材料和數(shù)據(jù)采集系統(tǒng)
本研究的研究對象為彩鯉和紅鱈魚,試驗魚體長10~20 cm,平均重量500 g,飼養(yǎng)于深度1.5 m、水溫10~15 ℃的養(yǎng)殖池中。在試驗前,研究對象均已被放養(yǎng)到養(yǎng)殖池中數(shù)月,以使其適應環(huán)境。投喂時間固定為每天10:00和17:00。試驗數(shù)據(jù)采集系統(tǒng)如圖1所示,攝像機固定在距養(yǎng)殖池水面高約1 m的位置。采集的視頻數(shù)據(jù)幀速率為1 s 30幀,分辨率為1 280×720,格式為mp4。圖像處理語言為Python,神經(jīng)網(wǎng)絡搭建工具由PyTorch庫提供。
1.2 試驗數(shù)據(jù)
本研究將魚類攝食行為劃分為攝食狀態(tài)、非攝食狀態(tài)2大類,再細分為4小類[29],具體分類見圖2。攝食狀態(tài)包括攝食行為強和攝食行為弱,非攝食狀態(tài)包括求食行為強和求食行為弱,分類依據(jù)如表1所示。以3~5 s視頻片段為單個樣本,用452個彩鯉視頻片段和95個紅鱈魚視頻片段作為數(shù)據(jù)集。選取數(shù)據(jù)集總量的20%用作測試集,剩余部分的80%用作訓練集,20%用作驗證集。
1.3 試驗方法
本研究采用視頻分類方法,通過提取輸入視頻數(shù)據(jù)的時空特征信息對魚類攝食行為進行分類。試驗流程為:第一,數(shù)據(jù)收集,采集魚群攝食視頻;第二,數(shù)據(jù)預處理,將視頻大小調整為171×128像素以加速網(wǎng)絡運算,并等間隔提取視頻幀消除信息冗余;第三,網(wǎng)絡訓練,將處理后的數(shù)據(jù)集投入網(wǎng)絡進行訓練;第四,模型測試,用測試集驗證和訓練網(wǎng)絡模型。試驗算法應用流程如圖3所示,將采集好的視頻進行數(shù)據(jù)預處理后投入網(wǎng)絡進行分類檢測,得出魚類攝食行為狀態(tài),并據(jù)此給出指令。
本研究所提算法網(wǎng)絡結構如圖4所示。本研究進行的改進具體如下:(1)引入由6層DenseLayer連接組成的DenseBlock實現(xiàn)特征復用,增強輸入特征,提高網(wǎng)絡準確性,通過降維模塊(Transition)下采樣壓縮通道數(shù),減少計算量;(2)引入全局圖推理模塊(GloRe)構建攝食階段魚群和餌料的局部和全體關系,加快網(wǎng)絡訓練;(3)使用深度可分離卷積(DCN)通過逐點卷積和逐通道卷積進行區(qū)域和通道分離,減少網(wǎng)絡計算量;(4)使用動態(tài)卷積根據(jù)輸入特征動態(tài)調整卷積核來減少網(wǎng)絡規(guī)模,降低計算量和參數(shù)量。
1.3.1 DenseBlock和Transition DenseBlock和Transition是由Huang等[25]提出的用來解決深度卷積網(wǎng)絡梯度消失問題的模塊。使用由6層DenseLayer結構稠密連接組成的DenseBlock來對魚類攝食數(shù)據(jù)特征進行增強,具體結構見圖5。DenseLayer結構由2層卷積構成,第一層1×1×1卷積用來對輸入特征進行升維,通道數(shù),并輸出處理后的特征;第二層3×3×3卷積用來對處理后的特征降維,縮減通道數(shù),并對卷積的輸入輸出進行拼接。
DenseBlock中DenseLayer結構的輸入由前一層的輸出和前幾層的輸入組合而成。1個具有6層DenseLayer結構的DenseBlock輸入為xint時,每一層輸出和DenseBlock總輸出(xout)對應公式如下所示:
xout(1)=F(xint)(1)
xout(2)=F[xout(1)+xint)](2)
xout(3)=F[xout(1)+xout(2)+xint)](3)
xout(4)=F[xout(1)+xout(2)+xout(3)+xint)](4)
xout(5)=F[xout(1)+xout(2)+xout(3)+xout(4)+xint)](5)
xout(6)=F[xout(1)+xout(2)+xout(3)+xout(4)+xout(5)+xint](6)
xout=xint+xout(1)+xout(2)+xout(3)+xout(4)+xout(5)+""" xout(6)(7)
DenseBlock中DenseLayer結構輸出通道數(shù)相同,若每層DenseLayer輸入通道數(shù)為k0,輸出通道數(shù)為k,則1個具有6層DenseLayer的DenseBlock輸出通道數(shù)為k0+6k。由此可見,使用稠密卷積模塊雖然能通過輸入特征的復用提高網(wǎng)絡性能,但也會因此帶來網(wǎng)絡特征通道數(shù)的增加,導致模型計算量的增大,因此引入Transition降維模塊,通過卷積核為1的三維卷積網(wǎng)絡來對稠密卷積模塊處理后的通道數(shù)進行降維,經(jīng)過Transition結構下采樣后輸出通道數(shù)為k0+6k2,有效降低通道數(shù),減少模型計算量。
1.3.2 深度可分離卷積模塊 深度可分離卷積[26]通過區(qū)域和通道分離,能夠在降低網(wǎng)絡參數(shù)量和計算量的同時保證網(wǎng)絡原有性能損失較少,被廣泛運用在輕量化網(wǎng)絡模型結構中。深度可分離卷積分為2個步驟,分別為逐通道卷積和逐點卷積,模塊結構見圖6。
對于輸入通道數(shù)為n,輸出通道數(shù)為m的卷積過程,深度可分離模塊先對輸入特征進行逐通道卷積,使用與通道數(shù)對應的n個k×k大小卷積核來分離通道;其次再對特征進行逐點卷積,使用m個1×1×n卷積輸出通道數(shù)為m的特征,此時深度可分離模塊卷積參數(shù)量為k×k×n+n×m,遠小于普通卷積的k×k×n×m。
1.3.3 全局圖推理模塊(GloRe) 全局圖推理模塊(GloRe)是由Chen等[27]提出的,用來解決傳統(tǒng)卷積因疊加運算帶來的較遠關聯(lián)區(qū)域運算效率低下的問題。該模塊通過加權平均池化和加權廣播實現(xiàn)特征坐標空間和交互空間的相互映射,并在交互空間中運用圖卷積進行關系推理,原理和結構見圖7、圖8。在本研究中,通過提取視頻特征數(shù)據(jù)中各攝食魚群特征和餌料特征,構建其對應關系,并將其投影到交互空間,便于卷積時獲取區(qū)域之間的關聯(lián)。
GloRe模塊對數(shù)據(jù)的處理分為3個階段:第一,將坐標空間的輸入特征通過降維投影方式映射到交互空間;第二,在交互空間中運用圖卷積進行全局關系推理;第三,將交互空間中處理后的特征通過升維和逆投影映射回原坐標空間。
第一階段使用2個1×1×1卷積,分別用于提取輸入數(shù)據(jù)的局部特征和對輸入數(shù)據(jù)進行降維。輸入特征X經(jīng)投影函數(shù)θ(X)得到雙投影矩陣B,矩陣B再與降維后的特征φ(X)相乘得到映射到交互空間的魚類攝食特征V,對應公式如下:
B=θ(X)(8)
V=φ(X)B(9)
第二階段對進入交互空間的特征進行圖卷積推理,構建全體和局部關系。輸入特征V通過鄰接矩陣Ag和I轉換為全連通圖的節(jié)點,再通過狀態(tài)更新函數(shù)Wg將節(jié)點間關系轉化為全連通圖邊權值,此時得到處理后的輸出特征Y,對應公式如下:
Y=(I-Ag)VWg(10)
第三階段為將交互空間處理后的特征經(jīng)過關系推理后映射回原坐標空間。特征Y經(jīng)雙投影矩陣B映射回原坐標空間,再使用升維函數(shù)f(x)升維,并將輸出與原輸入結合得到總輸出(Z),公式如下:
Z=f[(I-Ag)VWgB]+X(11)
經(jīng)過全局圖推理模塊的魚類攝食特征構建攝食魚群與餌料的關系,在訓練過程中能夠加快網(wǎng)絡訓練速度,提高網(wǎng)絡訓練的準確率。
1.3.4 三維動態(tài)卷積模塊 動態(tài)卷積模塊是由Chen等[28]提出,通過注意力機制根據(jù)輸入特征自適應調整卷積核的模塊,靜態(tài)卷積和動態(tài)卷積對比如圖9所示。采用三維動態(tài)卷積來減少網(wǎng)絡的計算量和參數(shù)量,相較于傳統(tǒng)的靜態(tài)卷積,使用注意力機制聚合卷積核的三維動態(tài)卷積能夠在較小的計算量和參數(shù)量下提升模型性能,并避免了過大的卷積核導致的過擬合等問題。
動態(tài)卷積模塊結構圖(圖10)顯示,采用壓縮激勵操作計算卷積核的注意力權重,調整所需卷積核的大小和形狀。對于輸入特征X,首先采用全局平均池化來壓縮全局空間信息,其次使用全連接層對壓縮后的特征進行降維和權重計算,最后根據(jù)權重聚合并行卷積核得出輸入特征X所對應的卷積核。
1.3.5 算法性能評估 本研究采用精確率、召回率、F1值和準確率作為模型評價指標[30]。精確率是分類正確的正樣本數(shù)與分類器判定為正樣本的樣本數(shù)之比;召回率是分類正確的正樣本數(shù)與實際正樣本數(shù)之比;F1值是精確率和召回率的調和平均值;準確率是分類正確的樣本數(shù)與總樣本數(shù)之比。各評價指標對應公式如下:
Precision=TPTP+FP×100%(12)
Recall=TPTP+FN×100%(13)
F1=2×Precision×RecallPrecision+Recall×100% (14)
Accuracy=TP+TNTP+TN+FP+FN×100%(15)
式中,Precision為精確率;Recall為召回率;F1為F1值;Accuracy為準確率;TP為模型檢測類別和實際類別均為攝食行為強的樣本數(shù);FP為模型檢測類別為攝食行為強,實際類別為其他類別的樣本數(shù);TN為模型檢測類別和實際類別相似且為非攝食行為強的樣本數(shù);FN為模型檢測為非攝食行為強類別,但實際類別為攝食行為強類別的樣本數(shù)。
1.4 網(wǎng)絡環(huán)境和參數(shù)設置
為減少數(shù)據(jù)量,保證提取信息豐富,提高網(wǎng)絡計算效率,采用抽幀和調整圖片像素操作對視頻數(shù)據(jù)進行處理。視頻每隔6幀抽取1次并調整像素大小為171×128,使用窗口滑動選取16張連續(xù)圖片并隨機裁剪為3通道112×112像素圖片作為神經(jīng)網(wǎng)絡的輸入。
網(wǎng)絡超參數(shù)設置如下:批處理設置為16;訓練周期設置為500;初始學習率設置為0.001,并選擇StepLR方法動態(tài)調整學習率;使用Adam優(yōu)化器優(yōu)化參數(shù),提高模型收斂性能;選擇交叉損失函數(shù)計算模型損失,衡量模型預測與真實標簽之間的差距。
2 結果與分析
2.1 網(wǎng)絡模型訓練結果分析
本研究訓練集和測試集迭代情況如圖11、圖12所示,模型在前15次訓練周期中,損失值迅速下降,準確率快速提升。表明模型在訓練初期能較快學習樣本的特征。隨著迭代周期的增加,損失值緩慢下降,并穩(wěn)定在0.80左右,同時驗證集準確率穩(wěn)定在95.00%左右。這說明模型已經(jīng)逐漸收斂,并且在驗證集上也能夠達到較高的準確率。
用測試集數(shù)據(jù)進行驗證,發(fā)現(xiàn)模型總體準確率達到96.70%。各類別對應的精確率、召回率和F1值見表2,模型對攝食行為強、求食行為強和求食行為弱類別的視頻識別效果較好,對攝食行為弱類別的視頻識別效果較差。
混淆矩陣能直觀地顯示模型在各類別上的表現(xiàn),本研究采用模型在測試集驗證結果的混淆矩陣如圖13所示。混淆矩陣灰度的深淺代表了模型預測準確率的高低,主對角線灰度較淺,模型預測準確率較高。
2.2 對比試驗
將本研究方法與常見魚類攝食視頻分類網(wǎng)絡C3D[31]、R2+1D[32]、ResNet 3D[24]、3D ResNet-GloRe[22]和變分自動編碼器卷積網(wǎng)絡[20]在相同參數(shù)條件下進行對比試驗,結果(表3)表明,在對比試驗中,C3D網(wǎng)絡分類綜合準確率最差,同時模型參數(shù)量也最多。其原因為C3D網(wǎng)絡結構中大量使用普通疊加卷積和全連接層,這導致網(wǎng)絡計算量會因網(wǎng)絡深度的增加而增大,帶來梯度消失和過擬合等問題,造成準確率下降。
ResNet 3D網(wǎng)絡與C3D網(wǎng)絡相比,綜合準確率提高至89.00%。該網(wǎng)絡通過使用殘差塊結構、引入層間跳躍連接,有效緩解了梯度爆炸問題,并減少了所需的卷積層數(shù)。因此,網(wǎng)絡參數(shù)量和計算量也相應減少。
R2+1D網(wǎng)絡通過將3D卷積分解為2D空間卷積和1D時間卷積,提高了網(wǎng)絡的非線性能力,降低了訓練損失并提高網(wǎng)絡綜合準確率。但卷積核的分解需要將2D空間卷積和1D時間卷積進行參數(shù)組合,導致參數(shù)量和計算量的增加。
此外,采用變分自動編碼器卷積網(wǎng)絡對魚類攝食數(shù)據(jù)預處理后投入卷積網(wǎng)絡進行訓練所得綜合準確率也較差,僅為89.00%。變分自動編碼器對視頻數(shù)據(jù)進行編解碼過程中會損失特征信息,帶來網(wǎng)絡識別綜合準確率的下降。
最后,3D ResNet-GloRe網(wǎng)絡使用全局圖推理,雖然提高了網(wǎng)絡訓練的綜合準確率,但并未考慮特征輸入的增強,導致綜合準確率低于本研究所提網(wǎng)絡。
綜上所述,本研究所提網(wǎng)絡的綜合準確率高達96.70%,且能有效降低網(wǎng)絡參數(shù)量和計算量,適用于魚類攝食行為分析,為水產(chǎn)智能化養(yǎng)殖中餌料的精準投喂提供可靠依據(jù),具備輕量化部署的優(yōu)勢。
2.3 消融試驗
對全局圖推理模塊(GloRe)、稠密卷積模塊(DenseBlock)、深度可分離卷積模塊和動態(tài)卷積模塊進行消融試驗(表4)。ResNet 3D網(wǎng)絡添加DenseBlock模塊后,模型準確率提高,參數(shù)量減少。DenseBlock通過層間稠密連接實現(xiàn)對輸入特征的復用,使得網(wǎng)絡能夠更好地捕捉和利用特征信息,提升網(wǎng)絡特征表達能力。此外,通過復用特征還能減少網(wǎng)絡所需參數(shù)量,降低模型的復雜度。
添加GloRe后,模型準確率進一步提升,參數(shù)量和計算量下降。GloRe通過構建全體特征與局部特征的關系,增強特征關聯(lián)性,提高網(wǎng)絡準確率。此外,整體特征與局部特征關系的構建也減少了非必要的疊加運算,使網(wǎng)絡參數(shù)量和計算量降低。
添加深度可分離卷積模塊和動態(tài)卷積模塊后,觀察到模型在維持原有準確率的同時,參數(shù)量和計算量進一步下降。深度可分離卷積模塊通過對原有卷積進行區(qū)域和通道分離,而動態(tài)卷積模塊則根據(jù)輸入動態(tài)調整卷積核,使得模型在減少參數(shù)量和計算量的同時能夠維持較高的準確率。
2.4 模型應用測試與分析
將訓練好的模型投入應用并進行測試,并對結果(圖14)進行分析。未到達投喂時間段時,魚群四散于養(yǎng)殖池,投喂區(qū)域出現(xiàn)魚群較少,此時采集魚群狀態(tài),如圖14a所示,模型識別判斷魚群狀態(tài)為求食行為弱。到達投喂時間段時,投喂區(qū)域魚群數(shù)量增多,并以較快速度游動等待投喂,此時采集魚群狀態(tài),如圖14b所示,模型識別判斷魚群狀態(tài)為求食行為強。開始投喂階段,裝置投喂餌料,魚群對灑下餌料反應激烈,大量上浮水面搶食致使水面濺起水花,此時采集魚群狀態(tài),如圖14d所示,模型識別判斷魚群狀態(tài)為攝食行為強。投喂后半段,多數(shù)魚群飽腹,較少魚類仍在攝食,投喂區(qū)域魚群變少,此時采集魚群狀態(tài),如圖14c所示,模型識別判斷魚群狀態(tài)為攝食行為弱。結束投喂后,魚群結束攝食,四散而去,投喂區(qū)域出現(xiàn)魚群較少,此時采集魚群狀態(tài),如圖14a所示。
本研究所訓練模型雖能較好識別魚類攝食行為狀態(tài),但仍存在誤識別情況。當魚群處于非攝食階段時,系統(tǒng)會將魚群求食行為強狀態(tài)誤識別為攝食行為強狀態(tài),誤識別案例如圖15a所示,誤識別原因為魚群聚集過程中白色魚類顏色和泛起的水花顏色相似,系統(tǒng)會將白色魚類錯誤判斷為水面泛起的白色水花,致使識別錯誤。當魚群處于攝食階段時,系統(tǒng)會將魚群攝食行為弱狀態(tài)誤識別為攝食行為強狀態(tài),誤識別案例如圖15b所示,誤識別原因為魚群飽腹程度不一,在投喂階段后期,多數(shù)魚類攝食完畢,仍有少數(shù)魚類繼續(xù)攝食,部分魚類的激烈攝食導致水面濺起水花,系統(tǒng)誤識別為魚群狀態(tài)為攝食行為強。此外,魚群攝食完畢未及時離開檢測區(qū)域也會被系統(tǒng)誤識別為求食行為強,而此時應為攝食行為弱。
綜上所述,本研究所訓練的模型在識別魚類攝食行為狀態(tài)方面雖有一定的準確性,但由于受到部分魚類顏色與水花相似、魚群飽腹程度差異以及未能及時離開檢測區(qū)域等因素的影響,仍存在明顯的誤識別問題。在未來的研究中,應致力于進一步優(yōu)化模型,以提高其準確性和可靠性。
3 結論
本研究提出一種基于時間動作檢測定位動作標簽的視頻分類算法,分析魚類攝食行為,實現(xiàn)水產(chǎn)養(yǎng)殖中餌料的精準投喂。引入全局圖推理和三維動態(tài)卷積等模塊,在減少模型參數(shù)量和計算量的同時提高了準確率。此外,模型使用深度學習方法對輸入視頻數(shù)據(jù)分類,自動提取特征,識別精度高;引入時間序列信息能夠全面獲取魚類行為信息,加強判斷依據(jù),提高模型準確率。經(jīng)測試研究,該網(wǎng)絡對魚類攝食行為識別的準確率可達96.70%,與同類型網(wǎng)絡ResNet 3D網(wǎng)絡相比,在準確率提高7.7個百分點的同時,參數(shù)量和計算量分別下降96.69%和53.54%。參數(shù)量和計算量的減少使得模型在輕量化部署方面具有明顯優(yōu)勢,為水產(chǎn)養(yǎng)殖中餌料的精準投喂提供可靠參考,具有廣泛的應用場景。
參考文獻:
[1] 莽 琦,徐鋼春,朱 健,等. 中國水產(chǎn)養(yǎng)殖發(fā)展現(xiàn)狀與前景展望[J]. 漁業(yè)現(xiàn)代化,2022,49(2):1-9.
[2] ATOUM Y, SRIVASTAVA S, LIU X M. Automatic feeding control for dense aquaculture fish tanks[J]. IEEE Signal Processing Letters,2014,22(8):1089-1093.
[3] 俞國燕,張宏亮,劉皞春,等. 水產(chǎn)養(yǎng)殖中魚類投喂策略研究綜述[J]. 漁業(yè)現(xiàn)代化,2020,47(1):1-6.
[4] ZHAO S P, DING W M, ZHAO S Q, et al. Adaptive neural fuzzy inference system for feeding decision-making of grass carp (Ctenopharyngodon idellus) in outdoor intensive culturing ponds[J]. Aquaculture, 2019,498:28-36.
[5] 胡金有,王靖杰,張小栓,等. 水產(chǎn)養(yǎng)殖信息化關鍵技術研究現(xiàn)狀與趨勢[J]. 農(nóng)業(yè)機械學報,2015,46(7):251-263.
[6] LI D L, WANG Z H, WU S Y, et al. Automatic recognition methods of fish feeding behavior in aquaculture:a review[J]. Aquaculture,2020,528:735508.
[7] 朱 明,張鎮(zhèn)府,黃 凰,等. 魚類養(yǎng)殖智能投喂方法研究進展[J]. 農(nóng)業(yè)工程學報,2022,38(7):38-47.
[8] 周 超,徐大明,吝 凱,等. 基于近紅外機器視覺的魚類攝食強度評估方法研究[J]. 智慧農(nóng)業(yè),2019,1(1):76-84.
[9] 陳彩文,杜永貴,周 超,等. 基于圖像紋理特征的養(yǎng)殖魚群攝食活動強度評估[J]. 農(nóng)業(yè)工程學報,2017,33(5):232-237.
[10]陳 明,張重陽,馮國富,等. 基于特征加權融合的魚類攝食活動強度評估方法[J]. 農(nóng)業(yè)機械學報,2020,51(2):245-253.
[11]陳志鵬,陳 明. 基于光流法與圖像紋理特征的魚群攝食行為檢測[J]. 南方農(nóng)業(yè)學報,2019,50(5):1141-1148.
[12]劉世晶,涂雪瀅,錢 程,等. 基于幀間光流特征和改進RNN的草魚攝食狀態(tài)分類[J]. 水生生物學報,2022,46(6):914-921.
[13]ZHOU C, XU D M, CHEN L, et al. Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision[J]. Aquaculture,2019,507:457-465.
[14]朱 明,張鎮(zhèn)府,黃 凰,等. 基于輕量級神經(jīng)網(wǎng)絡MobileNetV3-Small的鱸魚攝食狀態(tài)分類[J]. 農(nóng)業(yè)工程學報,2021,37(19):165-172.
[15]錢 陽. 基于圖像動態(tài)獲取的水產(chǎn)養(yǎng)殖智能投餌機控制系統(tǒng)研究[D]. 鎮(zhèn)江:江蘇大學,2017.
[16]LI D W, XU L H, LIU H Y. Detection of uneaten fish food pellets in underwater images for aquaculture[J]. Aquacultural Engineering,2017,78:85-94.
[17]LIU H Y, XU L H, LI D W. Detection and recognition of uneaten fish food pellets in aquaculture using image processing[C]//SPIE. Sixth International Conference on Graphic and Image Processing (ICGIP 2014). Bellingham:SPIE,2015:86-92.
[18]LORENTE S, RIERA I, RANA A. Image classification with classic and deep learning techniques[J]. ArXiv Preprint ArXiv,2021. DOI:10.48550/arXiv.2105.04895.
[19]CHEN L Y, LI S B, BAI Q, et al. Review of image classification algorithms based on convolutional neural networks[J]. Remote Sensing,2021,13(22):4712.
[20]MLY H, AAMODT A, MISIMI E. A spatio-temporal recurrent network for salmon feeding action recognition from underwater videos in aquaculture[J]. Computers and Electronics in Agriculture,2019,167:105087.
[21]張佳林,徐立鴻,劉世晶. 基于水下機器視覺的大西洋鮭攝食行為分類[J]. 農(nóng)業(yè)工程學報,2020,36(13):158-164.
[22]FENG S X, YANG X T, LIU Y, et al. Fish feeding intensity quantification using machine vision and a lightweight 3D ResNet-GloRe network[J]. Aquacultural Engineering,2022,98:102244.
[23]SHOU Z, WANG D, CHANG S F. Temporal action localization in untrimmed videos via multi-stage cnns[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:1049-1058.
[24]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:770-778.
[25]HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu:IEEE,2017:2261-2269.
[26]CHOLLET F. Xception:deep learning with depthwise separable convolutions[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu:IEEE,2017:1251-1258.
[27]CHEN Y P, ROHRBACH M, YAN Z C, et al. Graph-based global reasoning networks[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:433-442.
[28]CHEN Y P, DAI X Y, LIU M C, et al. Dynamic convolution:attention over convolution kernels[C]//IEEE. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach:IEEE,2020:11021-11030.
[29]VERLI , SRENSEN C, NILSSON G E. Behavioral indicators of stress-coping style in rainbow trout:do males and females react differently to novelty?[J]. Physiology amp; Behavior,2006,87(3):506-512.
[30]ZHOU C, XU D M, CHEN L, et al. Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision[J]. Aquaculture,2019,507:457-465.
[31]TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//IEEE. Proceedings of the IEEE International Conference on Computer Vision. Sydney:IEEE,2015:4489-4497.
[32]TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2018:6450-6459.
(責任編輯:王 妮)