張佳林,徐立鴻,劉世晶
基于水下機器視覺的大西洋鮭攝食行為分類
張佳林1,徐立鴻1※,劉世晶2
(1. 同濟大學電子與信息工程學院,上海 201800;2.中國水產科學研究院漁業機械儀器研究所,上海 200092)
根據魚群攝食行為狀態進行水產養殖精準投喂控制,是有效提高餌料利用率降低水體污染的關鍵技術。目前,大多數基于機器視覺的魚類攝食行為研究都是在實驗室對真實養殖環境進行模擬并采用水上攝像機獲取數據,由于光照條件和養殖環境的影響,該數據無法反映大西洋鮭在實際生產狀況下的攝食行為,因此應用范圍有限。為解決此問題,該研究提出一種基于真實工廠化養殖環境的魚類攝食行為分類算法。該算法使用水下觀測方式并采用視頻序列作為樣本,首先利用變分自動編碼器對視頻序列樣本進行逐幀編碼以產生所有幀對應的高斯均值和方差向量,分別聯立所有均值和方差向量得到均值特征矩陣和方差特征矩陣。然后將特征矩陣輸入到卷積神經網絡中,實現對魚群的攝食行為分類。試驗結果表明,在真實的工廠化養殖環境下,該研究所提出的方法綜合準確率達到了89%,與已有的基于單張圖像的魚類攝食行為分類方法相比,綜合準確率提高了14個百分點,召回率提高了15個百分點。研究結果可為基于魚類攝食行為的魚餌精準投喂控制提供參考。
水產養殖;機器視覺;魚群攝食行為;視頻分類;變分自動編碼器
根據世界糧農組織(FAO)統計[1], 全球水產產量在2018年達到了約1.78×108t,其中人工養殖占45.9%,而在某些魚類的養殖過程中,餌料支出約占總成本的40%[2-3],因此合理控制餌料具有重大的意義。就目前的養殖技術而言,餌料投放量一直是一個限制水產養殖經濟收益的重要問題,如果餌料投喂不足養殖魚類的生長速度會放緩,嚴重時甚至會引起肉食性養殖魚類的同類相食,造成經濟損失;若投喂過量則會造成餌料的浪費,增加了養殖的投入產出比,另外過多的剩余餌料會污染水質造成水體的富營養化[4],增加養殖魚類的患病幾率[5-6]。現階段大部分魚類養殖都是依靠養殖人員通過經驗估計魚類攝食需求而設定投餌量,具有很大的不確定性,而且主要依賴養殖人員的經驗。
機器視覺技術因其非侵害、經濟和高效的特點[7-9]使其成為漁業生產過程中的重要研究手段[10-13],而基于機器視覺的魚類攝食行為分類主要有2個方向:1)間接評估方法,通過殘余餌料或者養殖池水面反光間接反映魚類攝食行為;2)直接評估方法,通過直接觀測魚群運動狀態對其攝食行為進行分類。例如,Cao等[13]基于殘余餌料間接研究了魚類攝食強度。Liu等[14]通過計算視頻幀之間的差異提出了CVFAI的魚類攝食行為指數。Zhou等[15]注意到魚類在攝食過程中的聚散現象,基于德勞內三角分割提出了FIFFB的魚類攝食行為指數,該指數與人類專家觀測數據相關性達到了0.945。Zhao等[16]基于魚類量化自發集體性行為提出了實時預測魚類攝食強度的算法。
上述研究在實驗室的模擬環境下都取得了不同程度的進展,且數據采集系統均位于水面上方。在真實的工廠化養殖環境下養殖密度更大、光環境更差、干擾因素更多,當數據采集系統位于水面上方時,所采集到的視頻圖像被水體表面反光效應嚴重影響,無法正確反映魚類攝食行為,而當數據采集系統位于水下時則可以避免該問題,因此本文將數據采集系統設置在循環養殖池水下。另一方面,目前大多數研究都是基于單張圖像的魚類攝食行為研究。單張圖像雖然可以通過魚群的空間分布反映其聚散現象,但是由于無法包含魚群的運動信息,從而無法對高密度的魚群攝食行為進行分類。故本文采用視頻分類技術對魚類攝食行為進行研究。
在視頻分類領域,一些研究人員直接通過3D卷積網絡對視頻分類[17-20]取得了一定進展,但是由于3D卷積核的引入一方面使得網絡參數加倍,另一方面受限制于目前的計算能力,無法直接形成長時間網絡記憶。H?kon M?l?y等[21]通過雙流循環神經網絡(Dual-Stream Recurrent Network, DSRN)實現了對20幀魚類攝食行為的2分類,準確率達到了81.4%。但是由于引入了大量的3D卷積和殘差網絡使得網絡參數眾多,DSRN對更長時間的視頻行為進行分類時,模型的訓練將變得較為困難,不利于工程應用。
針對以上問題,為研究在真實工廠化養殖環境下的魚類攝食行為分類,本文提出一種變分貝葉斯卷積神經分類網絡(Variational Auto Encoder-Convolutional Neural Network, VAE-CNN)的視頻分類方法,它可以通過較少的網絡參數實現視頻的分類。論文通過設計水下視頻采集系統并對所采集數據進行人工標注以構建魚類攝食行為水下視頻數據集。在該數據集下完成了對變分自動編碼器(Variational Auto Encoder, VAE)的訓練,實現了對數據集視頻樣本的編碼。然后利用編碼后的視頻特征訓練卷積神經網絡(Convolutional Neural Network, CNN),實現對視頻樣本的分類。該研究可為全自動的精準投喂控制提供理論支持和技術參考。
為證明本文所提出算法的有效性,以大西洋鮭魚(L.)攝食行為分類為例進行說明,但是作為一種通用的魚類攝食行為分類算法,其他種類的魚類攝食行為也可以通過本文所提出算法進行分類,試驗在東方海洋科技股份有限公司(山東煙臺)進行,數據采集車間為7號車間。7號車間共有6個循環養殖池,養殖池的結構示意圖如圖1所示,底部直徑為8 m,高度為2 m,養殖水深為1.8 m。6個循環養殖池所養殖大西洋鮭均已經過周年養殖。
本研究采集視頻的方案為水下獲取,如圖1所示。沿循環養殖池水底圓周均勻放置4個水下相機(GOPRO HERO7),相機水平放置無仰角,相機距離水底高度為0.5 m。視頻采集幀率為30 Hz,視頻原始尺寸為1 920× 1 080像素。圖像處理語言為Python,神經網絡搭建工具箱由TensorFlow庫提供。為避免對魚類造成驚嚇影響其正常習性,所有設備均進行消毒后由專業養殖人員放置并進行魚類適應性訓練。
試驗車間大西洋鮭平均體質量為2 034.12 g,平均體長為423.00 mm,平均體高為110.23 mm,平均體寬為60.18 mm,放養密度為15 kg/m3,養殖溶解氧濃度為10~12 mg/L,養殖溫度為(15.7±0.4) ℃,每天投喂3次,投喂時間分別為:8:00、12:40和20:00,投喂裝置為軌道式自動投飼機(圖2),投喂餌料為挪威的適可添牌(Skretting)鮭魚顆粒飼料,其主要營養成分為:粗蛋白≥48.0%,粗脂肪≥18.0%,粗纖維≤1.0%,粗灰分≤12.0%。圖2所示的箱型餌料箱在設定的時間將會沿著軌道自動運動到循環養殖池的中央,然后通過下方的餌料盤拋灑出設定量的餌料,每次投喂后暫停1 min等待魚類完成攝食過程后進行下一次投喂。通過現場多次試驗發現,當投餌量被設為魚體質量的1.1%時循環養殖池出現殘餌,說明在該投喂量下為過量投喂,魚類存在拒絕攝食的行為,魚類的攝食欲望判斷基于文獻[22-23]所提出的標準(表1)和工廠養殖專家經驗。在餌料投放同時,開始獲取魚群攝食行為狀態的視頻圖像。

圖2 軌道式自動投飼機

表1 數據集樣本分類標準
大西洋鮭攝食行為分類算法輸入為視頻序列,輸出為魚群的攝食類別。漁業研究相關文獻[22-23]將魚類攝食行為等級分為四類,其標準如表1所示。本文依據該表建立魚群攝食行為類別,其中“弱”和“無”被標注為“未攝食狀態”,而“中”與“強”被標注為“攝食狀態”。
基于大西洋鮭養殖專家經驗以及6個不同循環養殖池獲得的視頻采樣數據分析,魚類攝食行為數據樣本長度被設置為5 s,這樣采集的數據樣本可以反映大西洋鮭的攝食行為特征,并進行數據標注(不同種類的魚的視頻數據樣本長度的設置應該是不同的,這可以通過現場試驗確定,其基本要求是能夠反映魚群的攝食行為特征)。雖然在數據庫中樣本的長度被設置為5 s(150幀),但是在實際控制時,可以通過在線滾動的方式實現對魚類攝食行為進行實時判斷,即數據采集系統獲取5 s數據后輸入到本文所提出算法,即可得到當前魚類攝食行為狀態,當下一個5 s數據采集完成后再次循環。數據集劃分以及樣本數量如表2所示。根據表1的樣本標注準則和養殖專家經驗進行數據標注得到未攝食狀態樣本3 132個,攝食狀態樣本659個,其中80%被劃分為訓練集,10%為驗證集,10%為測試集。

表2 數據集劃分與樣本數量
與目前大多數基于機器視覺的魚類攝食行為研究不同,本文采用視頻分類的方法對魚類攝食行為進行分類。與基于單張圖片的魚類攝食行為分類算法相比,其顯著優點是,基于視頻分類參考了多幀圖像,包含更多的魚類攝食行為運動信息。本文的算法流程如圖3所示。

圖3 算法流程圖
完成大西洋鮭攝食行為視頻數據集構建后,首先對所有的視頻幀圖像進行直方圖線性變換預處理操作,然后通過變分自動編碼器逐幀提取視頻單幀圖像特征,得到所有視頻幀圖像的高斯均值向量和高斯方差向量,將所有的均值向量和方差向量按列組合得到高斯均值特征矩陣和高斯方差特征矩陣,最后將兩個特征矩陣輸入至卷積神經網絡實現對魚類攝食行為的視頻分類。
本文的研究對象是在真實的工廠化養殖環境,該環境光源為人工光源,光照分布極不均勻;另一方面視頻數據采集相機位于水下,水體對光照的吸收使得水下光照不足[24],綜上原因使得數據采集系統得到的圖像數據存在光照不足,細節不清晰等緣故。因此必須進行圖像預處理。
根據數據集視頻特點,本文采用的圖像預處理方案為直方圖線性變換[25],其數學定義如下:

式中v為原始圖像灰度等級,p為預處理后的灰度等級,α為線性變換系數。本文中令α=2,試驗結果如圖4所示。通過對比預處理前后圖像以及灰度直方圖可以看出圖像的亮度得到了提高,圖像細節部分更加豐富。
變分自動編碼器[26-28]是一種基于變分貝葉斯的神經網絡,其結構示意圖如圖5所示。變分自動編碼器通過卷積神經網絡將圖像轉換到先驗分布為標準多元高斯分布的隱藏空間(其中隱藏空間維度為超參數),實現了從圖像到多元高斯隨機概率分布的變換,該變換即為圖5中的編碼器。編碼后的圖像通過逆卷積網絡(解碼器)又可以實現圖像的重建。其數學描述如下

式中為編碼器網絡,為解碼器網絡,為網絡輸入圖,()為隱藏空間多元高斯隨機分布,z為從隨機分布()得到的采樣值,img為解碼器網絡基于z所復原的圖像。
本文利用訓練完成的變分自動編碼器網絡中的編碼部分實現對視頻特征的提取,即視頻中的每一幀f都會通過被映射成為一個多元高斯隨機分布的概率密度函數z,為下一步的魚類攝食行為視頻分類提供特征。

注:ft,zt,分別為t時刻的視頻幀圖像,隱藏空間下的多元高斯分布以及通過解碼器重建的視頻幀圖像。
現階段對變分自動編碼器的研究主要是對生成式模型的研究,即對解碼器的研究。通過解碼器可以生成數據集中不存在但是又十分真實的圖像。而較少有研究關注到編碼器。由于變分自動編碼器的編碼器其本質是卷積神經網絡,所以編碼過程也可以被視為特征提取過程,在隱藏空間下的多元高斯分布概率密度函數的均值和方差向量即為特征向量。
利用變分自動編碼器提取視頻特征步驟描述如下:首先設置變分自動編碼器隱藏空間超參數,參考文獻[28]與多次試驗后本文將其設置為50,然后在數據集下訓練變分自動編碼器,最后將視頻樣本逐幀輸入到編碼器中,將所有輸出的均值向量按列組合得到高斯均值矩陣,將所有輸出的方差向量按列組合得到高斯方差矩陣。由于數據庫中視頻樣本長度為150,所以特征矩陣(高斯均值矩陣、高斯方差矩陣)的列數為150;變分自動編碼器隱藏空間的維度為50,所以特征矩陣的行數為50。將特征矩陣歸一化,通過可視化軟件后得到的結果如圖6所示。

注:t為不同視頻圖像幀所對應時刻。
首先通過變分自動編碼器(VAE)將視頻圖像轉換成為具有兩個通道的特征圖,然后利用卷積神經網絡(CNN)對特征圖分類最終實現對視頻分類,所以本文所提出的方法被稱為變分貝葉斯卷積神經分類網絡(VAE-CNN)。
CNN的局部感受野、權值共享和降采樣3個特點使之成為深度學習中最先成功案例[29-31],特征表達如下

式中P為第層卷積神經網絡輸出的特征圖,為激活函數,為1層卷積神經網絡通過卷積和偏置運算后的輸出值,ω為第層的卷積核,P為第層卷積神經網絡輸出的特征圖,b為第層的偏置項。ω和b為網絡訓練參數。
通過多層網絡特征提取后,將網絡的輸出特征圖輸入到全連接層和分類層對目標實現分類




式中θ-1為待訓練參數迭代更新前,θ為待訓練參數迭代更新后,為學習率,?為偏微分運算符。
將變分自動編碼器得到的視頻特征矩陣作為2個通道的特征圖輸入到卷積神經網絡中,分類類別為:1)魚類處于攝食狀態;2)魚類處于非攝食狀態。其結構示意圖如圖7所示,其中包含3個卷積層,1個全連接層和1個softmax層。

注:cl1代表魚類處于攝食狀態,cl2代表魚類處于非攝食狀態。
本文的視頻分類途徑是先通過變分自動編碼器將視頻序列編碼為高斯均值矩陣和高斯方差矩陣,然后將這2個特征矩陣送入卷積神經網絡實現分類。
本文采用綜合準確率(Accuracy),陽性準確率(Precision),召回率(Recall),特異值(Specificity)4個指標[23]評價算法性能,其定義如下,




式中TP為真陽性(True Positive),即算法輸出類別為陽性與實際類別一致,在本文中即為算法輸出類別為魚類處于攝食狀態,數據集中的標注也為攝食狀態;FP為假陽性(False Positive),即算法輸出類別為陽性與實際類別不一致,在本文中即為算法輸出類別為魚類處于攝食狀態,數據集下的標注為非攝食狀態;TN為真陰性(True Negative),即算法輸出類別為陰性且與實際類別一致,在本文中即為算法輸出類別為魚類處于非攝食狀態,數據集下的標注也為非攝食狀態;FN為假陰性(False Negative),即算法輸出類別為陰性而與實際類別不一致,在論文下即為算法輸出類別為魚類處于非攝食狀態,數據集下的標注為攝食狀態。
圖5所示變分自動編碼器網絡參數設置為:隱藏空間維度50,編碼器包含3個卷積層卷積核尺寸分別為13×13,15×15,3×3,其中最后1層為池化層相關參數為2×3,解碼器逆卷積共3層尺寸均為5×5,并在第1層逆卷積后添加上采樣層,通過驗證集選擇最優的網絡學習率=0.000 1。卷積神經網絡共有3個卷積層對應的卷積核尺寸分別為:11×11,5×5,3×3,分別對應于圖7中的第1層,第2層和第3層,通過驗證集選擇最優的網絡學習率=0.000 05。
如表3所展示的試驗結果所示,本文所提出的方法(VAE-CNN)在測試集下準確率(Accuracy)達到了89%,召回率(Recall)達到了90%。表3中所有算法運行環境均為Win10 Intel?Core(TM) i7-5600U CPU @ 2.5 GHz,運行內存8 GB。

表3 VAE-CNN與其他方法對比結果
注:運行時間是指算法處理單個樣本(5 s視頻或者150幀視頻圖像)所用時間。
Note: Running time refers to the time taken by the algorithm to process a single sample (5 s video clip or 150 frames video image).
為了進一步說明本文方法的有效性,將本文所提出的方法與基于圖像的魚類攝食行為分類算法(CNN)[23]進行對比。將數據集中所有視頻幀轉換為圖片訓練CNN網絡,完成訓練后算法在測試集下表現如表3所示。通過對比可以發現,本文所提出的方法在各項指標下均優于CNN方法,其中召回率提高了15個百分點,說明本文所提出的算法對于魚群攝食行為分類的準確率有較大提高。
為說明VAE-CNN中CNN網絡選取的合理性,將變分自動編碼器所輸出的高斯均值和方差矩陣的直方圖作為特征向量分別輸入至支持向量機[32](Variational Auto Encoder-Support Vector Machine, VAE-SVM)和BP神經網絡[33](Variational Auto Encoder- Backpropagation, VAE-BP)進行分類,其中支持向量機通過LIBSVM工具庫[34]完成,BP網絡通過MATLAB神經網絡工具箱完成。試驗結果如表3所示,通過對比可以發現VAE-CNN網絡的分類結果優于其他兩類方法,說明了第二部分網絡選擇的合理性。
對表3結果進行分析,造成分類結果表現差異的原因如下:
1)視頻序列可以涵蓋完整的魚類攝食行為狀態,而且可以提供魚群在不同時刻的運動速度以及方向信息,所以基于視頻的魚類攝食行為分類(VAE-CNN、VAE-SVM、VAE-BP)的綜合準確率均高于基于圖像的方法(CNN)。
2)CNN方法基于單張圖像進行分類,其分類依據在于攝食狀態和非攝食狀態的魚群在空間上的分布位置和密度不同,但是在真實的工廠化養殖環境下魚群養殖密度大,在攝食狀態的前期魚群的聚集和非聚集的圖像差異較小,所以該方法很難實現對非攝食狀態的準確判斷,最終導致特異值(Specificity)較低。
3)弱攝食狀態下的視頻樣本與非攝食狀態的視頻樣本差異較小,該部分數據樣本容易受到誤判,但是在強攝食狀態的魚類攝食行為視頻中,魚群運動劇烈特征明顯難以被誤判為未攝食狀態,因此本文所提出的VAE-CNN方法的召回率(Recall)準確率最高。
4)對比VAE-CNN與VAE-SVM、VAE-BP試驗結果表明,在該數據集下經過變分自動編碼器編碼后的特征更適合采用卷積神經網絡分類。其原因主要在于,視頻樣本被VAE編碼為高斯均值和方差矩陣,矩陣每1列對應1幀視頻圖像,VAE-SVM、VAE-BP兩種方法都是將這2個矩陣的直方圖作為輸入特征進行分類,這種做法無法提取到不同視頻幀之間的相關關系,而VAE-CNN方法是直接對這2個矩陣進行卷積操作,當卷積核在矩陣不同列之間滑動進行卷積操作時,更有利于對視頻前后幀的時空特征提取,所以VAE-CNN方法取得了更好的試驗結果。
5)對比不同算法的運行時間可以發現,VAE-CNN、VAE-SVM和VAE-BP運行時間十分接近,這是因為這3個算法的第1階段完全相同且耗時較長。在第1階段的VAE需要對視頻樣本的150幀圖像進行編碼操作,完成編碼后的分類任務只需要經過1次CNN、SVM或BP神經網絡運算,而它們運算耗時與第一階段相比都較短,總的來說VAE-CNN算法耗時略高于VAE-SVM和VAE-BP。與直接采用圖像判斷魚類攝食行為的CNN算法相比,由于該算法是對單張圖像分類,所以5 s的視頻樣本需要進行150次運算,為提取圖像的紋理特征該網絡的結構設置與VAE-CNN中的卷積神經網絡相比更為復雜,所以其耗時更長。
在魚餌投喂控制的實際運用中,可以根據本文提出的分類算法,對獲得的工廠化養殖環境中的大量的魚群攝食行為的視頻數據樣本進行離線訓練,得到魚群攝食行為的二類分類器,將此分類器(算法軟件模塊)事先置于投喂自動控制系統中,將實時獲得的魚群攝食行為的視頻數據樣本輸入分類器,實時給出(輸出)分類結果,控制系統依據此分類結果得到“投喂”或“不投喂”的控制決策,實施對餌料投喂設備的控制動作。
本文提出基于視頻分類的魚類攝食行為分類算法,在真實的工廠化養殖環境下取得了較好的分類效果,為魚餌精準投喂控制提供了一種可能的方法。
1)利用在真實的工廠化養殖環境下所構建的水下視頻數據集訓練了VAE-CNN網絡,最終在測試集上的準確率(Accuracy)達到了89%。
2)基于所構建數據集訓練變分自動編碼器,實現了對視頻的特征提取,有效利用了魚類攝食行為的時空特征,為基于視頻分析的魚類攝食行為研究提供了合理的表征方法。
3)研究了不同方法對VAE所編碼特征的分類,并通過試驗方法說明了第二階段CNN選擇的合理性。
4)算法采用視頻圖像數據樣本,而非單張圖像,能夠較充分地獲得魚群的攝食行為運動信息,從而得到較準確的分類結果和基于分類的精準投喂控制策略。與其他的基于視頻的魚類攝食行為分類算法相比,本文提出的算法網絡結構相對簡單,可對較長時間的魚類攝食行為模式進行分類,具有更廣泛的應用前景。
但是由于條件限制,本文所提出方法僅在大西洋鮭養殖環境下進行了測試與數據集構建,在下一步工作中計劃對不同種類的養殖魚類進行測試。在算法方面,本文所提出的算法雖然實現了對魚群攝食行為的初步分類,未來研究中將該二分類算法擴展為多分類算法,這將是十分有意義的工作。
[1] Manuel Barange. The State of World Fisheries and Aquaculture 2020-Meeting the Sustainable Development Goals[R]. Rome: Food and Agriculture Organization of the United Nations, 2018.
[2] Atoum Y, Srivastava S, Liu X. Automatic feeding control for dense aquaculture fish tanks[J]. IEEE Signal Processing Letters, 2015, 22(8): 1089-1093.
[3] Chang C M, Fang W, Jao R C, et al. Development of an intelligent feeding controller for indoor intensive culturing of eel[J]. Aquacultural Engineering, 2005, 32(2): 343-353.
[4] Barraza-Guardado R H, Martínez-Córdova L R, Enríquez-Oca?a L F, et al. Effect of shrimp farm effluent on water and sediment quality parameters off the coast of Sonora, Mexico[J]. Ciencias Marinas, 2014, 40(4): 221-235.
[5] Zhao S, Ding W, Zhao S, et al. Adaptive neural fuzzy inference system for feeding decision-making of grass carp (Ctenopharyngodon idellus) in outdoor intensive culturing ponds[J]. Aquaculture, 2019, 498: 28-36.
[6] Xu J, Liu Y, Cui S, et al. Behavioral responses of tilapia () to acute fluctuations in dissolved oxygen levels as monitored by computer vision[J]. Aquacultural Engineering, 2006, 35(3): 207-217.
[7] Wishkerman A, Boglino A, Darias M J, et al. Image analysis-based classification of pigmentation patterns in fish: A case study of pseudo-albinism in Senegalese sole[J]. Aquaculture, 2016, 464: 303-308.
[8] 周超,徐大明,吝凱,等. 基于近紅外機器視覺的魚類攝食強度評估方法研究[J]. 智慧農業,2019,1(1):76-84.
Zhou Chao, Xu Daming, Lin Kai, et al. Evaluation of fish feeding activity in aquaculture based on near infrared machine vision[J]. Smart Agriculture, 2019, 1(1): 76-84. (in Chinese with English abstract)
[9] 王文靜,徐建瑜,呂志敏,等. 基于機器視覺的水下鲆鰈魚類質量估計[J]. 農業工程學報,2012,28(16):153-157.
Wang Wenjing, Xu Jianyu, Lü Zhimin, et al. Weight estimation of underwater Cynoglossus semilaevis based on machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(16): 153-157. (in Chinese with English abstract)
[10] 李賢,范良忠,劉子毅,等. 基于計算機視覺的大菱鲆對背景色選擇習性研究[J]. 農業工程學報,2012,28(10):189-193.
Li Xian, Fan Liangzhong, Liu Ziyi, et al. Preference habit of juvenile turbot for different color bakgrounds based on the computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(10): 189-193. (in Chinese with English abstract)
[11] 張志強,牛智有,趙思明. 基于機器視覺技術的淡水魚品種識別[J]. 農業工程學報,2011,27(11):388-392.
Zhang Zhiqiang, Niu Zhiyou, Zhao Siming, et al. Identification of freshwater fish species based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(11): 388-392. (in Chinese with English abstract)
[12] 范良忠,劉鷹,余心杰,等. 基于計算機視覺技術的運動魚檢測算法[J]. 農業工程學報,2011,27(7):226-230.
Fan Liangzhong, Liu Ying, Yu Xinjie, et al. Fish motion detecting algorithms based on computer vision technologies[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(7): 226-230. (in Chinese with English abstract)
[13] Cao J, Xu L. Research on counting algorithm of residual feeds in aquaculture based on machine vision[C]// IEEE 3rd International Conference on Image, Vision and Computing (ICIVC). IEEE, 2018.
[14] Liu Z, Li X, Fan L, et al. Measuring feeding activity of fish in RAS using computer vision. Aquacultural engineering[J]. 2014, 60: 20-27.
[15] Zhou C, Zhang B, Lin K, et al. Near-infrared imaging to quantify the feeding behavior of fish in aquaculture[J]. Computers and Electronics in Agriculture, 2017, 135: 233-241.
[16] Zhao J, Bao W J, Zhang F D, et al. Assessing appetite of the swimming fish based on spontaneous collective behaviors in a recirculating aquaculture system[J]. Aquacultural Engineering, 2017, 78: 196-204.
[17] Molchanov P, Gupta S, Kim K, et al. Hand gesture recognition with 3D convolutional neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2015.
[18] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// IEEE International Conference on Computer Vision (ICCV). IEEE, 2015.
[19] Huang J, You S. Point cloud labeling using 3D convolutional neural network[C]// International Conference on Pattern Recognition. IEEE, 2016.
[20] Maturana D, Scherer S. 3D convolutional neural networks for landing zone detection from LiDAR[C]// IEEE International Conference on Robotics and Automation (ICRA), IEEE 2015.
[21] H?kon M?l?y, Aamodt A, Misimi E. A spatio-temporal recurrent network for salmon feeding action recognition from underwater videos in aquaculture[J]. Computers and Electronics in Agriculture, 2019, 167:1-9.
[22] ?verli ?, S?rensen C, Nilsson G E. Behavioral indicators of stress-coping style in rainbow trout: do males and females react differently to novelty?[J]. Physiology & Behavior, 2006, 87(3): 506-512.
[23] Zhou C, Xu D, Chen L, et al. Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision[J]. Aquaculture, 2019, 507: 457-465.
[24] Ancuti C, Ancuti C O, Haber T, et al. Enhancing underwater images and videos by fusion[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE, 2012.
[25] Sonka M, Václav H, Boyle R. 圖像處理、分析與機器視覺(第四版)[M]. 北京:清華大學出版社, 2016:86-97.
[26] Danilo J R, Shakir M, Daan W. Stochastic backpropagation and approximate inference in deep generative models[C]// Proceedings of the 31st International Conference on Machine Learning, PMLR 2014.
[27] Burda Y, Grosse R, Salakhutdinov R. Importance weighted autoencoders[J/OL]. arXiv, 2015.[2020-03-16] arXiv: 1509.00519v4. https://arxiv.org/abs/1509.00519v4
[28] Doersch C. Tutorial on variational autoencoders[J/OL]. arXiv, 2016.[2020-03-16] arXiv:1606.05908v2. https://arxiv.org/abs/1606.05908v2
[29] 李彥冬,郝宗波,雷航. 卷積神經網絡研究綜述[J]. 計算機應用,2016,36(9):2508-2515.
Li Yangdong, Hao Zhongbo, Lei Hang. Survey of convolutional neural network. Journal of Computer Applications[J], 2016, 36(9): 2508-2515. (in Chinese with English abstract)
[30] 楊斌,鐘金英. 卷積神經網絡的研究進展綜述[J]. 南華大學學報:自然科學版,2016,30(3):66-72.
Yang Bin, Zhong Jinying. Review of convolution neural network[J]. Journal of University of South China( Science and Technology), 2016, 30(3):66-72. (in Chinese with English abstract)
[31] 盧宏濤,張秦川. 深度卷積神經網絡在計算機視覺中的應用研究綜述[J]. 數據采集與處理,2016,31(1):1-17.
Lu Hongtao, Zhang Qinchuan. Applications of deep convolutional neural network in computer vision[J]. Journal of Data Acquisition and Processing. 2016, 31(1): 1-17 (in Chinese with English abstract)
[32] Osuna E, Freund R, Girosit F. Training support vector machines: an application to face detection[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 1997: 130-136.
[33] Hecht-Nielsen. Theory of the backpropagation neural network[C]// International 1989 Joint Conference on Neural Networks. IEEE, 2002.
[34] Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27.
Classification of Atlantic salmon feeding behavior based on underwater machine vision
Zhang Jialin1, Xu Lihong1※, Liu Shijing2
(1.201800,;2.200092)
Fish feeding behavior can provide effective decision-making information for accurate feeding in aquaculture. Most previous studies were usually conducted in a laboratory environment to understanding fish feeding behavior. The limited application cannot reveal the actual production status of fish due to the influence of light conditions and farming environment in practice. Particularly, the cameras placed over the water surface cannot work well in most methods, due to serious light reflection resulted from the complex illumination conditions. For instance, the light reflection is so serious that many fishes are blocked out. In this study, an attempt was made to introduce an underwater video dataset for the feeding behavior of Atlantic salmon. In the dataset, the video clips were captured from an industrial recirculating aquaculture system. Each sample that labeled as eating or noneating was a 5-second clip with the frame rate of 30 Hz. A total of 3 791 samples were marked in the dataset, where 3 132 samples were marked as noneating and 659 samples eating. A novel video classification method based on Variational Auto-Encoder and Convolutional Neural Network (VAE-CNN) was proposed to identify the fish-feeding behavior from the video clip. Two steps were as followed. In the first step, a Variational Auto-Encoder (VAE) model was trained to extract the spatial feature of video frames. All video frames were encoded as a multivariate Gaussian probability distribution function in a latent space, indicating that represented by a Gaussian mean vector and a Gaussian variance vector. Specifically, the frames in a video clip were input into a trained VAE encoder to produce Gaussian mean vectors and Gaussian variance vectors, then to combine them in column order separately, finally to obtain the Gaussian mean feature matrix and Gaussian variance feature matrix of the video. In this step, the video clip of fish feeding behavior was coded as a feature map with two channels for the subsequent classification. In the second step, the fish feeding behavior was classified by inputting the feature matrix into the CNN. The VAE output features were input to train the CNN, while the spatio-temporal features in fish feeding behavior videos were extracted for the final classification. To verify the CNN, the VAE output features were also input into the backpropagation neural network (VAE-BP) and support vector machine (VAE-SVM) to classify the feeding behavior of fish. The results showed that VAE-CNN performed better. The main reason is that the CNN with a local receptive field function can allow it to better learn the spatio-temporal features in fish feeding behavior videos, while the other two methods only consider the output features of VAE as a common feature map. In real factory farming, the accuracy of the proposed method reached 89%, the recall reached 90%, and the specificity reached 87%. Compared with the single-image classification method, VAE-CNN recall increased by 15percentage points, and other performance indexes of video classification method improved significantly. In terms of running time, the proposed algorithm only needed 4.15 s to process 5 s (150 frames) for the video of fish feeding behavior. This novel method can build a solid foundation for the future system with feedback control based on the fish feeding behavior.
aquaculture; machine vision; fish feeding behavior; video classification; Variational Auto-Encoder
張佳林,徐立鴻,劉世晶. 基于水下機器視覺的大西洋鮭攝食行為分類[J]. 農業工程學報,2020,36(13):158-164.doi:10.11975/j.issn.1002-6819.2020.13.019 http://www.tcsae.org
Zhang Jialin, Xu Lihong, Liu Shijing. Classification of Atlantic salmon feeding behavior based on underwater machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(13): 158-164. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.13.019 http://www.tcsae.org
2020-04-20
2020-06-14
國家重點研發計劃(2017YFD0701700)
張佳林,研究方向為機器視覺與視頻分類。Email:jialinzhang@tongji.edu.cn
徐立鴻,教授,博士生導師,研究方向為溫室環境建模與控制、預測控制和智能控制。Email:xulihong@tongji.edu.cn
10.11975/j.issn.1002-6819.2020.13.019
S951.2
A
1002-6819(2020)-13-0158-07