李 凱 江興龍 許志揚 林 茜
基于雙流殘差卷積神經(jīng)網(wǎng)絡的養(yǎng)殖鰻鱺()攝食強度評估研究*
李 凱1, 2江興龍1, 2①許志揚1, 2林 茜1, 2
(1. 集美大學水產(chǎn)學院 福建廈門 361021; 2. 鰻鱺現(xiàn)代產(chǎn)業(yè)技術(shù)教育部工程研究中心 福建廈門 361021)
為實現(xiàn)對養(yǎng)殖鰻鱺()攝食強度的準確評估, 提出了一種基于雙流殘差卷積神經(jīng)網(wǎng)絡的鰻鱺攝食強度評估方法, 該方法針對傳統(tǒng)雙流網(wǎng)絡(Two-stream)中存在的問題做出了相應的改進。首先針對傳統(tǒng)雙流網(wǎng)絡存在網(wǎng)絡結(jié)構(gòu)較淺, 無法提取到充分的鰻鱺攝食行為特征的問題, 選擇使用ResNet50網(wǎng)絡進行替換, 以提取到更具代表性的特征。其次針對傳統(tǒng)雙流網(wǎng)絡最后的分類結(jié)果是把空間流和時間流的得分取平均值融合而獲得, 這種方式較為簡單, 且其空間流和時間流網(wǎng)絡為獨立進行訓練, 容易導致網(wǎng)絡出現(xiàn)學習不到鰻鱺攝食行為的時空關(guān)聯(lián)特征的問題, 選擇使用特征層融合方式對空間流和時間流網(wǎng)絡提取獲得的特征進行融合, 讓網(wǎng)絡能夠并行進行訓練, 以提取到時空信息間的關(guān)聯(lián)特征。試驗結(jié)果表明: 文內(nèi)提出的基于雙流殘差卷積神經(jīng)網(wǎng)絡的鰻鱺攝食強度評估方法準確率達到98.6%, 與單通道的空間流和時間流網(wǎng)絡相比, 準確率分別提升了5.8%和8.5%, 與傳統(tǒng)的雙流網(wǎng)絡相比準確率也提升了3.2%。
鰻鱺; 攝食強度; 雙流殘差卷積神經(jīng)網(wǎng)絡; ResNet50; 并行訓練; 特征層融合
目前, 我國的魚類養(yǎng)殖過程中餌料的投喂方式主要有兩種, 一種是人工投喂方式, 主要依靠養(yǎng)殖人員自身的養(yǎng)殖經(jīng)驗來控制投喂量, 對養(yǎng)殖人員的養(yǎng)殖經(jīng)驗有很高的要求, 如果是大規(guī)模的養(yǎng)殖基地就會耗費大量的人力成本, 大大降低了養(yǎng)殖效益; 另外一種是機械投喂方式, 它的缺點是忽略了魚類攝食狀態(tài)的變化情況, 不能根據(jù)魚類的食欲自動調(diào)整投喂量, 容易導致投喂不當?shù)那闆r出現(xiàn), 從而影響?zhàn)B殖魚類的健康生長, 降低養(yǎng)殖效益(周應祺等, 2013; 穆春華等, 2015)。而鰻鱺()作為我國經(jīng)濟價值較高的優(yōu)質(zhì)水產(chǎn)養(yǎng)殖種類, 在其養(yǎng)殖過程中, 準確檢測出鰻鱺的實際攝食狀況有助于科學地投喂飼料, 對實現(xiàn)鰻鱺精準高效養(yǎng)殖有重要意義。
機器視覺技術(shù)作為一種非入侵式、經(jīng)濟且高效的方法, 已經(jīng)成為檢測和評估魚群攝食狀態(tài)的重要研究手段(張志強等, 2011; 范良忠等, 2011; 李賢等, 2012; Wishkerman, 2016)。喬峰等(2015)通過對采集的魚群攝食圖像進行濾波、增強、二值化等圖像處理操作, 提取出魚群位置、大小以及聚集程度等攝食行為特征, 然后將這些特征輸入實時決策的餌料投喂系統(tǒng), 結(jié)合魚群實時的攝食狀態(tài)進行投喂, 但易受室外光線和水面反光等因素的影響, 導致系統(tǒng)決策失誤。趙建等(2016)提出了一種改進的動能模型來分析魚群的攝食活動, 通過色彩空間轉(zhuǎn)換的方法分割出水面的反光區(qū)域, 結(jié)合光流法和信息熵量化水面反光區(qū)域的動能信息, 獲得了較好的試驗結(jié)果, 但是該方法對光照條件要求較高, 在實際養(yǎng)殖環(huán)境中難以應用。Sadoul等(2014)提出了一種通過拍攝的視頻來量化循環(huán)水養(yǎng)殖條件下魚群行為的方法, 即通過魚群分散度和魚群游動活躍度兩個指標來量化魚群行為, 試驗發(fā)現(xiàn)魚群在攝食時, 其分散度指標明顯減小, 游動活躍度指標明顯增大, 這為檢測魚群的攝食狀態(tài)提供了一種新方法, 但是該試驗中魚群的數(shù)量較少。陳彩文等(2017)首先通過背景減法分割出目標魚群, 接著使用灰度共生矩陣算法對魚群攝食圖像進行處理, 以提取出圖像的紋理特征, 最后利用這一特征實現(xiàn)了對魚群攝食狀態(tài)的實時檢測, 但是該方法僅僅只利用了圖像的紋理特征, 較為簡單, 難以在環(huán)境條件復雜的生產(chǎn)環(huán)境中使用。Liu等(2014)使用改進后的幀間差分法來分析魚群攝食視頻, 將得到的魚群分散度、相互作用力以及水流場變化幅度這三個魚群行為特征綜合起來, 實現(xiàn)了對魚群攝食狀態(tài)的實時評估, 但是該方法要求魚群和養(yǎng)殖環(huán)境之間存在明顯色差, 并且檢測精度易受水面反光和水花的影響。胡利永等(2015)通過圖像濾波、邊緣檢測以及閾值分割等一系列圖像處理技術(shù)提取出魚群攝食圖像的面積特征和水花特征, 量化了魚群的攝食行為, 以此來控制餌料投喂, 但是該方法需要較好的光照條件, 還易受水面波動和反光的影響, 有較大的局限性。
目前, 深度學習技術(shù)在魚類檢測方面也得到了應用(Rauf, 2019; Li, 2020; Zhang, 2020), 其中就有研究學者將其用于檢測和識別魚類的攝食狀態(tài)。劉楊(2021)利用改進后的YOLOV4 (Bochkovskiy, 2020)模型對水下殘餌進行檢測識別, 間接地研究了魚類的攝食行為, 結(jié)果表明模型的檢測準確率遠高于傳統(tǒng)的機器學習方法, 證明了深度學習方法的實用性和優(yōu)越性。Zhou等(2019)通過分類模型LeNet對魚類攝食強度進行了分類, 分為無、弱、中等和強四類, 該模型的分類準確率達到90%。M?l?y等(2019)使用雙流遞歸卷積神經(jīng)網(wǎng)絡對水下魚類攝食行為進行了識別, 該網(wǎng)絡將魚類游動過程的空間圖像信息和時間序列的運動信息結(jié)合起來, 使得網(wǎng)絡有更強的魯棒性(Robust), 從而能更準確地區(qū)分水下魚類的攝食狀態(tài)和非攝食狀態(tài)。深度學習模型的網(wǎng)絡結(jié)構(gòu)更深, 并且它所提取的特征是神經(jīng)網(wǎng)絡經(jīng)過大量的學習得到, 能夠挖掘出隱藏在圖像中的高層語義信息, 所以不易受到養(yǎng)殖魚類的大小、種類以及養(yǎng)殖環(huán)境中的光照不均勻等因素的影響, 相較于傳統(tǒng)的機器視覺方法有更強的魯棒性。綜上, 針對傳統(tǒng)雙流網(wǎng)絡(Two-stream)中存在的問題, 本研究提出一種基于殘差結(jié)構(gòu)的雙流卷積神經(jīng)網(wǎng)絡, 實現(xiàn)了對鰻鱺攝食強度的準確評估。
試驗數(shù)據(jù)采集于福建省三明市清流縣和南平市延平區(qū)的工廠化鰻鱺養(yǎng)殖基地及廣東省臺山市的土池鰻鱺養(yǎng)殖基地。鰻鱺養(yǎng)殖過程中餌料投喂都是定時定點進行的, 即到了喂食時間養(yǎng)殖池中的鰻鱺會基于條件反射習慣性地聚集于餌料臺進行攝食。因此本研究的圖像采集系統(tǒng)如圖1所示, 選擇將相機安裝于養(yǎng)殖池中餌料臺的正上方, 由于工廠化養(yǎng)殖基地的養(yǎng)殖池位于室內(nèi), 光線條件較差, 且鰻鱺對于紅外光線不敏感, 所以試驗相機采用近紅外工業(yè)相機(MER- 232-48NIR), 并同時使用兩個紅外燈進行補光。此外, 由于土池養(yǎng)殖基地的養(yǎng)殖池位于室外, 光線條件較好, 因此只需使用普通監(jiān)控相機(海康威視)即可。試驗相機均通過一根長4 m的千兆雙絞線與計算機相連, 其中近紅外工業(yè)相機采集的是黑白視頻, 普通相機采集的為彩色視頻, 視頻采集幀率均為24幀/s。

圖1 圖像采集系統(tǒng)
試驗首先從13口鰻鱺養(yǎng)殖池中采集了多個鰻鱺攝食視頻, 然后將這些視頻進行分解, 分解方式為每秒截取一幀圖像, 并且使用Farneback稠密光流算法(Farneb?ck, 2003)提取對應的鰻鱺攝食行為的光流圖像。參考?verli等(2006)制定的魚類攝食強度分類規(guī)則, 并通過作者長期的觀察后, 發(fā)現(xiàn)不同攝食狀態(tài)下的鰻鱺攝食行為有較大的變化, 綜上本研究將鰻鱺的攝食強度分為強、較強、正常、較弱和弱這5個等級, 其具體的區(qū)分規(guī)則如表1所示。
試驗共選擇了2 000張圖像作為本研究的鰻鱺攝食強度數(shù)據(jù)集, 其中1 000張圖像為工廠化養(yǎng)殖池中采集的, 每種攝食強度包含空間位置圖及其對應的光流能量圖各200張, 示例如圖2所示, 需要說明的是為了避免無關(guān)區(qū)域?qū)D像檢測的影響, 選擇將圖中除餌料臺之外的區(qū)域做置黑處理; 另1 000張圖像為池塘養(yǎng)殖池中采集的, 同樣每種攝食強度包含空間位置圖及其對應的光流能量圖各200張, 示例如圖3所示。在制作訓練集和測試集之前, 使用自編寫的shuffle_data程序?qū)⒃瓟?shù)據(jù)集中的各類圖像打亂, 然后劃分訓練集和測試集, 劃分比例為7︰3。
表1 鰻鱺的攝食強度區(qū)分標準

Tab.1 Criteria for distinguishing the eel feeding intensity
視頻信息相較于二維的靜態(tài)圖像而言多了時間維度這一概念, 因此要對視頻中物體的行為進行分析就需要融合物體的空間流和時間流信息。隨著卷積神經(jīng)網(wǎng)絡的不斷發(fā)展, 研究學者們通過模仿人腦視覺系統(tǒng)的雙通路結(jié)構(gòu)設計了雙流卷積神經(jīng)網(wǎng)絡(Simonyan, 2014), 其具體的網(wǎng)絡結(jié)構(gòu)如圖4所示。該網(wǎng)絡由空間流和時間流這兩部分神經(jīng)網(wǎng)絡構(gòu)成。其中空間流網(wǎng)絡將視頻中的單幀圖像作為輸入, 用于提取圖像中的空間位置特征; 而時間流網(wǎng)絡則將視頻中相鄰幀間計算得到的光流圖像當作輸入, 用于提取出視頻幀序列中的運動特征。在雙流網(wǎng)絡的最后利用平均值融合法將兩個流的分類結(jié)果進行融合, 將融合后的分數(shù)作為網(wǎng)絡的最終分類結(jié)果。

圖2 工廠化養(yǎng)殖池中采集圖像
注: a. 空間位置圖; b. 光流能量圖

圖3 土池養(yǎng)殖池中采集圖像
注: a. 空間位置圖; b. 光流能量圖

圖4 雙流卷積神經(jīng)網(wǎng)絡具體結(jié)構(gòu)
2.1.1 空間流網(wǎng)絡 空間流網(wǎng)絡以視頻中的單幀圖像作為網(wǎng)絡的輸入, 它通過提取靜態(tài)幀圖像的特征來識別視頻中物體的信息。那么對于本研究的鰻鱺攝食強度評估任務而言, 空間流網(wǎng)絡可以通過提取單幀鰻鱺攝食圖像中攝食魚群的形狀、大小以及空間位置等特征來評估視頻中鰻鱺的攝食強度。因為鰻鱺攝食行為是一個過程, 所以理論上來說攝食視頻中的每一幀攝食圖像都能作為空間流網(wǎng)絡的輸入, 但是為了使網(wǎng)絡能夠更好提取出鰻鱺攝食時的特征, 在選取攝食圖像幀時選擇圖像較為清晰的那一幀作為網(wǎng)絡的輸入。空間流網(wǎng)絡使用的是VGG-16網(wǎng)絡(Simonyan, 2015)。
2.1.2 時間流網(wǎng)絡 時間流網(wǎng)絡的與空間流網(wǎng)絡的結(jié)構(gòu)一致, 都是使用VGG-16作為特征提取網(wǎng)絡, 不同之處在于時間流網(wǎng)絡將視頻中相鄰幀之間計算得到的光流圖像當作輸入。光流圖像能有效地描述鰻鱺攝食過程中的運動趨勢和速度等運動信息, 有助于提升鰻鱺攝食強度的評估準確率。
光流法是視頻運動目標識別領(lǐng)域中常用的算法, 包括稀疏光流法和稠密光流法這兩類。其中稠密光流法能對視頻幀圖像中的所有像素點進行計算, 得到的光流位移場也包含了所有運動位移向量, 所以這類方法不但計算精度高, 而且所呈現(xiàn)出的光流圖像效果也好。因此本研究使用Farneback稠密光流算法提取鰻鱺攝食行為的光流圖像, 下面將對Farneback光流算法做詳細介紹。
Farneback光流算法通過估計連續(xù)兩幀圖像間的全局位移的方式解決了圖像中存在灰度值快速變化的問題, 所以該方法不要求視頻中場景空間一定靜止的, 十分適用于提取物體大尺度運動產(chǎn)生的光流信息。其主要原理在于利用一個擴展多項式近似表示每個像素點的鄰域值, 如式(1)所示:

式中,()為像素點的鄰域值,表示矩陣的轉(zhuǎn)置,為對稱矩陣,為向量,為標量。假如前一幀圖像表示為

那么下一幀圖像在全局位移后變?yōu)?/p>

利用相鄰幀間亮度值恒定不變原理, 使得f()和f()對應項系數(shù)相等, 得到以下等式:

若式中A為非奇異矩陣, 則可解出全局位移量:

在計算得到稠密光流場之后, 通過使用孟賽爾顏色系統(tǒng)對其進行上色, 可將光流場可視化為光流圖像。
2.2.1 殘差網(wǎng)絡 通常情況下, 增加網(wǎng)絡的深度可以使網(wǎng)絡提取到更高級的圖像特征, 進而有效提升網(wǎng)絡的性能。然而, 如果只是通過簡單地堆疊網(wǎng)絡層的方式來加深網(wǎng)絡的深度, 不但起不到作用, 反而會使網(wǎng)絡的性能退化。研究發(fā)現(xiàn), 增加卷積神經(jīng)網(wǎng)絡的深度之后, 容易在網(wǎng)絡反向傳播過程中引起梯度消失和爆炸等問題, 導致訓練網(wǎng)絡無法收斂, 網(wǎng)絡中的權(quán)重參數(shù)得不到優(yōu)化, 并最終影響網(wǎng)絡的性能。
為了消除加深網(wǎng)絡深度對網(wǎng)絡性能造成的影響, He等(2016)提出了殘差神經(jīng)網(wǎng)絡, 主要原理是將深層網(wǎng)絡中的多個網(wǎng)絡層擬合為一個非線性殘差映射, 通過引入多個這樣的結(jié)構(gòu)以進行整體映射關(guān)系的擬合。假設非線性網(wǎng)絡層的輸入為, 期望要獲得的實際映射函數(shù)為(), 而需要逼近的殘差函數(shù)為(), 則整體映射關(guān)系表達式如式(6)所示:
() =() –. (6)
在實際的殘差網(wǎng)絡中引入了恒等映射的概念, 具體來說就是通過一種跳躍連接的方式, 直接跳過兩層或多層, 將每個網(wǎng)絡層輸入和輸出連接在一起, 這意味著每層網(wǎng)絡的輸出不再是像以前的神經(jīng)網(wǎng)絡一樣是輸入的映射, 而是代表輸入與映射的相加。殘差結(jié)構(gòu)如圖5所示。

圖5 殘差結(jié)構(gòu)示意圖
實際映射關(guān)系如式(7)所示,(,{W})表示殘差映射函數(shù), 如式(8)所示。
() =(, {W}) +, (7)
(, {W}) =2·(1), (8)
式中,為激活函數(shù)Relu,1和2分別表示兩個卷積層(如圖5所示的一個兩層的殘差結(jié)構(gòu), 即包含兩個卷積層)的權(quán)重參數(shù)。此外, 式(6)中的與輸入的維度必須相同,+表示通過跳躍連接將與中的所有像素點進行逐行元素相加。如果出現(xiàn)與維度不相同的情況, 則必須對跳躍連接處進行線性投影s, 其操作如式(9)所示。
() =(, {W}) +s. (9)
在本研究的試驗中, 將使用網(wǎng)絡結(jié)構(gòu)較深的殘差神經(jīng)網(wǎng)絡ResNet50來替換原Two-stream網(wǎng)絡中的VGG-16網(wǎng)絡。ResNet50的網(wǎng)絡結(jié)構(gòu)如表2所示。
表2 ResNet50網(wǎng)絡結(jié)構(gòu)

Tab.2 The ResNet50 network structure
在ResNet50網(wǎng)絡中, 包含了49層卷積層, 以及最后分類的1層全連接層。從表2中可以看出, ResNet50的卷積層可分為5個卷積模塊, 即卷積層1至卷積層5。其中卷積層1只包含一個7×7的卷積層, 在其之后又連接了一個最大池化層; 而后四個卷積層由多個殘差結(jié)構(gòu)堆疊而成, 每個殘差結(jié)構(gòu)由三層卷積層組成, 卷積核大小分別為1×1、3×3以及1×1, 卷積層2至卷積層5包含的殘差結(jié)構(gòu)數(shù)量分別3個、4個、6個以及3個, 各卷積層輸出的特征圖維度分別為256維、512維、1 024維以及2 048維。在卷積層5后面連接了一個平均池化層, 能夠加強特征映射和分類類別的一致性, 最后就是分類的全連接層, 其包含的神經(jīng)元數(shù)量與所需分類的類別數(shù)一致, 一般為1 000個, 而在本研究中為5個。
2.2.2 雙流殘差網(wǎng)絡模型設計 在2.1節(jié)的內(nèi)容中介紹了雙流卷積神經(jīng)網(wǎng)絡, 該網(wǎng)絡能夠融合鰻鱺攝食行為的空間流信息和時間流信息。其中空間流網(wǎng)絡以視頻中的單幀鰻鱺攝食圖像作為輸入, 用于提取圖像中攝食鰻鱺的空間分布特征; 時間流網(wǎng)絡以Farneback稠密光流算法提取鰻鱺攝食行為的光流圖像作為輸入, 用于提取鰻鱺攝食時的運動趨勢和速度信息。在本研究中, 首先對空間流和時間流使用的卷積神經(jīng)網(wǎng)絡進行改進, 即使用ResNet50網(wǎng)絡代替了網(wǎng)絡結(jié)構(gòu)較淺的VGG-16網(wǎng)絡; 然后由于原Two-stream的空間流和時間流網(wǎng)絡為各自分開訓練的, 會導致網(wǎng)絡出現(xiàn)無法學習到時空信息之間的關(guān)聯(lián)特征的問題, 且雙流網(wǎng)絡最后的分類分數(shù)是把空間流和時間流的分數(shù)按一定比例融合得到, 最常見的為平均融合法, 這種融合方式較為簡單, 容易導致網(wǎng)絡分類結(jié)果不準確。因此本研究對Two-stream網(wǎng)絡的融合方式進行了改進, 即使用特征層融合的方式來代替Two-stream網(wǎng)絡的決策層融合方式。綜上, 本研究設計了一種基于殘差結(jié)構(gòu)的雙流卷積神經(jīng)網(wǎng)絡, 它的網(wǎng)絡結(jié)構(gòu)更深, 而且能夠讓空間流網(wǎng)絡和時間流網(wǎng)絡并行進行訓練, 使網(wǎng)絡能學習到時空信息的關(guān)聯(lián)特征, 提高網(wǎng)絡的評估準確率。其具體結(jié)構(gòu)如圖6所示。

圖6 本文雙流殘差網(wǎng)絡的具體結(jié)構(gòu)
本研究試驗基于PyTorch框架, 使用硬件環(huán)境配置為: 處理器為Intel酷睿i9-9900X, 顯卡為NVIDIA RTX2080Ti, 顯存為11 G; 使用軟件環(huán)境配置為: 系統(tǒng)為Ubuntu18.04.1, 運行內(nèi)存為128 G, Python版本為3.8, CUDA版本為11.2。
本研究試驗相關(guān)網(wǎng)絡模型參數(shù)設置: 模型迭代次數(shù)設置為100個epoch; batch_size設置為4; 模型優(yōu)化器選擇帶動量的SGD算法, 其中動量因子參數(shù)設置為0.9; 權(quán)重衰減參數(shù)設置為0.000 5; 模型學習率參數(shù)初始化為0.001, 學習率每迭代完一個epoch就衰減為原來的0.33倍。
本研究的雙流殘差卷積神經(jīng)網(wǎng)絡的融合位置選擇在空間流和時間流ResNet50的卷積層5之后。使用特征層融合的方式進行融合, 具體操作是將兩個通道數(shù)為2 048的特征層在相同的空間位置上進行拼接, 融合得到的特征層通道數(shù)為4 096。
鰻鱺攝食強度數(shù)據(jù)集共有2 000張圖像, 其中70%用作訓練, 30%用作測試。在數(shù)據(jù)集輸入網(wǎng)絡進行訓練之前, 使用經(jīng)過預訓練的空間流和時間流ResNet50網(wǎng)絡的權(quán)重來初始化雙流殘差網(wǎng)絡的權(quán)重。在雙流殘差網(wǎng)絡中時間流和空間流網(wǎng)絡并行進行訓練, 網(wǎng)絡共迭代100輪。
雙流殘差網(wǎng)絡在訓練過程中每迭代完一個epoch就記錄一下網(wǎng)絡損失函數(shù)值, 其變化趨勢如圖7所示。從圖7中可以看出, 訓練過程中網(wǎng)絡損失在大概第18個epoch之前下降很快, 而在第50個epoch之后逐漸趨于穩(wěn)定, 證明網(wǎng)絡模型已經(jīng)達到收斂。
雙流殘差網(wǎng)絡每訓練完一個epoch就通過測試集進行評估, 并記錄下此時網(wǎng)絡的準確率。網(wǎng)絡在訓練階段的準確率變化如圖8所示, 從圖8中可知, 訓練時網(wǎng)絡的準確率上升很快, 在第10個epoch準確率就達到95%以上, 隨著訓練的進行準確率緩慢上升, 在第20個epoch之后逐漸平穩(wěn), 最后網(wǎng)絡的準確率達到98.6%。
為了驗證本研究的雙流殘差網(wǎng)絡在鰻鱺攝食強度評估上的有效性, 首先與空間流和時間流網(wǎng)絡的評估準確率進行了比較, 如表3所示。其次還比較了雙流殘差網(wǎng)絡與Two-stream以及雙流網(wǎng)絡的評估準確率, 如表4所示。

圖7 雙流殘差網(wǎng)絡的訓練損失變化

圖8 雙流殘差網(wǎng)絡在測試集上的準確率變化
表3 雙流殘差網(wǎng)絡與單流網(wǎng)絡準確率比較

Tab.3 Comparison in the classification accuracy between dual-stream residual network and single-stream network
注: 表中各方法的分類算法均為ResNet50
表4 雙流殘差網(wǎng)絡與其他雙流網(wǎng)絡準確率比較

Tab.4 Comparison accuracy between dual-stream residual network and other dual-stream networks
注: 平均融合方式是指將空間流和時間流網(wǎng)絡的檢測結(jié)果之和取平均值的方式; 特征層融合方式在2.2.2雙流殘差網(wǎng)絡模型設計中有詳細介紹
從表3中可以看出, 空間流網(wǎng)絡的評估準確率為92.8%, 時間流網(wǎng)絡的評估準確率為90.1%, 前者比后者準確率高了2.7%, 說明在網(wǎng)絡結(jié)構(gòu)一致的情況下, 空間流網(wǎng)絡的表現(xiàn)要優(yōu)于時間流網(wǎng)絡。分析原因可能是由于時間流網(wǎng)絡的輸入即光流圖像容易受到水面反光以及水面波動等因素的影響, 導致光流圖像對攝食魚群的運動信息描述不準確, 從而影響網(wǎng)絡的評估結(jié)果。而二者使用特征層融合方式得到的雙流殘差網(wǎng)絡的評估準確率為98.6%, 相比空間流網(wǎng)絡和時間流網(wǎng)絡分別提升了5.8%和8.5%, 說明本研究的雙流殘差網(wǎng)絡能有效區(qū)分鰻鱺的各類攝食強度。
從表4中可以看出, Two-stream網(wǎng)絡的評估準確率為95.4%, 在將Two-stream的分類算法VGG-16替換為ResNet50之后得到雙流網(wǎng)絡, 其評估準確率為96.2%, 相較于Two-stream網(wǎng)絡準確率有些許提升, 提升了0.8%, 說明網(wǎng)絡結(jié)構(gòu)較深的ResNet50能比VGG-16提取到更有效的特征。而本研究的雙流殘差網(wǎng)絡準確率為98.6%, 比Two-stream網(wǎng)絡和雙流網(wǎng)絡分別提升了3.2%和2.4%, 說明在特征層融合的方式能使網(wǎng)絡充分學習到鰻鱺攝食行為的時空關(guān)聯(lián)特征, 從而使得本研究雙流殘差網(wǎng)絡對鰻鱺攝食強度有較高的評估準確率。
由于本研究的雙流殘差網(wǎng)絡是在原Two-stream網(wǎng)絡基礎(chǔ)之上改進的, 所以為了進一步分析本研究改進的雙流殘差網(wǎng)絡對鰻鱺攝食強度評估準確率的影響, 本研究還計算了Two-stream和雙流殘差網(wǎng)絡對于鰻鱺攝食強度評估的混淆矩陣, 如圖9和圖10所示。混淆矩陣能夠直觀地展示出網(wǎng)絡對于每類攝食強度的評估準確率, 其中橫軸表示攝食強度的真實標簽, 縱軸表示網(wǎng)絡預測標簽, 對角線上的數(shù)值為各類攝食強度的評估準確率。由圖9和圖10可知, 本研究雙流殘差網(wǎng)絡在鰻鱺攝食強度數(shù)據(jù)集上各類別的評估準確率均有不同程度的提升, 其中攝食強度為較強、正常、較弱和弱的準確率分別提升了5%、4%、2%和5%, 并且本研究雙流殘差網(wǎng)絡在鰻鱺攝食強度為強、正常和較弱的評估準確率均達到100%, 在攝食強度為較強和弱的評估準確率也都在95%以上。綜上說明, 與原Two-stream網(wǎng)絡相比, 本研究的雙流殘差網(wǎng)絡能充分利用鰻鱺攝食行為的時空關(guān)聯(lián)信息來實現(xiàn)對鰻鱺攝食強度的準確評估, 反映出本研究雙流殘差網(wǎng)絡的改進策略顯著有效。

圖9 Two-stream網(wǎng)絡的混淆矩陣

圖10 雙流殘差網(wǎng)絡的混淆矩陣
此外, 與以往的研究相比本研究方法也有更好的效果。周超等(2019)提出了一種基于近紅外機器視覺的方法, 將魚群攝食強度分為弱、一般、中和強4類, 該方法通過灰度共生矩陣來提取魚群攝食圖像的紋理特征, 再利用支撐向量機進行分類, 實現(xiàn)了對鏡鯉攝食強度的評估, 其評估準確率為87.78%。張佳林等(2020)首先利用變分自動編碼器提取水下魚群圖像的特征, 然后將得到的特征矩陣輸入卷積神經(jīng)網(wǎng)絡進行分類, 以區(qū)分水下大西洋鮭的攝食行為和非攝食行為, 其分類準確率達到89%。Ubina等(2021)提出了一種基于三維卷積神經(jīng)網(wǎng)絡的魚類攝食強度分類方法, 將魚類的攝食強度分為無、弱、中和強四類, 該方法的分類準確率為95%。與以上研究相比, 本方法的效果更好, 評估準確率達到98.6%, 并且在本研究中將魚群的攝食強度等級劃分更為詳細, 分為了強、較強、正常、較弱和弱這5個等級。本研究提出的方法對于魚類攝食強度有著更好的評估效果。
本研究將雙流殘差卷積神經(jīng)網(wǎng)絡應用于養(yǎng)殖鰻鱺的攝食強度評估。首先對傳統(tǒng)的Two-stream網(wǎng)絡進行了介紹, 然后針對該網(wǎng)絡存在的弊端提出了改進方法。針對原Two-stream網(wǎng)絡存在網(wǎng)絡結(jié)構(gòu)較淺, 無法提取到充分的鰻鱺攝食行為特征的問題, 本研究使用網(wǎng)絡結(jié)構(gòu)較深ResNet50網(wǎng)絡代替了VGG-16網(wǎng)絡以提取到更充分、更具代表性的特征; 針對原Two-stream的空間流和時間流網(wǎng)絡為獨立進行訓練, 且網(wǎng)絡最后的分類結(jié)果是把空間流和時間流的得分求和然后取平均值得到, 容易導致網(wǎng)絡出現(xiàn)無法學習到時空信息之間的關(guān)聯(lián)特征的問題, 本研究使用特征層融合的方式替代平均值融合的方式, 使網(wǎng)絡能夠?qū)W習到時空信息之間的關(guān)聯(lián)特征, 并能進行并行訓練。
試驗結(jié)果表明, 使用網(wǎng)絡結(jié)構(gòu)更深的ResNet50之后, 鰻鱺攝食強度評估準確率達到96.2%, 準確率有小幅提升, 提升了0.8%; 再使用特征層融合方式之后得到本研究的雙流殘差網(wǎng)絡, 其評估準確率達到98.6%, 準確率又提升了2.4%, 并且與原Two- stream網(wǎng)絡相比, 準確率提升了3.2%。本研究的成果可以用于指導鰻鱺養(yǎng)殖全過程的高效精準投飼, 提高飼料的利用與轉(zhuǎn)化效率。例如, 可以根據(jù)本研究雙流殘差卷積神經(jīng)網(wǎng)絡的評估結(jié)果對鰻鱺飼料的投喂量進行科學精準的調(diào)整, 當鰻鱺攝食強度為弱和較弱時, 采取降低投餌量的措施; 當鰻鱺攝食強度為正常時, 采取維持投餌量的措施; 當攝食強度為較強和強時, 采取增加投餌量的措施。綜上, 本研究的雙流殘差網(wǎng)絡在鰻鱺攝食強度評估研究上有重要的參考價值。
喬峰, 鄭堤, 胡利永, 等, 2015. 基于機器視覺實時決策的智能投餌系統(tǒng)研究[J]. 工程設計學報, 22(6): 528-533.
劉楊, 2021. 基于深度學習的水下殘餌檢測方法研究與實現(xiàn)[D]. 揚州: 揚州大學: 34-37.
李賢, 范良忠, 劉子毅, 等, 2012. 基于計算機視覺的大菱鲆對背景色選擇習性研究[J]. 農(nóng)業(yè)工程學報, 28(10): 189-193.
張志強, 牛智有, 趙思明, 2011. 基于機器視覺技術(shù)的淡水魚品種識別[J]. 農(nóng)業(yè)工程學報, 27(11): 388-392.
張佳林, 徐立鴻, 劉世晶, 2020. 基于水下機器視覺的大西洋鮭攝食行為分類[J]. 農(nóng)業(yè)工程學報, 36(13): 158-164.
陳彩文, 杜永貴, 周超, 等, 2017. 基于圖像紋理特征的養(yǎng)殖魚群攝食活動強度評估[J]. 農(nóng)業(yè)工程學報, 33(5): 232-237.
范良忠, 劉鷹, 余心杰, 等, 2011. 基于計算機視覺技術(shù)的運動魚檢測算法[J]. 農(nóng)業(yè)工程學報, 27(7): 226-230.
周應祺, 王軍, 錢衛(wèi)國, 等, 2013. 魚類集群行為的研究進展[J]. 上海海洋大學學報, 22(5): 734-743.
周超, 徐大明, 吝凱, 等, 2019. 基于近紅外機器視覺的魚類攝食強度評估方法研究[J]. 智慧農(nóng)業(yè), 1(1): 76-84.
趙建, 朱松明, 葉章穎, 等, 2016. 循環(huán)水養(yǎng)殖游泳型魚類攝食活動強度評估方法研究[J]. 農(nóng)業(yè)機械學報, 47(8): 288-293.
胡利永, 魏玉艷, 鄭堤, 等, 2015. 基于機器視覺技術(shù)的智能投餌方法研究[J]. 熱帶海洋學報, 34(4): 90-95.
穆春華, 范良忠, 劉鷹, 2015. 基于計算機視覺的循環(huán)水養(yǎng)殖系統(tǒng)殘餌識別研究[J]. 漁業(yè)現(xiàn)代化, 42(2): 33-37.
BOCHKOVSKIY A, WANG C Y, LIAO H Y M, 2020. YOLOV4: optimal speed and accuracy of object detection [J]. arXiv: 2004.10934.
FARNEB?CK G, 2003. Two-frame motion estimation based on polynomial expansion [C] // Proceedings of the 13th Scandinavian Conference on Image Analysis. Halmstad, Sweden: Springer: 363-370.
HE K M, ZHANG X Y, REN S Q,, 2016. Deep residual learning for image recognition [C] // Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778
LI D L, WANG Z H, WU S Y,, 2020. Automatic recognition methods of fish feeding behavior in aquaculture: a review [J]. Aquaculture, 528: 735508.
LIU Z Y, LI X, FAN L Z,, 2014. Measuring feeding activity of fish in RAS using computer vision [J]. Aquacultural Engineering, 60: 20-27.
M?L?Y H, AAMODT A, MISIMI E, 2019. A spatio-temporal recurrent network for salmon feeding action recognition from underwater videos in aquaculture [J]. Computers and Electronics in Agriculture, 167: 105087.
?VERLI ?, S?RENSEN C, NILSSON G E, 2006. Behavioral indicators of stress-coping style in rainbow trout: do males and females react differently to novelty? [J]. Physiology & Behavior, 87(3): 506-512.
RAUF H T, LALI M I U, ZAHOOR S,, 2019. Visual features based automated identification of fish species using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 167: 105075.
SADOUL B, MENGUES P E, FRIGGENS N C,, 2014. A new method for measuring group behaviours of fish shoals from recorded videos taken in near aquaculture conditions [J]. Aquaculture, 430: 179-187.
SIMONYAN K, ZISSERMAN A, 2014. Two-stream convolutional networks for action recognition in videos [C] // Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada: MIT Press: 568-576.
SIMONYAN K, ZISSERMAN A, 2015. Very deep convolutional networks for large-scale image recognition [C] // Proceedings of the 3rd International Conference on Learning Representations. San Diego, CA, USA: ICLR.
UBINA N, CHENG S C, CHANG C C,, 2021. Evaluating fish feeding intensity in aquaculture with convolutional neural networks [J]. Aquacultural Engineering, 94: 102178.
WISHKERMAN A, BOGLINO A, DARIAS M J,, 2016. Image analysis-based classification of pigmentation patterns in fish: a case study of pseudo-albinism in Senegalese sole [J]. Aquaculture, 464: 303-308.
ZHANG S, YANG X T, WANG Y Z,, 2020. Automatic fish population counting by machine vision and a hybrid deep neural network model [J]. Animals, 10(2): 364.
ZHOU C, XU D M, CHEN L,, 2019. Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision [J]. Aquaculture, 507: 457-465.
EVALUATION ON FEEDING INTENSITY OF AQUACULTURE EEL () BY DOUBLE-FLOW RESIDUAL CONVOLUTION NEURAL NETWORK
LI Kai1, 2, JIANG Xing-Long1, 2, XU Zhi-Yang1, 2, LIN Qian1, 2
(1. Fisheries College, Jimei University, Xiamen 361021, China; 2. Engineering Research Center of the Modern Technology for Eel Industry, Ministry of Education, Xiamen, 361021, China)
To accurately evaluate the feeding intensity in eel () culture, the eel intensity evaluation method based on double-flow residual convolution neural network was proposed, by which the problems existing in traditional double-flow network (Two-stream) was solved. The traditional two-flow network is shallow in network structure and not able to extract sufficient eel feeding behavior information. Therefore, ResNet50 network was chosen to extract more representative features. The final classification score of the traditional double-flow network could be obtained by combining the average scores of spatial flow and time flow, and the fusion method was relatively simple, and the spatial flow and time flow network were trained independently, which could lead to an issue that the network cannot learn the spatio-temporal correlation characteristics of eel feeding behavior. We chose to use the feature layer fusion method to fuse the features extracted from the spatial flow and time flow network, by which the network was trained in parallel to extract the correlation features of the spatio-temporal network. Results show that the classification accuracy of the eel feeding intensity evaluation in double-flow residual convolution neural network reached 98.6%, which was 5.8% and 8.5% higher than that of single-channel spatial flow and time flow network, respectively. Compared with the traditional double-flow network, the classification accuracy was improved by 3.2%.
eel; feeding intensity; double-flow residual convolution neural network; ResNet50; parallel training; feature layer fusion
*國家重點研發(fā)計劃“特色魚類精準高效養(yǎng)殖關(guān)鍵技術(shù)集成與示范”, 2020YFD0900102號; 福建省科技廳高校產(chǎn)學合作項目, 2020N5009號。李 凱, 碩士研究生, E-mail: 924140205@qq.com
江興龍, 博士, 教授, E-mail: xinlongjiang@jmu.edu.cn
2022-11-07,
2023-01-14
Q959.9; S965
10.11693/hyhz20221100291