999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進Mask R-CNN的真實環境下魚體語義分割

2022-03-10 02:25:50黃佳芯鄧博奇劉洋成
農業工程學報 2022年23期
關鍵詞:語義特征模型

郭 奕,黃佳芯,鄧博奇,劉洋成

改進Mask R-CNN的真實環境下魚體語義分割

郭 奕,黃佳芯,鄧博奇,劉洋成

(西華大學電氣與電子信息學院,成都 610000)

魚體語義分割是實現魚體三維建模和語義點云、計算魚體生長信息的基礎。為了提高真實復雜環境下魚體語義分割精度,該研究提出了SA-Mask R-CNN模型,即融合SimAM注意力機制的Mask R-CNN。在殘差網絡的每一層引入注意力機制,利用能量函數為每一個神經元分配三維權重,以加強對魚體關鍵特征的提取;使用二次遷移學習方法對模型進行訓練,即首先利用COCO數據集預訓練模型在Open Images DatasetV6魚類圖像數據集完成第一次遷移學習,然后在自建數據集上完成第二次遷移學習,利用具有相似特征空間的2個數據集進行遷移學習,在一定程度上緩解了圖像質量不佳的情況下魚體語義分割精度不高的問題。在具有真實養殖環境特點的自建數據集上進行性能測試,結果表明,SA-Mask R-CNN網絡結合二次遷移學習方法的交并比達93.82%,綜合評價指標達96.04%,分割效果優于SegNet和U-Net++,較引入SENet和CBAM(Convolutional Block Attention Module, CBAM)注意力模塊的Mask R-CNN交并比分別提升了2.46和1.0個百分點,綜合評價指標分別提升了2.57和0.92個百分點,模型參數量分別減小了4.7和5MB。研究結果可為魚體點云計算提供參考。

深度學習;語義分割;注意力機制;魚體分割;二次遷移學習

0 引 言

淡水魚養殖具有非常高的經濟價值。在淡水魚養殖業管理中,準確獲取魚態信息,有利于產業人員及時發現養殖過程中存在的問題并對飼養計劃做出合理調整。將魚捕撈出水面進行人工測量的傳統方法,不僅量化困難,對操作人員要求較高,且可能對魚體造成不可逆的傷害,給產業帶來不必要的損失[1],因此亟需研究一種非接觸式魚體測量方法。近年來,點云技術的發展為魚類養殖測量技術提供了新思路,而點云計算結果的準確性依賴于目標的準確分割。

基于深度學習的語義分割模型[2-5]是近年來研究熱點。Garcia等[6]使用Mask R-CNN[7]網絡對魚體進行自動語義分割,其IoU為84.5%。Yu等[8]使用Mask R-CNN對魚類形態進行分割,并在純凈背景下和復雜背景下進行對比,在復雜背景下的分割準確性遠低于純凈背景。劉斌等[9]對比FCN-8S和SegNet[10]對條斑鯊的身體組組成構建進行分割,在自建數據集上驗證了SegNet語義分割準確度更高。Laradji等[11]使用基于計數全卷積網絡進行魚體語義分割,并在Deepfish上進行驗證,IoU為86.2%。Nezla等[12]和Thampi等[13]基于UNet網絡實現魚體的分割,通過設置不同閾值進行分割對比。Yu等[14]在實現魚體尺寸精確測量的過程中使用了UNet網絡進行魚體分割。王紅君等[15]采用SENet[16]優化后的Deeplabv3+模型進行語義分割,在白色背景的高質量數據集下測試IoU達93%。但此方法計算權重算法多為人工設計,計算量大,且只能計算空間或者通道的神經元,無法建立三維權重。在其它領域,為了提高語義分割的精度,Sui等[17]在Mask R-CNN中引入CBAM[18]注意力機制檢測地震造成的建筑物外墻的損壞,CBAM分別估計一維和二維的特征權重再將其組合起來,但此方法分兩步,占用太多計算時間,且模型參數量大,不利于模型的移植和部署[19-20]。

為此,本文提出一種融合SimAM(Simple, Parameter- Free Attention Module)[21]注意力機制的Mask R-CNN網絡(SA-Mask R-CNN),將SimAM注意力模塊融入骨干網絡中,在每一層殘差網絡中引入SimAM,利用能量函數為每一個神經元分配權重,實現三維空間的權重分配,增強魚體關鍵特征的提取,緩解網絡特征融合路徑過長,在不斷池化與下采樣過程中的特征信息丟失問題,使低層特征信息被充分利用,從而減少分割錯誤。其次使用二次遷移學習訓練方法,使用Open Images Dataset V6[22]高清魚類圖像并加載COCO數據集[23]預訓練權重,在改進網絡上完成第一次遷移學習[24],以利于網絡在高質量圖像中對魚體特征的提取與學習,提升模型對魚體邊緣的表征能力;使用自建數據集并加載第一次遷移學習的權重在改進網絡上完成第二次遷移學習,解決圖像降質導致的魚體語義分割效果不佳的問題,以實現在復雜環境下對魚體更加精細化的語義分割。

1 數據集來源

訓練數據集包括2個部分,第一部分來自谷歌開源數據集Open Images Dataset V6(簡稱V6數據集)中的魚類圖像,圖像清晰度高、噪聲少、前景和背景區分度大等優點,包含活體魚體、烹飪魚體等。試驗選用162張高清魚類圖像作為第一次遷移學習的原始數據集。第二部分為自建數據集,利用Stereolabs ZED雙目攝像機(ZED雙目攝像機能夠捕獲110°廣角視頻,深度分辨率最高441×1242(15幀/s),幀率最高1344×376(15幀/s))于2021年10月18日在四川省某露天養殖池內采集的魚體圖像,拍攝圖像分辨率為3840×1080(像素),受光線和浮游生物等影響,圖像噪聲多,且前景和背景的色彩區分度小,魚體邊緣細節模糊,選用224張圖像作為第二次遷移學習的原始數據集。

由于所采集的數據集規模有限,直接使用該數據集進行訓練會造成模型的過擬合。因此,為了提高模型泛化能力,利用數據增強的方法對數據集進行有效擴充[25-26]。分別對V6數據集和自建數據集進行翻轉和旋轉,同時為了在一定程度上改善自建數據集圖像顏色對比度不高的問題,再使用對比度增強和顏色增強方式對自建數據集進行擴充。通過數據增強將V6數據集擴充至638張,自建數據擴充至1344張,并按8∶2的比例將自建數據劃分為訓練集和測試集。由于試驗所用數據集并沒有為圖像分割做標注,因此分別對增擴后2個數據集中的每張圖像使用Labelme軟件[27]進行掩膜標注并設置對應標簽。

擴充后數據集示例如圖1所示,其中掩膜圖使用Labelme軟件標注。按魚體在圖像中占比大小分為小尺度與大尺度,將邊界框面積與圖像面積之比在0.08%~0.58%之間的目標定義為小尺度目標[28],將自建數據集中每張圖像含魚量超過4條以上的情況定義為較多魚。V6數據集中小尺度魚量為76條,大尺度魚量為654條,數據集中多為單目標;自建數據集小尺度魚量為509條,大尺度魚量為1566條,數據集中每張圖像多含2條魚。由于V6數據集中大尺度和單目標圖像居多,用于第一次遷移學習非常有助于網絡對魚體紋理特征的提取;自建數據集中小尺度魚體較多,用于第二次遷移學習有助于網絡對魚體輪廓的提取。根據數據集特征分析,V6和自建數據適合作為二次遷移學習訓練數據集。

2 魚體語義分割模型構建

2.1 Mask R-CNN模型

Mask R-CNN是在Faster R-CNN[29]基礎上改進的一種的算法,在目標檢測的同時進行語義分割。Mask R-CNN在每個感興趣區域RoI(Region of Interest)測掩膜的分支并應用于每個RoI的全卷積網絡FCN(Fully Convolutional Network)[30],實現以像素到像素的方式預測掩膜。為了融合多尺度的特征,Mask R-CNN使用特征金字塔網絡獲取更深層次的特征信息。但低層次特征與高層次特征的融合路徑太長,導致了低層特征的位置信息不能被充分利用[31],影響語義分割的精度。

圖1 數據集樣本及數據集特征

2.2 SimAM注意力機制

SimAM[21]是一種簡單、無參數的卷積神經網絡注意力模塊,可用于特征提取后動態為特征分配加權,使網絡更加關注有用信息。SimAM通過一種能量函數的封閉式解快速為每一個神經元分配權重,并保持整個模塊的輕量性,能量函數如式(1)所示。

將建立的三維模型導入comsol軟件中,進行網格劃分,由下圖可以看出,網格劃分較好,進行有限元計算可以得到較為精確的結果;輸入材料的基本參數及設定的外界條件,以天(d)作為計算單位,混凝土溫度測試時間為20d,步長為3d,利用comsol軟件,對在筏板基礎中選取的測點進行模擬計算,與實測數據進行對比分析。

2.3 SA-Mask R-CNN模型構建

由于傳統Mask R-CNN網絡中存在低層特征與高層特征融合路徑過長且缺乏對重點信息的關注,導致低層信息不能被充分利用的問題,同時SimAM注意力機制具有在不引入額外參數量的情況下,突出魚體重點信息的優勢。因此,本文將二者結合,提出一種融合SimAM注意力機制的Mask R-CNN魚體語義分割模型,具體結構如圖2所示。在神經學科中,信息豐富的神經元通常表現出與周圍神經元不同的放電模式,且激活神經元通常會抑制周圍神經元,即空間抑制,因此具有空間抑制效應的神經元應當擁有更高的重要性,賦予更高的權重。因此,在Mask R-CNN網絡特征提取階段引入SimAM注意力機制,利用能量函數分為每一個神經元估算權重值,再利用神經元不同的權重為圖像中魚體有關的像素點計算權重,獲取空間三維權重信息。SimAM注意力機制的引入可以增強低層特征重要信息在整個特征層次中的作用,緩解低層特征向高層特征融合過程中丟失信息的問題,提高骨干網絡的特征提取能力。另外,注意力機制的處理對象是全局三維整體信息,在實現特征提取和特征融合過程中速度更快。

注:x為特征,H為輸入特征高度,W為輸特征寬度,C為輸入特征長度。

在特征提取階段,本文使用ResNet101[32]網絡與FPN(Feature Pyramid Network)作為骨干網絡提取視覺特征。FPN通過高層特征上采樣和低層特征自頂向下的連接,且在每一層做出預測,解決物體檢測中的多尺度問題,提升小目標檢測能力。圖3為融合注意力模塊的ResNet101+FPN。在特征提取階段,ResNet101根據輸入信息進行卷積和池化,不同深度下輸出的特征圖分別記為C1、C2、C3、C4和C5[33]。為了更好地實現注意力機制,本文在C1、C2、C3、C4和C5層中引入SimAM注意力機制,將輸入圖像在C1層中通過步長為2的7×7的卷積核進行特征提取和降維,再通過SimAM注意力機制自主學習,為最底層的魚體語義信息賦予更高的權重,此時的特征信息主要為魚體的紋理細節。再將圖像送入C2層,經過3×3最大池化后依次進行1×1卷積核特征降維和3×3卷積核特征提取,最后使用1×1卷積核進行特征升維,再通過SimAM注意力機制增強魚體特征信息的權重,經過3次卷積后,將特征圖輸入C4層,依次進行卷積,直至輸出C5層特征圖,此時特征圖包含魚體輪廓等高層語義信息,利用FPN實現低層高分辨特征與高層語義特征的融合。

在不同深度的特征圖中為魚體像素信息賦予更高權重,可以提升ResNet101與FPN魚體關鍵特征的融合和表征能力。將具有空間區域信息的特征圖輸入卷積神經網絡中,有利于網絡對魚體特征的學習,提高分割精度。

2.4 二次遷移學習

遷移學習是將源領域知識遷移到目標領域的一種訓練方法。為了節省內存提高模型訓練速度,快速收斂并取得理想效果,本文采用遷移學習的訓練方法;同時為了解決采集圖像的降質問題,本文采用二次遷移學習的訓練方法提升模型的穩健性和魯棒性,如圖4所示為二次遷移學習流程。

利用COCO數據集預訓練模型,在V6數據集上完成第一次遷移學習。利用第一次遷移學習訓練最優模型結果,在自建數據集上完成第二次遷移學習。

注:C1、C2、C3、C4、C5為不同深度下得到的特征圖;M2、M3、M4、M5為上采樣得到的特征圖;P2、P3、P4、P5、P6為不同深度特征圖融合之后得到的新特征圖。

圖4 二次遷移學習流程圖

在高質量數據集上借助注意力機制完成第一次遷移學習,有利于卷積網絡對魚體特征的提取,使網絡獲取更豐富的魚體語義信息。第二次遷移學習有利于網絡將第一次遷移學習結果遷移到復雜環境中,提升網絡分割的準確性。兩次遷移學習將具有相似特征空間的數據集通過特征變換的方式相互遷移,減少源域與目標域之間的差距,有利于網絡在圖像降質情況下對魚體特征的學習,改善復雜環境下語義分割效果不理想的問題。

3 試驗環境與設計

3.1 試驗環境

模型的訓練采用AMD Ryzen7 4800H的CPU、NVIDIA GeForce RTX 2060的GPU和運行內存為16GB的計算機。通過參數調整與比較,設置初始學習率為0.000 1,試驗迭代50輪(Epochs)。使用CUDNN11.0為卷積神經網絡提速,使用具有自適應學習的優化器Adam[34]替代傳統的隨機梯度下降(SGD)算法進行模型的迭代過程,使用Tensorflow作為深度學習框架,Keras作為高階應用程序接口,使用Labelme進行圖像標注。

3.2 試驗設計

表1 試驗設計

SegNet是文獻[9]用于實現魚體分割的網絡,具有僅儲存特征映射的最大池索引,解碼器網絡良好分割的效果。UNet++[35]是文獻[12-14]研究方法的改進,具有通過整合不同層次的特征,提升分割精度。試驗采用這兩個網絡模型進行比較,證明改進網絡的有效性。

SENet[16]采用特征重標定策略,根據損失函數學習特征權重,在不額外引入空間維度的同時為每個特征通道賦予不同的重要程度。CBAM[18]是作用于前饋神經網絡的注意力模塊,沿通道和空間兩個維度依次推斷注意力圖實現特征優化。使用SENet和CBAM注意力模塊對Mask R-CNN進行改進是目前圖像處理領域的主流方法。試驗通過引入不同的注意力模塊,驗證本文引入SimAM注意力模塊的先進性。

3.3 試驗評價指標

式中表示語義類別總數,表示真實值,表示預測值,P表示將類別預測為類別的像素數量。TP為正確分割的像素數,FP為誤分割的像素數,FN為漏分割的像素數。

4 試驗結果分析

將所有模型在本文所構建的數據集上進行訓練,以比較不同模型對同一問題的處理性能,其訓練損失函數如圖5所示。

圖5 不同方法的訓練損失

其中Mask R-CNN1表示使用Mask R-CNN進行一次遷移學習;Mask R-CNN2表示進行二次遷移學習;SE1-Mask R-CNN表示使用SE-Mask R-CNN進行一次遷移學習;CBAM1-Mask R-CNN表示使用CBAB-Mask R-CNN進行一次遷移學習;SA1-Mask R-CNN表示使用SA-Mask R-CNN進行一次遷移學習,SA2-Mask R-CNN進行二次遷移學習(下同)。對比不同模型訓練50輪的損失值可知,CBAM1-Mask R-CNN的損失值下降速度最快,其次是SA2-Mask R-CNN,但在模型收斂后SA2-Mask R-CNN具有最小的損失值為0.086,即SA2-Mask R-CNN模型在訓練集上的擬合程度最好。此外,使用同一網絡模型二次遷移學習的訓練方法在模型收斂后都具有更低的損失值。

為了驗證本文改進方法的有效性,在自建數據集的測試集上進行驗證,圖6為不同方法的分割結果。Mask R-CNN在一次遷移學習情況下對大尺度魚體的魚尾分割缺失、小尺度魚體分割遺漏的問題,經過二次遷移學習,缺失和遺漏得到一定程度的改善。SegNet在前景和背景區分度不明顯的情況下對小尺度分割效果不佳,魚體分割遺漏和缺失嚴重,網絡模型魯棒性和穩健性較差。U-Net++對降質圖像中的魚體分割同樣存在缺失和遺漏,尤其對于魚體細節部分的分割,表征能力較差。SE1-Mask R-CNN與CBAM1-Mask R-CNN模型的分割準確性有所提升,但相較于SA-Mask R-CNN對于魚鰭和魚尾細節的分割效果還存在不足。通過局部放大圖對比SA1-Mask-R-CNN和SA2-Mask-R-CNN分割結果發現,在噪聲較多情況下,SA2-Mask-R-CNN對魚尾、魚頭的分割處理更加精細和完整,這是因為在二次遷移學習訓練過程中,利用注意力模塊在V6數據集上進行第一遷移學習時,網絡更好地學習了魚體細節紋理信息,因此在魚體分割過程中具有更好的表征能力。

無論尺度大小,魚量多少,SA-Mask R-CNN并結合二次遷移學習的方法。在現實復雜環境下對魚體邊緣都具有更好的表征能力,也具有更強的魯棒性和泛化能力,有利于提升后續魚類點云計算的精確率,減少人工對水產品的捕撈測量,促進魚類養殖產業智能化發展。

使用測試集RGB數字圖像在訓練好的深度學習模型上進行語義分割,對比結果如表2所示。

表2中Mask R-CNN1各項指標都高于SegNet和U-Net++,其IoU分別提升了0.71和0.52個百分點,精確率分別提升了1.12和0.53個百分點,召回率分別提升了1.15和0.65個百分點,F1分別提升了1.14和0.59個百分點。SA1-Mask R-CNN分割精度和其他幾個方法相比最高,較Mask R-CNN1的IoU提升了8.51個百分點,精確率提升了8.8個百分點,召回率提升了9.18個百分點,綜合評價指標提高了8.99個百分點,魚體語義分割效果明顯提升。此外與王紅君等[15]在純白色背景下魚體分割平均交并比達93%相比,本文模型不僅實現了更高的分割精度,而且試驗使用數據集為真養殖環境,更具有實際應用價值。

為了進一步驗證二次遷移學習的有效性,本文對比了不同訓練方法的模型分割結果如表4所示。

圖6 不同方法不同場景的分割結果

表2 不同方法分割結果

表3 引入不同注意力機制的分割結果對比

表4 不同訓練方法性能對比

表4中SA2-Mask R-CNN模型預測結果的IoU達93.82%,精確率達96.98%,召回率達95.12%,F1達96.04%,較SA1-Mask R-CNN模型預測結果的IoU提升了0.67個百分點,精確率提升了0.82個百分點,召回率提升了0.27個百分點,F1提升了0.54個百分點。試驗結果證明,在噪聲較多的復雜真實環境下,利用具有相似特征空間的數據集進行遷移學習有助于網絡更好地從高質量數據集學習魚體特征并遷移到真實場景中來,可以提高網絡模型分割的準確性,提升網絡的魯棒性和泛化能力。

綜和分析表3和表4,SA2-Mask R-CNN模型較引入SENet和CBAM注意力模塊的Mask R-CNN交并比分別提升了2.46和1個百分點,綜合評價指標分別提升了2.57和0.92個百分點。

5 結 論

1)構建的SA-Mask R-CNN魚體識別模型,以ResNet101、FPN和SimAM注意力機制作為主干網絡,可以在受到噪聲影響的復雜環境下較為準確的分割出魚體,并表征出魚體細節信息,為魚體的三維建模和語義點云提供更加精確的結果。

2)與SENet、CBAM注意力模塊相比,SimAM對于魚體分割性能的提升更有效。引入SimAM注意力模塊后的模型在測試集上的IoU分別提升了1.79和0.33個百分點,精確率分別提升了1.44和0.25個百分點,召回率分別提升了2.59和0.51個百分點,F1分別提升了2.03和0.38個百分點。分割結果可視化后的結果同樣證明,引入SimAM注意力模塊可以加強網絡對魚體特征的關注,提高了魚體分割的能力。另外,在提高語義分割精度的同時,SA-Mask R-CNN模型參數量更小,更有助于模型的移植和部署。

3)二次遷移學習訓練方法在SA-Mask R-CNN網絡上較只使用一次遷移學習的IoU提升了0.67個百分點,精確率提升了0.82個百分點,召回率提升了0.27個百分點,F1提升了0.54個百分點,證明利用特征空間相似的數據集進行二次遷移學習的訓練方法在噪聲較多的復雜環境下有助于提升模型分割的準確性和魯棒性。

[1] 李艷君,黃康為,項基. 基于立體視覺的動態魚體尺寸測量[J]. 農業工程學報,2020,36(21):220-226.

Li Yanjun, Huang Kangwei, Xiang Ji. Dynamic fish body size measurement based on stereo vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 220-226. (in Chinese with English abstract)

[2] 陳進,韓夢娜,練毅,等. 基于U-Net模型的含雜水稻籽粒圖像分割[J]. 農業工程學報,2020,36(10):174-180.

Chen Jin, Han Mengna, Lian Yi, et al. Image segmentation of heterogeneous rice grains based on U-Net model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 174-180 (in Chinese with English abstract)

[3] 任守綱,賈馥瑋,顧興健,等. 反卷積引導的番茄葉部病害識別及病斑分割模型[J]. 農業工程學報,2020,36(12):186-195.

Ren Shougang, Jia Fuwei, Gu Xingjian, et al. Deconvolution-guided leaf disease identification and disease spot segmentation model of tomato[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 186-195. (in Chinese with English abstract)

[4] Mo Y, Wu Y, Yang X, et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning[J]. Neurocomputing, 2022, 493: 626-646.

[5] Liu S, Li M, Li M, et al. Research of animals image semantic segmentation based on deep learning[J]. Concurrency and Computation: Practice and Experience, 2020, 32(1): e4892.

[6] Garcia R, Prados R, Quintana J, et al. Automatic segmentation of fish using deep learning with application to fish size measurement[J]. ICES Journal of Marine Science, 2020, 77(4): 1354-1366.

[7] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// Proceedings of the IEEE international conference on computer vision. Venice, Italy, 2017: 2961-2969.

[8] Yu C, Fan X, Hu Z, et al. Segmentation and measurement scheme for fish morphological features based on Mask R-CNN[J]. Information Processing in Agriculture, 2020, 7(4): 523-534.5

[9] 劉斌,王凱歌,李曉蒙,等. 基于語義部位分割的條紋斑竹鯊魚體運動姿態解析[J]. 農業工程學報,2021,37(3):179-187.

Liu Bin, Wang Kaige, Li Xiaomeng, et al. Analysis of striped bamboo shark body split-based separation of semantic parts[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(3): 179-187. (in Chinese with English abstract)

[10] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

[11] Laradji I H, Saleh A, Rodriguez P, et al. Weakly supervised underwater fish segmentation using affinity LCFCN[J]. Scientific reports, 2021, 11(1): 1-10.

[12] Nezla N A, Haridas T P M, Supriya M H. Semantic segmentation of underwater images using unet architecture based deep convolutional encoder decoder model[C]// 2021 7th International Conference on Advanced Computing and Communication Systems (ICACCS). IEEE, Coimbatore, India, 2021: 28-33.

[13] Thampi L, Thomas R, Kamal S, et al. Analysis of U-Net based image segmentation model on underwater images of different species of fishes[C]//2021 International Symposium on Ocean Technology (SYMPOL). IEEE, Kochi, India, 2021: 1-5.

[14] Yu C, Liu Y, Hu Z, et al. Precise segmentation and measurement of inclined fish’s features based on U-net and fish morphological characteristics[J]. Applied Engineering in Agriculture, 2022, 38(1): 37-48.

[15] 王紅君,季曉宇,趙輝,等. SENet優化的Deeplabv3+淡水魚體語義分割[J]. 中國農機化學報,2021,42(2):158-163.

Wang Hongjun, Ji Xiaoyu, Zhao Hui, et al. SENet optimized Deeplabv3+ freshwater fish body semantic segmentation[J]. Journal of Chinese Agricultural Mechanization, 2021, 42(2): 158-163. (in Chinese with English abstract).

[16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA. 2018: 7132-7141.

[17] Sui H, Huang L, Liu C. Detecting building fa?ade damage caused by Earthquake using CBAM-improved mask R-CNN[J]. Geomatics science of Wuhan University, 2020, 45(11): 1660-1668.

[18] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 3-19.

[19] Zhao Z, Chen K, Yamane S. CBAM-Unet++: Easier to find the target with the attention module “CBAM”[C]// 2021 IEEE 10th Global Conference on Consumer Electronics (GCCE). IEEE, Kyoto, Japan, 2021: 655-657.

[20] Shu B, Mu J, Zhu Y. AMNet: Convolutional neural network embeded with attention mechanism for semantic segmentation[C]//Proceedings of the 2019 3rd High Performance Computing and Cluster Technologies Conference. Guangzhou China, 2019: 261-266.

[21] Yang L, Zhang R Y, Li L, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks[C]// International Conference on Machine Learning. PMLR, Seoul, South Korea, 2021: 11863-11874.

[22] Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.

[23] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, Zurich, Switzerland, 2014: 740-755.

[24] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22: 1345-1359.

[25] Shorten C, Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.

[26] Miko?ajczyk A, Grochowski M. Data augmentation for improving deep learning in image classification problem[C]// 2018 International Interdisciplinary PhD Workshop (IIPhDW). IEEE, Swinoujscie, Poland, 2018: 117-122.

[27] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1): 157-173.

[28] Kampffmeyer M, Salberg A B, Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, USA, 2016: 1-9.

[29] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. Advances in Neural Information Processing Systems, 2015, 28: 1137-1149.

[30] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3431-3440.

[31] 袁山,湯浩,郭亞. 基于改進Mask R-CNN模型的植物葉片分割方法[J].農業工程學報,2022,38(1):212-220.

Yuan Shan, Tang Hao, Guo Ya. Plant leaf segmentation method based on improved Mask R-CNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 212-220. (in Chinese with English abstract)

[32] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770-778.

[33] 周飛燕,金林鵬,董軍. 卷積神經網絡研究綜述[J]. 計算機學報,2017,40(6):1229-1251.

Zhou Feyuan, Jin Linpeng, Dong Jun. Summary of convolution neural network research[J]. Chinese Journal of Computers, 2017, 40(6): 1229-1251. (in Chinese with English abstract)

[34] Diederik P, Kingma, Jimmy B. A method for stochastic optimization[C]//The 3rd International Conference for Learning Representations, San Diego, 2015.

[35] Zhou Z, Rahman Siddiquee M M, Tajbakhsh N, et al. Unet++: A nested u-net architecture for medical image segmentation[C]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, Cham, 2018: 3-11.

Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model

Guo Yi, Huang Jiaxin, Deng Boqi, Liu Yangcheng

(,,610000,)

The semantic segmentation of fish bodies is the basis to realize the three-dimensional modeling and semantic point clouds, as well as the calculation of the growth information of fish. The accuracy of point cloud computing depends mainly on the precision of fish body segmentation. However, the long path of feature fusion in the traditional Mask R-CNN network can result in the low-level information containing the accurate location of the target failing to be fully used. In addition, the noise (such as light and water quality) can pose a great impact on the collected images in the real breeding environment, leading to quality degradation. The fish feature cannot be fully extracted for better edge segmentation using the traditional network. In this study, an improved Mask R-CNN model was proposed to combine the SimAM attention mechanism, in order to improve the precision of fish semantic segmentation in complex environments. Twice-transfer learning was also conducted during the training process. An attention mechanism was added at each layer of the residual network in the backbone network. The extracted features were dynamically assigned the weights, so that the improved network was utilized to focus on the information that related to the fish body, while maintaining the lightweight feature of the model. The first transfer learning was conducted to train the pre-trained model of COCO dataset on the Open Images DatasetV6 fish images, followed by the second transfer learning on the self-built dataset. Among them, the self-built dataset was the frame splitting of the captured video using a ZED binocular camera in the real culturing environment. The images in the self-built dataset shared the features of a lot of noise and complex backgrounds. There were similar feature spaces in the fish images from the self-built dataset and the Open Images Dataset V6. As such, the features with high clarity and less noise were conducive to the network learning the texture and detail information of the fish body. Twice-transfer learning was also used to alleviate the noise in the images from the two datasets with similar feature spaces. Experiments on the test set of the self-built dataset show that the IoU, F1, precision, and recall rates of the improved model were 93.82%, 96.04%, 96.98%, and 95.12%, respectively. A series of comparative experiments were conducted to verify the effectiveness of the improved model. The experimental results show that the segmentation performance of SA1-Mask R-CNN was better than that of SegNet and U-Net++. In contrast to the Mask R-CNN1, the IoU was improved by 8.51 percentage points, the precision was improved by 8.8 percentage points, the recall rate increased by 9.18 percentage points, and F1 was improved by 8.99 percentage points. Compared with the SE- and CBAM-Mask R-CNN, the IoU increased by 1.79 and 0.33 percentage points, the precision increased by 1.44 and 0.25 percentage points, the recall increased by 2.59 and 0.51 percentage points, F1 increased by 2.03 and 0.38 percentage points, respectively. Meanwhile, the number of model parameters decreased by 4.7 and 5 MB, respectively. Furthermore, two training methods were compared to verify the effectiveness of twice-transfer learning. It was found that the SA2-Mask R-CNN improved the IoU, precision, recall, and F1 by 0.67, 0.82, 0.27, and 0.54 percentage points, compared with SA1-Mask R-CNN. In summary, the improved model can be expected to improve the precision of fish semantic segmentation without increasing the number of model parameters, indicating the excellent deployment and porting of the model. At the same time, the precision of twice-transfer learning improved the semantic segmentation of fish bodies. The findings can provide a strong reference for the cloud computing of fish body points.

deep learning; semantic segmentation; fish body segmentation; attention mechanism; twice-transfer learning

10.11975/j.issn.1002-6819.2022.23.017

TP391.4

A

1002-6819(2022)-23-0162-08

郭奕,黃佳芯,鄧博奇. 改進Mask R-CNN的真實環境下魚體語義分割[J]. 農業工程學報,2022,38(23):162-169.doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

Guo Yi, Huang Jiaxin, Deng Boqi, et al. Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 162-169. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.017 http://www.tcsae.org

2022-08-20

2022-11-25

四川省重點實驗室項目(SCITLAB-1021);國家自然科學基金面上項目(61973257);國家自然科學基金青年項目(61901394)

郭奕,博士,副教授,研究方向為多媒體信息處理、數據挖掘及其應用。Email:lpngy@vip.163.com

猜你喜歡
語義特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲天堂免费在线视频| 亚洲成人www| 2018日日摸夜夜添狠狠躁| 国产午夜一级毛片| 日韩在线观看网站| 97se亚洲| 伊人久久福利中文字幕| 日韩欧美中文字幕在线韩免费| 91在线无码精品秘九色APP| 国产精品极品美女自在线网站| 欧美精品成人一区二区在线观看| 国产精品刺激对白在线| 欧美激情视频一区| 亚洲综合精品第一页| 免费不卡视频| 中文字幕在线不卡视频| 精品国产自| 亚洲香蕉在线| 青青草91视频| 久久综合五月| 国产无遮挡猛进猛出免费软件| 欧美色图久久| 色哟哟国产精品一区二区| 亚洲欧美在线综合一区二区三区| 国产精品九九视频| 国产精品女人呻吟在线观看| 久久伊人久久亚洲综合| 小说 亚洲 无码 精品| 午夜国产在线观看| 喷潮白浆直流在线播放| 国产在线一区二区视频| 国产va在线观看免费| www.av男人.com| 国产成人超碰无码| 日本在线亚洲| 亚洲国产综合自在线另类| 亚洲激情99| 亚洲精品成人片在线播放| 草草影院国产第一页| 国产精品白浆在线播放| 国产高潮流白浆视频| 精品少妇人妻av无码久久| 小说区 亚洲 自拍 另类| av在线手机播放| 日韩av无码DVD| 美女免费精品高清毛片在线视| 高清久久精品亚洲日韩Av| 亚洲一区免费看| 一区二区影院| 刘亦菲一区二区在线观看| 国产精品分类视频分类一区| 国产婬乱a一级毛片多女| 四虎永久免费地址在线网站| 免费观看亚洲人成网站| 国产成人高清在线精品| 久久综合一个色综合网| 亚洲乱强伦| 国产在线91在线电影| 成年A级毛片| 亚洲一区二区在线无码| 99热最新网址| 久久精品一品道久久精品| 色噜噜狠狠色综合网图区| 日韩黄色在线| 国产免费看久久久| 中文成人无码国产亚洲| 欧美午夜网| 扒开粉嫩的小缝隙喷白浆视频| 波多野结衣久久高清免费| 欧美精品v日韩精品v国产精品| 波多野结衣中文字幕一区| 呦系列视频一区二区三区| 亚洲第一香蕉视频| 久久午夜夜伦鲁鲁片无码免费| 久久亚洲国产视频| 本亚洲精品网站| 亚洲精品视频网| 国产福利在线观看精品| 免费国产不卡午夜福在线观看| 国产精品女在线观看| 在线不卡免费视频| 国产香蕉97碰碰视频VA碰碰看|