宋自根,張佳彬,覃學標,劉必林,卜心宇
(1 上海海洋大學信息學院,上海 201306;2 上海海洋大學海洋科學學院,上海 201306)
角質顎是頭足類海洋生物的主要攝食器官,蘊藏著重要的生物學信息[1-2],其色素沉積占比[3]在一定程度上反映出生物個體的生長特性。比如,角質顎[4]外部形態可較好應用于烏賊的日齡預測[5],對色素沉積占比的研究可以了解到頭足類的攝食及棲息環境變化[6]。
獲取角質顎色素沉積占比是研究頭足類生物生長特性的重要方向之一。Hernández-García等[7]基于阿根廷滑柔魚的角質顎,從判斷角質顎翼部、側壁、喙部等部位是否有色素沉積入手,第一次提出了角質顎色素沉積的八級定性分類標準。由于角質顎的色素沉積主要集中在喙部、翼部和側壁位3個部位,方舟[8]通過關鍵部位間距離,建立了長度與色素沉積定性等級之間的映射關系,進而提出利用角質顎的特殊部位長度來評定色素沉積占比。通過特殊部位是否有色素沉積為定性描述,而通過關鍵點之間的長度來刻畫角質顎色素沉積是定量描述,一是多種長度與分級之間的關系不夠明確,二是長度也只能從某些方面刻畫色素沉積的占比。
因此,本研究擬運用Mask-RCNN[9]模型對角質顎圖像進行識別和分割,采用基于角質顎及其色素沉積的面積來獲取角質顎的色素沉積占比,為頭足類動物攝食及環境變化的研究提供參考。
2019年,上海海洋大學“淞航號”漁業資源調查船在148°00′E~148°10′E,31°99′N-38°76′N海域,共捕獲東印度洋、西印度洋和赤道鳶烏賊(Sthenoteuthisoualaniensis)以及富山武裝烏賊(Enoploteuthischunii)樣本共375份。烏賊樣本在實驗室解凍后,用鑷子取出角質顎上、下顎各375個,利用清水沖洗掉表面黏液,并在胃蛋白酶溶液中浸泡2 d,以去除表面殘留的有機質,然后浸泡于70%的乙醇溶液中防止脫水。在圖像采集過程中,使用顯微鏡對角質顎進行圖片拍攝。首先使用水平儀調整載玻片至水平位置,并將角質顎放置在載玻片上,并根據圖片的拍攝效果隨時調整燈光,以減小背景和光照對拍攝圖像的干擾,最終得到角質顎上、下顎圖像共750張,剔除模糊圖片30張,剩下720張作為試驗數據集。
本研究使用Labelme軟件[10]標注角質顎及其色素沉積的邊緣輪廓。此軟件是一種常見的深度學習圖像標注工具,用于生成深度學習所需要的訓練數據集。值得注意的是,雖然角質顎色素沉積的顏色具有一定的漸變過程,但是這種漸變過程的分界線非常明顯,可以通過手動的方式對此進行標注。為了簡單起見,將整個角質顎分為有色素和無色素沉積兩種區域。操作過程中,使用標注目標的英文名作為標簽名(圖1),圖像中所有的標注信息,比如標注標簽、標注點坐標等均保存到與原圖對應的.json文件中,使用腳本文件將.json文件轉化成模型所需的數據文件,最終得到模型所需要的數據訓練集。

圖1 角質顎樣本標注示意圖Fig.1 Schematic diagram of labeled beaks samples
深度學習需要數據量的支撐,在數據量較小的情況下,很難通過訓練提取出具有較強泛化能力的數學模型。因此,本研究針對原始富山武裝烏賊只有100張樣本量的情況下,采用遷移學習[11-12]方法,用于解決數據樣本量不足的問題。事實上,不同地區頭足類動物角質顎及其色素沉積的形態特征大致相同。角質額分為上下兩片,每片均包含了喙部、翼部、頭蓋、側壁和脊突5大部分,其色素沉積主要集中在喙部、翼部和側壁3個部位,而且隨著年齡的增加,其色素沉積均是從喙部尖點開始,向中間部位擴展。首先使用東印度洋、西印度洋、赤道烏賊的角質顎圖像620張,對模型進行預訓練,提取出角質顎形態及其色素沉積的粗粒度特征。之后,隨機選取100張富山武裝烏賊角質顎圖片中的70張作為訓練集,對預訓練好的模型進行二次遷移學習,實現網絡模型參數的微調,進而進一步提高了模型的預測精度。
Mask-RCNN是一種目標檢測深度學習算法(圖2)。目標檢測是使用卷積神經網絡對特征[13]進行訓練,然后使用訓練結果對物體進行目標識別和分類,常用特征主要有HOG 特征[14]和 SIFT 特征[15]等,分類器主要有 SVM(Support Vector Machine)[16],LDA(Latent Dirichlet Allocation)[17]和Softmax分類器等。Redmon等[18]提出的YOLO算法,使用回歸方法提升了模型的運算速度,使得模型具有了更強的特征泛化能力。Anguelov等[19]提出的SSD算法剔除了邊界框的生成過程,進一步提高了模型的訓練速度。Mask-RCNN模型是在Faster-RCNN[20]的基礎上增加了一個語義分割分支,用于輸出目標的掩膜,并通過損失函數來調節訓練參數,實現對圖像特征的深度學習。

圖2 Mask-RCNN模型的結構圖Fig.2 Structure diagram of Mask-RCNN model
L=lcls+lbox+lmask
(1)
式中:lcls是類別損失,lbox是位置損失,lmask是掩膜損失。
模型通過真實邊框與候選框的類別差異、位置差異、掩膜差異進行訓練,其中,真實邊框是標記數據,候選框是預測數據。在模型訓練過程中,通過損失函數(1)來調節參數,損失函數越來越小直至收斂。Mask-RCNN使用Resnet50殘差網絡和特征金字塔網絡(Feature Pyramid Networks,FPN)[21]進行特征提取和融合。Resnet50和FPN網絡經過訓練后,可得到一張強語義信息和強空間信息的特征圖。區域候選網絡(Region Proposal Network,RPN)在特征圖中生成N×N個候選框,并進行非極大值抑制(Non-Maximum Suppression,NMS),進而得到候選區域(Regions of Interest,ROI)。再通過ROIAlign將ROI調整為相同大小,其中ROIAlign是池化層,可以把原圖和特征圖的像素對應起來,使結果精確地映射到原圖上。最后,將ROI分別送到全連接層和卷積層,用來進行掩膜mask預測、類別預測及位置回歸。
針對篩選后的角質顎圖片720張,首先利用Labelme軟件進行輪廓數據標注,得到4個不同區域的數據集。然后使用620張東印度洋、西印度洋、赤道鳶烏賊的數據集對模型進行預訓練,得到初步訓練后的算法模型。再利用富山武裝烏賊數據集,按7∶3比例隨機選擇70張作為訓練集,對預訓練后的模型引入遷移學習進行二次訓練,來微調模型參數。利用剩下的30張作為最終測試集,使用訓練后的Mask-RCNN模型,從中分割出角質顎及其色素沉積的輪廓,求出色素沉積在角質顎中的占比。具體試驗流程如圖3。此處以角質顎上顎試驗為例,Mask-RCNN訓練具體步驟如下:

圖3 試驗流程圖Fig.3 Experimental flowchart
第1步,利用Resnet50殘差網絡對角質顎及其色素沉積進行特征提取,得到5個不同大小和維度的特征圖。
第2步,特征金字塔網絡FPN將上一步的五個特征圖融合到一張特征圖上。
第3步,區域候選網絡RPN對特征圖中的每一個位置,生成N種可能的候選框(anchor box),一共可以生成N×N個候選框。計算候選框與真實框(ground truth)的交集和并集的交并比(Intersection over Union,IOU),設置IOU上、下閾值,IOU大于上閾值為正樣本,小于下閾值為負樣本。從正、負樣本中各選取128個樣本進行特征訓練,調優RPN網絡層參數。
第4步,對RPN輸出的候選框進行NMS,得到的ROI由ROIAlign池化為固定大小格式,再將輸出的結果分別輸入到2個分支中進行訓練。其中一個分支網絡由兩個全連接層構成,用于類別分類和位置回歸。另一個分支網絡由全卷積網絡(Full Convolutional Networks,FCN)構成,用于生成掩膜,實現Mask-RCNN檢測模型的訓練。
最后,通過角質顎及其色素沉積的掩膜像素點來計算色素沉積的量化占比。為了評估訓練模型的分割精度,給出了每張圖像的輸出結果及其真實邊框的IOU,進一步對得到的每一個圖片IOU值進行再平均,作為模型的整體分割精度。
使用Ubuntu16.04操作系統,服務器顯卡為GTX1050Ti,顯存為8GB。為了得到較好的分割效果,將初始學習率設置為0.001,動量默認為0.9。在試驗過程中,不斷修改迭代次數(Epoch),并根據損失函數(loss)的變化來確定Epoch(圖4)。因為每次迭代可以訓練6張圖像,每張圖像訓練一次,故初始迭代次數設為12,并依據試驗結果,依次倍增迭代次數。在試驗過程中,對于上顎和下顎,取Epoch=12時,模型會將目標物誤認為背景,此時模型欠擬合。取Epoch=36時,模型會將背景誤認為目標物,模型出現過擬合。對于上顎和下顎色素沉積,取Epoch=12時,模型沒有將背景誤認為目標物。取Epoch=24時,模型將背景誤認為目標物,模型過擬合。因此,本研究根據loss圖像最終選擇分割效果最好的迭代次數,對于角質顎上、下顎取Epoch=24,對于上、下顎的色素沉積取Epoch=12。上、下顎圖像訓練需要運行時間大約8 h,色素沉積訓練時間大約5 h,訓練完成后,圖像分割僅需要幾秒鐘即可完成。

圖4 loss曲線圖Fig.4 Loss curve
角質顎上顎及其色素沉積的模型輸出結果如圖5所示,其中a為原圖,b、c為輪廓輸出圖,d、e為色素沉積輸出圖。此時,輪廓掩膜所占像素點為151 232,色素沉積像素點為60 921,可以計算出樣本色素沉積的量化占比為40.28%。然后分別計算所有30個測試樣本圖像的輸出邊框和真實邊框的IOU,作為訓練模型的量化分割精度。如圖6所示,上顎輪廓的分割精度最小為92.75%,最大為94.38%,整個模型的平均精度為93.60%。色素沉積的分割精度最小為92.31%,最大精度為92.68%,平均精度為92.47%。

圖5 上顎試驗結果Fig.5 Experimental results of upper beaks

圖6 上顎部分測試集結果Fig.6 Experimental set results of upper beaks
下顎及其色素沉積的模型輸出結果如圖7所示。此時,輪廓掩膜所占像素點為97 524,色素沉積像素點為54 453,可以計算出樣本色素沉積的占比為55.8%。按照上述對上顎分割精度的計算過程,給出了30張下顎測試數據集的分割精度(圖8),其中下顎輪廓精度最小為91.48%,最大為92.49%,整個模型的平均精度為91.78%。而色素沉積的分割精度最小為88.60%,最大為89.10%,平均精度為88.78%。

圖7 下顎色素沉積試驗結果Fig.7 Experimental results of lower beaks pigmentation

圖8 下顎部分測試集結果Fig.8 Experimental set results of lower beaks
頭足類動物包括魷魚、章魚、船蛸、烏賊和墨魚等的主要攝食器官即為角質顎,其形態穩定、耐腐蝕、儲存信息良好,可以提取出大量的生態學信息[22]。但是角質顎體積小,形態不規則,如何測量角質顎及其色素沉積占比,一直是其研究的重要方法基礎。從早期基于角質顎相關部位是否有色素沉積的定性描述,提出了色素沉積的八等級分類方法。方舟等[23]基于八等級分類,研究了角質顎色素沉積與性腺成熟度之間的相互關系,發現雌性個體色素沉積與性腺成熟度之間呈顯著的正相關特征,而雄性個體則不顯著。雖然這種方法為頭足類動物的研究提供了很好的基礎,但是具有很大的主觀性,無法從數量關系上給出精確的判別標準。后來,根據角質額本身的形態特征,發展到通過角質顎特征點之間的距離,來判定色素沉積等級,如下頭蓋長、下喙長、下側壁長等等,進而擬合出色素沉積等級與胴長、體質量、性腺成熟度之間的關系。陸化杰等[24]和胡貫宇等[25-26]基于此對角質顎色素沉積等級進行了劃分和判定,研究了角質顎色素沉積等級變化與胴長、體質量、凈重和性腺成熟度的關系。本研究基于神經網絡深度學習模型,對角質額及其色素沉積進行分類識別和圖像切割,通過計算相應的面積占比,實現了角質顎色素沉積的精確自動化測量,是一類量化占比計算方法。
隨著數據量的增加和算法的發展,深度學習迅速在目標檢測和目標分割領域中廣泛使用。漁業信息化方面,王金鳳等[27]使用深度學習模型對魚群密度進行檢測,展現了深度學習在生命科學中的應用。近些年來,Mask-RCNN的算法[28-29]運用方面也效果顯著。Johnson等[30]使用Mask-RCNN模型,實現了細胞核顯微圖像的高效自動分割。張凱中等[31]使用Mask-RCNN模型,實現了豬群圖像的精確分割。鐘偉鎮等[27]使用Mask-RCNN模型,對植物葉片進行分割和識別,實現了植物種類的自動識別和生長狀態的自動化監測。
本研究表明,利用Mask-RCNN深度學習模型,可以自動計算出頭足類生物角質顎的色素沉積占比。由于樣本數據量少的不足,本研究采用遷移學習解決這一問題。而后使用labelme對數據進行標注,標注的過程需要獲取角質顎的每個關鍵點。標注完成后,分別對角質顎及其色素沉積的數據集進行訓練和測試,實現角質顎圖像的精確分割,并使用分割得到的掩膜圖像,自動化計算出角質顎色素沉積的量化占比。模型實驗結果表明,該方法分割精度很高,無需人為干涉,可以大量批處理。此外,本研究中的深度學習方法,訓練后的模型分割每張圖像只需要幾秒鐘,體現了該方法的高效性。
本研究算法對圖像目標的尖點部分識別效果較差(圖9),引起了相應的預測誤差,從而對角質顎色素沉積占比的計算造成一定的誤差。后續擬通過對模型進行改進,將Mask-RCNN深度學習模型與邊緣分割進行結合,邊緣分割對于圖像中尖銳部分的提取效果很好,但不能完整的提取出圖像中的所有輪廓。其次,在角質顎數據的獲取上,會受到光照、拍攝角度等一些因素的干擾,這對試驗結果也會造成一定的影響。后續擬通過對拍攝環境進行調整、對拍攝數據進行預處理等方法減輕這些因素的干擾。

圖9 試驗進一步改進部分Fig.9 Missing part of the test
利用Mask-RCNN深度學習的神經網絡模型,通過遷移學習和模型參數訓練,實現了角質顎及其色素沉積的圖像識別和分類切割,提出了基于面積獲取和像素占比計算的色素沉積量化精確測量方法。研究結果表明,本方法可以精確自動獲取角質顎色素沉積的量化占比,實現了從定性分類到定量測量的發展,促進了色素沉積與頭足類動物生長因子關系的研究,也為基于色素沉積的頭足類動物攝食變化及生存環境研究提供了基礎。
□