董高君,許樂樂,馬忠松,于 歌
(1. 中國科學院空間應用工程與技術中心太空應用重點實驗室, 北京100049; 2. 中國科學院大學, 北京100049)
航天器上通常搭載多種類型空間科學載荷設備,以開展多樣的空間科學實驗。 基于實驗產生的海量圖像數據,研究人員開展了表型分析相關研究,比如提取圖像中實驗對象的表型特征,包括形態、尺度、面積、體積、生長曲線等,以及時了解實驗對象在太空的狀態,保障實驗的順利開展。圖像分割技術可以實現對圖像中目標的精細識別,為后續研究工作的開展奠定基礎,因此成為科學實驗表型分析的重要技術手段。 對于空間科學實驗中的細胞圖像,面對復雜場景,比如光照不均、實驗對象互相交疊等問題,傳統的基于閾值、顏色等的統計分析方法無法取得較好的分割精度。
近年來,深度學習技術在計算機視覺領域蓬勃發展,為復雜場景下的細胞圖像分割引領了新的技術方向。 張文秀等使用經典語義分割網絡U-Net實現細胞的分割,并結合殘差塊和注意力機制,提取更多的細胞細節信息,減緩亮度不均勻、對比度較低的模型干擾;細化網絡RefineNet基于U-Net 模型提出了改進的語義分割模型,在編碼-解碼結構的基礎上添加了殘差卷積單元以及多分辨率融合模塊,使之在細胞分割任務中具有更良好的性能;全卷積網絡(Fully Convolutional Networks,FCN)作為常用的語義分割模型,使用反卷積的方法將高維特征圖上采樣至原始大小。 上述方法主要實現對細胞圖像的像素級語義分割,無法區分緊密相鄰的細胞實例。
由于語義分割不能區分同一類別的不同實例,目前研究人員已經提出了許多實例分割算法,包括基于分割的方法和基于檢測的方法。 基于分割的方法通常先進行語義分割,然后采用聚類等方法得到不同的實例目標。 深度掩碼DeepMask就是在目視圖像生成器(Visual Geometry Group,VGG)的基礎上發展出來的基于分割的方法,該網絡使用VGG 提取圖像特征之后,添加了2 個分支用于產生分割掩碼和產生估計掩碼分數值,以達到實例分割的目的;基于檢測的方法通常先基于目標檢測技術,檢測圖像中感興趣的目標,然后對這些目標進行二值分割,得到實例分割結果。 而遞歸卷積神經網絡(Recurrent Convolutional Neural Networks,R-CNN)是一種常用的基于檢測的目標檢測和圖像分割的方法,該方法先利用選擇性搜索算法生成目標候選區域,然后用支持向量機(Support Vector Machine,SVM)進行類別識別;Fast R-CNN 在此基礎上進行了一些改進,最后類別的判斷和邊框的回歸也用卷積神經網絡(Convolutional Neural Networks,CNN)實現;Faster R-CNN 在Fast R-CNN 上做了一些調整,生成候選區域的部分也直接改為用CNN 實現,即區域建議生成網絡(Region Proposal Network,RPN) 和感興趣區域池化(Region of Interest Pooling,RoI Pooling)。
Mask R-CNN是基于Faster R-CNN提出的一種經典實例分割算法,可以區分圖像中不同的實例對象,該方法在原有邊界框預測分支的基礎上提出增加掩碼預測分支來完成對每個實例的精細分割,并將RoI Pooling 改為用RoI Align 提升候選區域和特征圖匹配的準確度,該算法在多種任務場景,例如醫學、室內場景等取得了令人滿意的結果;路徑聚合網絡(Path Aggregation Network,PANet)是基于Mask R-CNN 的雙路徑增強實例分割網絡,基于特征金字塔引入自下而上的外觀增強結構,將低層特征的細節信息添加至高層特征,再進行多尺度特征的細節特征增強;混合任務級聯(Hybrid Task Cascade,HTC)充分利用Mask R-CNN 中邊框檢測分支和掩碼預測分支間的互惠關系,交替執行2 個任務分支,以提升實例分割精度;混合掩碼網絡BlendMask通過預測位置敏感實例特征和注意力特征圖來實現實例分割;掩碼分數遞歸卷積神經網絡(Mask Scoring R-CNN, MS R-CNN)基 于Mask RCNN,提出掩碼IoU 預測分支來評估掩碼預測分支的掩碼得分值,改善實例分割質量。 以上方法在實例分割任務中取得了良好的成績,但在復雜場景(如背景噪聲干擾,透明實例交疊等)下的目標實例分割中仍面臨挑戰。 Mask R-CNN 雖然是眾多分割方法的基礎框架,但是其在特征提取過程中,沒有充分融合高層語義結構信息和低層細節外觀信息,從而無法有效處理復雜場景(如光照不均、背景雜亂等)情況下的實例分割任務。
本文針對空間科學實驗中細胞圖像的分割任務,提出一種基于Mask R-CNN 的實例分割新算法,以解決上述噪聲干擾及實例交疊問題,可稱之為基于密集特征金字塔的實例分割算法(Dense Feature Pyramid Mask,DFP-Mask),適用于對復雜場景下細胞圖像進行精確的實例分割。 該方法在多尺度特征自頂向下的信息傳輸過程中以密集連接的方式控制特征圖間的信息傳遞,將高層語義結構信息傳遞至所有低層特征,改善低層特征的語義理解能力,同時抑制背景噪聲。 通過實驗定量比較和視覺比較,從準確率、召回率等指標驗證方法的提升效果和有效性。
圖1 展示了基于Mask R-CNN 的DFP-Mask網絡架構。 該架構首先由殘差網絡(Residual Network,ResNet)網絡初步提取圖像特征圖,圖2(b)中C2~C5 表示ResNet-101中conv2~conv5的最后殘差塊的輸出。 DFP 模塊通過密集連接將C2~C5 的多尺度特征融合,用于后續產生和匹配候選框。 然后區域候選網絡RPN 產生大量實例的錨框anchor,用非極大值抑制法NMS 選取概率最大的2000 個錨框作為感興趣區域候選框(RoI)。 使用RoI Align 的方法將候選框與該框對應的特征圖(圖2(b)中P2 ~P6 的輸出)匹配,分別用于實例的掩碼生成和候選框的回歸。 最后合并輸出實例分割的結果。
在DFP-Mask 中,用于提取多尺度特征的網絡由特征金字塔網絡(Feature Pyramid Networks,FPN)替換為密集特征金字塔DFP。 在FPN 中,P2~P4 分別由上一級特征圖上采樣,并與同一級的C2~C4 相加獲得,P5 由C5 直接傳入,P6 由P5 下采樣直接獲得,如圖2(a)所示。

圖1 DFP-Mask 網絡架構Fig.1 Architecture of DFP-Mask
由于FPN 的不同層級之間的特征信息無法相互融合。 而在C2 ~C5 中,較高層的特征圖(如C5)包含更多的語義結構信息,而較低層的特征圖(如C2)包含更多的細節外觀信息,同時含有更多的背景噪聲。 為了充分融合多尺度特征的語義結構和細節外觀信息,將C2 ~C5 傳輸至DFP 中獲得多尺度特征P2 ~P6。 具體來說,對P5 特征圖進行下采樣,進一步獲得包含更多上下文信息的P6 特征圖。
在DFP 自頂向下(P6 ~P2)的信息傳輸過程中,高層特征與所有低層特征進行密集連接,將較小的特征圖進行線性差值,擴展到與相應的特征圖同樣大小,再相加。

圖2 網絡結構Fig.2 Network structure
例如,P4 除了與P5 上采樣得到的特征圖相加外,也將P6 線性插值到與P4 一樣大小并相加。 其他層的特征圖同理。 以此將其豐富的語義結構信息傳遞至所有低層特征,同時抑制噪聲干擾,提升每層特征的上下文理解能力,改善復雜背景下的目標識別精度。
密集特征金字塔生成的特征圖包涵多個尺度圖像信息,有利于提高后續錨框的生成和匹配的準確性。
經過DFP 中自上而下的特征圖緊密連接操作,得到P2~P6 的多尺度語義增強特征。 這些特征圖被輸入到區域候選網絡RPN 中,獲取可能包含對象實例的感興趣區域RoI。 最后,對于每個RoI,基于Mask R-CNN 的掩碼預測分支(Mask)和邊界框預測分支(Bounding-box)分別預測實例掩碼、類別和邊界框位置,以獲取最終的實例分割結果。 網絡架構的分割表現詳見實驗部分。
本文采用的細胞數據集來自中國載人航天工程天舟一號小鼠肝卵圓細胞培養皿,包含200 張圖像。 每張圖像中細胞實例數目為10 到60 個,多個細胞間存在重疊遮擋現象和背景噪聲。 細胞圖像大小為1280×1024 像素,真實實例分割圖像通過人工標注獲得(每個細胞標注為不同顏色)。數據集以7 ∶2 ∶1的比例隨機分為訓練集、驗證集和測試集,訓練集包括140 張圖像,驗證集包括40 張圖像,測試集包括20 張圖像。
實 驗 中 基 于 Keras 2.1.3 和 TensorFlow 1.13.1 深度學習框架進行網絡構建,采用1 塊NVIDIA Tesla K80 GPU 進行網絡訓練和實例分割推斷。
由于細胞數據集中圖像數量有限,采用COCO(Common Objects in Context)數據集上的預訓練權重進行網絡初始化,并對細胞數據集執行3 個階段的訓練過程。 網絡參數更新采用動量為0.9 的隨機梯度下降方法。 其中,階段1 訓練網絡的頭部,包括RPN、邊界框預測分支和掩碼預測分支,此階段的訓練持續40 個epoch,且學習率為0.001;階段2 訓練ResNet 的C3 特征圖及更高層的網絡,此階段迭代80 個epoch,并且采用0.001 的學習率;階段3 微調網絡的所有層,此階段采用0.01 的學習率并重復40 個epoch。 訓練過程中采用0.0001 的權重衰減來防止過擬合。此外,使用batch 為4 的小批量進行梯度更新。
為了驗證DFP-Mask 算法的有效性,對Mask R-CNN 算法和本文DFP-Mask 算法進行對比。
使用precision,recall 和F1 分數評估像素級別的分割結果,precision 表示準確率,recall 表示召回率,F1-score 是同時兼顧了準確率和召回率的指標。 使用COCO 數據集的標準度量指標平均精確率mAP來定量評估細胞圖像的分割結果。 定義如式(1)~(3)所示:

其中,TP 為正確的分為正類的個數;FP 為錯誤的分為正類的個數;FN 為錯誤的分為負類的個數;t 表示mask IoU 閾值(10 個IoU 閾值,即0.50,0.55,0.60,……,0.95)。 對于多個類別,mAP 為所有類別AP 的平均值,如式(4) ~(5)所示:

其中,n表示閾值個數,c 表示實例類別,n表示類別數。
針對DFP-Mask 和Mask R-CNN 模型比較了不同的評估指標,結果如表1 所示。 數據表明:DFP-Mask 比Mask R-CNN 能夠得到更好的分割結果。 DFP-Mask 在 precision 指標上提高了2.03%,在recall 指標上提高了3.77%,在mAP 指標上提高了1%。 以上結果,尤其是mAP 指標的提升,表明本文提出的DFP-Mask 算法在細胞分割中具有較大的應用前景。
為進一步驗證算法的分割性能,比較Mask R-CNN 和DFP-Mask 的視覺分割結果(圖3)。 圖3(a)中原始圖像中細胞實例間的交疊遮擋使得對實例的準確分割有一定困難。 在Mask R-CNN中,因為FPN 自頂向下的特征傳遞過程中沒有充分利用高層語義結構信息,使得低層特征的語義理解能力提升有限,因而在細胞交疊位置的分割結果存在部分空缺(圖3(c)中的紅色箭頭處),而DFP-Mask 中DFP 采用密集連接的方式將高層特征的語義信息傳遞至所有低層特征,極大地提升了低層特征的語義理解能力,從而獲得了更好的分割結果(圖3(d))。

表1 定量評估結果Table 1 Quantitative evaluation results /%
本文驗證了在噪聲干擾及實例交疊情況下DFP-Mask 能夠得到較好的實例分割結果。 通過密集特征金字塔網絡提取多尺度特征,增強了每層特征的語義結構信息,提升了提取特征的抗噪聲干擾能力,因此對于空間科學實驗等復雜場景也具有較大的應用潛力,比如背景雜亂、噪聲干擾以及實例交疊情況下的圖像分割等。 基于實例分割結果,可以得到每一個實驗對象,比如單個細胞。 進一步可針對單個實驗對象,通過統計分析的方法提取其周長、面積、體積、圓度等表型量,了解單個實驗對象的生長發育情況。 為利于后續實驗對象的分析,DFP-Mask 可以進一步添加邊緣檢測分支,用于提高實例邊緣的分割準確度,細化邊緣細節信息,從而為空間科學實驗提供有效的分析工具。
DFP-Mask 除了用于細胞圖像外,還可用于空間植物圖像的表型特征提取,比如在水稻、擬南芥等的培養過程中,采集的圖像也會存在光照不均、培養箱背景干擾、培養箱上倒影干擾等復雜場景情況,采用DFP-Mask 可以增強實驗對象的語義結構信息,同時降低噪聲干擾,提高實例分割結果,進而提高實驗對象表型特征提取的有效性。
1)本文基于空間科學實驗中的細胞圖像,提出一種基于密集特征金字塔的實例分割模型(DFP-Mask)來解決復雜場景下的細胞分割難題。在DFP-Mask 中,采用了自上而下的密集連接方式(DFP)提取多尺度特征,以提升多尺度特征的語義理解能力并同時抑制背景干擾。
2)在天舟一號小鼠肝卵圓細胞數據集上的定量評估和視覺分割結果均表明,DFP-Mask 在復雜場景情況下的實例分割能力優于Mask R-CNN。
3)DFP-Mask 算法可進一步提取空間科學實驗對象的表型特征,包括數量、形態、體積等。
4)本文DFP-Mask 算法將為空間科學實驗及醫學實驗的智能分析提供一種新的技術手段,如在有雜質干擾情況下細胞或植物的分割等。
致謝:感謝中國載人航天工程提供的天舟一號細胞圖像數據。

圖3 視覺分割結果Fig.3 Visual segmentation results