馮 濤,陳 斌,張躍飛
(1.中國科學院成都計算機應用研究所,成都 610041;2.中國科學院廣州電子技術研究所,廣州 510075;3.中國科學院大學計算機科學與技術學院,北京 101408)
(?通信作者電子郵箱chenbin306@sohu.com)
染色體畸變可能會引起染色體病,致使胎兒罹患嚴重的出生缺陷[1-2]。核型分析技術是應對染色體病的產前細胞遺傳學診斷金標準之一[3],指在顯微成像中對分裂中期染色體進行分割、配對和排序以確定染色體畸變的過程。傳統上,在完成標本采集、細胞培養等步驟后,醫生首先需要將染色體從分裂中期細胞核中分離出來,并在玻片上染色顯帶,然后借助顯微鏡進行觀察攝影,再利用圖像處理軟件對染色體進行手動分割,最后進行分類、分析和診斷。整個流程都需要人工參與,周期冗長且工序繁雜,還對操作人員的專業知識和實操經驗有很高要求,因此,自動核型分析系統有其有巨大的研發價值[4]。
染色體圖像分割是自動核型分析中的基礎步驟和最具挑戰性的問題之一。其困難在于,染色體照片中通常有大量彎曲變形的染色體,除了雜質干擾、難以分辨外,許多染色體還存在相互粘連甚至重疊的情況,這導致傳統圖像分割算法的錯誤率很高,意味著大多數染色體的分割仍然需要人工干預。為了提高分割性能,近年來有人嘗試用深度卷積神經網絡來解決染色體的分割問題。
本文提出了一種基于Mask R-CNN(Mask Region-based Convolutional Neural Network)[5]改進的深度卷積神經網絡框架Mask Oriented R-CNN,以期獲得更好的染色體實例分割效果。實驗表明,本文的方法在染色體分割性能上有顯著一致的提高。
具體而言,本文的主要貢獻如下:
1)指出方向信息在染色體分割中的重要性。利用方向信息,本文提出的網絡Mask Oriented R-CNN 相對于Mask RCNN來說作了若干構造性改進,獲得了更好的分割性能。
2)為了獲取方向信息并緩解非極大值抑制(Nonmaximum Suppression,NMS)算法的過度抑制,本文提出了一種用于預測有向包圍框(Oriented Bounding Box,OBB)的分支網絡。它以RoIAlign 提取的感興趣區域(Region of Interest,RoI)特征為輸入,用簡單的回歸損失進行訓練,提高了目標實例的查全率。
3)利用方向信息和包圍框邊的空間位置關系,本文提出了角度加權交并比(Angle-weighted Intersection-over-Union,AwIoU)度量。AwIoU不僅可以改進非極大值抑制過程中冗余包圍框的判別依據,還可以對包圍框進行精修。
4)利用方向信息,本文在Mask R-CNN 的掩模分支中實現了有向卷積通路(Oriented Convolutional Path,OCP)結構,使不同方向的染色體可以在不同的路徑上進行訓練,減少了粘連和重疊對掩模預測的干擾。
隨著計算能力的飛速提升和可用數據的大量增加,深度學習方法得到了廣泛的應用。卷積神經網絡(Convolutional Neural Network,CNN)作為深度學習的一個熱點,在包括圖像分割在內的許多計算機視覺領域都取得了令人矚目的成就。作為端到端語義分割網絡的先驅,全卷積網絡(Fully-Convolutional Network,FCN)[6]已經衍生出一些在生物和醫學圖像分割領域非常流行的優秀框架,如U-Net[7]。然而,利用深度學習方法進行染色體圖像分割的研究還不多見。為了解決重疊染色體難以區分的問題,Hu 等[8]提出一種簡化的UNet 模型對雙染色體圖像進行語義分割。Saleh 等[9]改進UNet 結構,采用測試時增強(Test Time Augmentation,TTA)策略來提高分割精度,而Altinsoy 等[10]則直接用U-Net 分割中期照片而不是雙染色體圖像。Pardo 等[11]開發了一個改進的FCN 模型,該模型集成了空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)[12]模塊,用于熒光圖像中的染色體分割。U-Net 和FCN 都屬于語義分割網絡,由于它們不能直接區分同一類別的不同對象,因此在實際應用中并不能很好地實現粘連染色體的分割。實例分割網絡可能是更好的方法。Xiao 等[13]開發了一個基于Faster R-CNN(Faster Region-based Convolutional Neural Network)[14]的目標檢測網絡用于分裂中期圖像染色體計數,事實上通過增加語義分割分支就可以使其進一步進行圖像實例級分割。但到最近,Xie等[15]才首先利用Mask R-CNN 這一流行的實例分割框架對染色體圖像進行了實例分割。本文的工作正是基于Mask R-CNN 實例分割框架,通過引入方向信息對其進行了多項改進。
Mask R-CNN作為一種基于區域的卷積神經網絡(Regionbased Convolutional Neural Network,R-CNN)框架,是在已有的三種目標檢測架構的基礎上發展而來的。R-CNN[16]是最早被提出的,它首先使用選擇搜索算法(Selective Search algorithm)[17]提取區域推薦(Region Proposals),然后使用預先訓練好的CNN 提取特征,最后使用支持向量機(Support Vector Machine,SVM)對每個區域推薦進行分類。由于RCNN 方法速度非常慢,因此又提出了Fast R-CNN(Fast Region-based Convolutional Neural Network)算法[18]。Fast RCNN 仍然使用選擇搜索算法,但放棄了獨立的支持向量機分類過程以實現高效的端到端訓練。Fast R-CNN 通過RoIPool模塊提取RoI 特征向量,最后利用兩個全連接層進行對象分類和包圍框坐標回歸。然而,獨立的選擇搜索算法仍然使其推理階段的效率低下。因此,Faster R-CNN 方法被提出,使用區域推薦網絡(Region Proposal Network,RPN)直接將區域推薦的產生融入架構中,以取代選擇搜索算法。以上三種基于區域的卷積神經網絡都只能完成目標檢測任務。為了同時完成實例分割任務,提出的Mask R-CNN 在Faster R-CNN 的基礎上進行了兩大改進:一是用更精確的RoIAlign 模塊代替RoIPool;二是在RoIAlign 之后加入FCN 分支以得到目標實例的二值掩模,從而實現了實例級別的圖像分割。盡管在Mask R-CNN 之后又有如PANet(Path Aggregation Network)[19]、Mask Scoring R-CNN(Mask Scoring Region-based Convolutional Neural Network)[20]等許多基于區域的卷積神經網絡框架被提出,它們針對Mask R-CNN 架構中如尺度融合、分類標準等存在的問題進行了改進,Mask R-CNN 仍然是當前最好的實例分割架構之一。本文的工作Mask Oriented R-CNN 則在Mask RCNN的基礎上引入方向信息提出了若干改進以提高染色體分割性能。
Mask Oriented R-CNN 架構如圖1 所示。首先,為了得到緊湊的包圍框以減輕軸對準包圍框(Axis-Aligned Bounding Box,AABB)對于重疊染色體的過度抑制,本文在Mask RCNN的頭部引入了一個有向包圍框的回歸分支。這也使網絡獲得了實例的方向信息。考慮到更多的上下文信息更有利于分割,本文所述架構仍然使用軸對準包圍框來執行RoIAlign。其次,為了改進NMS 中冗余包圍框的判別準則,本文提出了AwIoU 度量。AwIoU 度量基于方向信息及關于有向包圍框邊的一些樸素觀察,利用高斯函數提升染色體目標檢測效果。最后,為了改善掩模分支性能,本文基于方向信息提出有向卷積通路結構來代替原有的FCN結構。
2.1.1 研究動機
在Mask R-CNN 框架中,RPN 生成的區域推薦被輸入到RoIAlign 層以生成相應的RoI 特征,然后RoI 特征被輸入到頭部的三個并行分支,分別預測包圍框坐標精修偏移、實例類別和二值掩碼。請注意,區域推薦是以可能包含實例的軸對準包圍框的形式表示的。在預測階段,NMS 算法將根據軸對準包圍框之間的重疊程度,即交并比度量(Intersection-over-Union,IoU),消除冗余的包圍框及對應的可能實例。
通常在上述策略中,軸對準包圍框可以很好地覆蓋大多數自然對象的形狀,然而,在染色體分割的任務中,分裂中期照片中的染色體通常以不同方向的可彎曲條帶物形態出現,導致軸對準包圍框中存在大量冗余的非目標區域。對于在圖像中密集分布的染色體來說,這將使它們的包圍框出現大量重疊。設想更極端的情況,兩條相互交叉的染色體之間的軸對準包圍框可能完全重疊,因此,Mask R-CNN 的這種軸對準包圍框策略會使NMS 算法出現包圍框過度抑制的現象,錯誤地丟棄許多真實的染色體實例,從而導致較低的召回率并最終影響分割性能。顯然,使用有向包圍框是一個更好的選擇。它可以更緊密地覆蓋染色體實例,大大減少重疊區域,從而緩解NMS 的過度抑制問題。此外,有向包圍框實際上先驗地引入了方向信息,是對實例更精確建模,有利于位置回歸的準確性。基于上述想法,本文定義了有向包圍框的形式,并在RoIAlign 層后添加一個額外分支以預測每個RoI 對應的有向包圍框。網絡基于IoU對有向包圍框進行NMS處理。
2.1.2 有向包圍框回歸
通過簡單地指定水平邊長為寬、垂直邊長為高以及中心點坐標,就可以確定地、統一地描述軸對準包圍框。然而,在引入方向信息后,架構需要重新考慮包圍框的形式化描述。參考OpenCV(Open source Computer Vision library)中關于旋轉矩形RotatedRect 類的特性,可以使用類似的表述來表示有向包圍框。如圖2 所示,平面直角坐標系以圖像的左上角為原點,垂直向下和水平向右分別作為y 軸和x 軸的正方向。x軸逆時針旋轉直到平行于有向包圍框的第一條邊的角度定義為有向包圍框旋轉角度α,其弧度范圍為這里,所述第一條邊的兩個端點按順時針旋轉方向分別定義為頂點1 和頂點2,如此也同時順時針確定了頂點0 和頂點3 的位置。本文還令第一條邊(或其平行邊)的長度定義為寬(width),而垂直于寬度邊的邊的長度定義為高(height)。根據上述定義,任何一個有向包圍框都可以由其兩個對角頂點的坐標及有向包圍框旋轉角度α 唯一確定。設五元組(x1,y1,x3,y3,α)為一個有向包圍框表示,其中(x1,y1)和(x3,y3)分別表示頂點1 和頂點3 的坐標,α 表示有向包圍框旋轉角度。請注意,為了便于歸一化,本文在這里不使用寬和高等距離度量來表示有向包圍框,但它們都是定義明確且可計算的。

圖2 有向包圍框的表示Fig.2 Representation of oriented bounding box
與Mask R-CNN中的軸對準包圍框類似,有向包圍框回歸的目標是訓練網絡學習從錨框(anchors)坐標到實例的最小包圍框真值的一種數學變換形式(偏移量),而不是直接學習真值,這樣可以使其更容易學習到包圍框的表示。如圖1 所示,除了實例分類分支和軸對準包圍框分支外,有向包圍框分支將以一個額外的全連接層形式與它們共享頭部權值,以預測有向包圍框的五元組偏移量。設t=(tx1,ty1,tx3,ty3,tα)表示網絡預測的有向包圍框五元組偏移量表示其真值,其中各個參數定義如下:


其中Lreg(t*,t)與文獻[5]中定義的其他分支一樣,直接加入到多任務損失公式中。在有向包圍框回歸預測之后,網絡在NMS中采用由有向包圍框凸多邊形面積計算得到的skew-IoU(skew Intersection-over-Union)[21]替代原來軸對準包圍框所使用的IoU度量。
2.2.1 研究動機
這里首先簡要回顧一下NMS 過程。在Mask R-CNN 框架下,NMS 算法依據區域推薦對應的實例分類預測分數抑制冗余的包圍框。在標準NMS 算法中,最高得分包圍框首先被選擇,接受并認為其確實覆蓋了一個對象。然后,計算選定包圍框和其余每個包圍框之間的IoU。IoU 高于預設閾值的任何包圍框都將被視為冗余并被抑制剔除。在剩余的包圍框中,選擇下一個得分最高的包圍框,重復上述過程,直到沒有剩余的包圍框為止。經過NMS 處理后,將一定數量排名靠前的選定包圍框對應的區域推薦作為最終檢測結果。
在上述方法中,IoU 作為相似程度的度量,是判斷包圍框是否冗余的關鍵。更好的包圍框相似性度量有助于提高NMS的性能。事實上,通過引入有向包圍框,整個架構有了利用方向信息對實例進行更好建模的能力。在圖3 所示軸對準包圍框的簡單情況下,假設B1是NMS 當前選擇的最高得分包圍框,B1和B2之間的IoU 與B1和B3之間的IoU 相等,因此B2與B3在數值上對B1有同樣的相似性。然而仍然可以觀察到,在幾何直覺上B2比B3在邊的空間位置關系上與B1更具有相似性。具體地說,B2和B1的長邊都是垂直的,而B3的長邊卻是水平的;B2和B1的短邊都是水平的,而B3的短邊卻是垂直的。引入有向包圍框后,也有類似的觀察。然而對于兩個有向包圍框來說,邊垂直或水平只是很少見的情況,因此可以用兩個有向包圍框各自一組邊之間的夾角來定量地描述它們的位置關系。注意,長邊與短邊作為一組相對概念是非常不穩定的。例如,在矩形邊長非常相似的情況下,微量擾動就足以把長邊技術上轉換為短邊,反之亦然。更極端的情況,由于正方形框的所有邊長都相等,因此長邊和短邊是未定義的。所以,長邊短邊的尺度關系實際上決定了觀察者對包圍框相似性觀察的信任程度:當長邊短邊尺度差異較大時,觀察者更有信心根據邊的位置關系判斷兩個包圍框相似或不相似;相反,觀察者就很難對自己的判斷有十足的把握。

圖3 IoU相等時不同邊關系的兩組軸對準包圍框對比Fig.3 Comparison of two groups of axis-aligned bounding boxes with different edge relationships when IoU is equal
基于以上見解,可以開發一種加權方法以改進包圍框IoU相等情況下的相似性度量。定性地考慮長短邊比例和長邊間夾角兩個因素,如圖4 所示,兩個有向包圍框將出現以下任意情形之一:
a)兩個有向包圍框具有相對較大的長邊夾角,且它們各自長短邊之間的尺度比例有相對較大的差異。
b)兩個有向包圍框具有相對較小的長邊夾角,且它們各自長短邊之間的尺度比例有相對較大的差異。
c)至少有一個有向包圍框長短邊之間的尺度比例有相對較小的差異。

圖4 兩個有向包圍框的三種存在情形Fig.4 Three existence situations of two oriented bounding boxes
當IoU 相等時,觀察者可以判斷情形a)相比情形b)相似的程度更低,換言之更有可能是兩個不同實例的包圍框,且相比情形c)中類似的情況觀察者做如此判斷的信心更高,因此希望適當降低NMS 的抑制度。為此,應該為IoU 設置一個相對較小的權重因子,按相似程度最終趨近于0。對于另外兩種情況,情形b)的包圍框較相似,而情形c)的判斷不可信,因此權重應當避免對這兩種情形下NMS 的抑制產生干擾,IoU的權重因子應該盡可能接近1。為此,如圖1 所示,本文提出了角度加權交并比度量,即AwIoU,它實際上是方向信息作為先驗知識在度量設計中應用的體現。
2.2.2 AwIoU
為了數學表達的簡潔性和統一性,下文中考察非相似性而不是相似性,這不影響最后的結論。考慮一個有向包圍框B,其寬、高和包圍框旋轉角度分別表示為wB,hB和αB。本文定義有向包圍框B 的邊長非相似性(edge dissimilarity)φB∈[0,1)為:

邊長非相似性φB是對有向包圍框B 的長短邊長之間尺度差異的度量。當長短邊長尺度差異較大時,φB趨向于1,否則趨向于0。考慮以同樣方式定義的另一個有向包圍框B*。本文將B 和B*兩個有向包圍框的整體邊長非相似性ΦBB*∈[0,1)定義為:

其中k >0 是用于調節有向包圍框的邊長非相似性的顯著程度的參數。較大的k 意味著有向包圍框的整體邊長非相似性的顯著程度對長短邊長尺度的差異要求較高。通常設置其為0.3,以在長短邊長具有較小差異時就可獲得較高的邊長非相似程度。接著,本文將有向包圍框的長邊旋轉角度θ ∈(0,π]定義為:

若將有向包圍框B 和B*的長邊旋轉角度θ分別表示為θB和θB*,本文定義B 和B*的角度非相似性(angle dissimilarity)ΘBB*∈[0,1]為:

角度非相似性ΘBB*是對有向包圍框B和B*長邊夾角的度量。當長邊夾角較大時,ΘBB*趨向于1,否則趨向于0。利用高斯函數良好的平滑特性,本文構造了含邊長非相似性和角度非相似性的如下公式來計算B 和B*的權重因子λBB*∈(0,1]:

其中:σang>0和σedg>0是控制高斯函數曲線陡度的參數,前者通常取一個較大數,而后者通常取一個較小數。可以定性地來分析ΦBB*,ΘBB*和λBB*的關系:如果B 和B*的邊非相似性ΦBB*足夠大,則趨向于一個小的數。如果它與σang相乘的結果仍然足夠小,將其視為常數時λBB*高斯函數曲線將在原點附近有一個陡峭的下坡。這意味著當B和B*的角度非相似性ΘBB*足夠大時,λBB*趨向于一個小的數,這對應于前面表述的情形a)。當ΘBB*很小時,λBB*趨向于1,這對應于情形b)。當ΦBB*足夠小時趨向于1,然后λBB*趨向于由于σang通常很大,因此λBB*高斯曲線在原點附近相對平坦。因此,無論ΘBB*怎樣變化,λBB*仍然足夠接近1,這與情形(c)相對應。Φ,Θ 和λ 三者在σedg為0.1、σang為10時的部分函數圖像如圖5所示。

圖5 權重因子λ與邊長非相似性Φ、角度非相似性Θ的函數圖像(σedg=0.1,σang=10)Fig.5 Function image of weight factor λ,edge dissimilarity Φ and angle dissimilarity Θ(σedg=0.1,σang=10)
最終,有向包圍框B和B*的AwIoU定義如下:

其中IoUBB*是指有向包圍框skew-IoU 值。AwIoU 度量可作為NMS中冗余包圍框的判別準則。結合文獻[22]提出的方差投票方法,AwIoU 度量還可以幫助精修有向包圍框以提升坐標回歸的結果。
2.3.1 研究動機
在Mask R-CNN 框架中,RoIAlign 層將軸對準包圍框對應的區域特征傳送至FCN 分支中,生成區域推薦的二值掩碼。由于染色體圖像中存在大量方向各異且粘連重疊頻繁的染色體,若仍然采用軸對準包圍框對應區域特征傳至掩膜分支,勢必造成單個區域特征內包含復數條染色體的現象。從FCN分支結構上看,FCN 分支中特征信息通過四個3×3 卷積層conv1 到conv4,再通過一個步長2 的2×2 轉置卷積層,最后通過一個1×1卷積層調整通道數后輸出分割結果。整個掩模分支結構較為簡單,因此可以設計更復雜的結構來榨取潛在的性能提升。基于以上觀察,考慮到本文提出的網絡有一個有向包圍框分支,一個直觀的想法是可以使用類似Rotated RoIAlign[23]等的層代替原來的RoIAlign,從而直接使用有向包圍框來獲得實例的緊湊特征。這種思路的優點是消除了許多冗余特征并減少了噪聲,但是,該方法的缺點是其過程中使用的仿射變換會導致上下文信息丟失。本文認為這會使重疊同標簽目標的分割性能下降,因此可能不適合像染色體分割這樣的任務。在盡可能保留更多上下文信息的基礎上,本文希望利用有向包圍框提供的方向信息作為先驗知識提高染色體分割的性能。考慮到粘連重疊染色體的掩膜預測過程中,染色體方向信息十分有助于網絡區分不同實例,因此本文提出了有向卷積通路。
2.3.2 有向卷積通路結構
網絡仍然使用Mask R-CNN 的RoIAlign 操作以得到與軸對準包圍框對應的特征圖。在此基礎上,如圖1 所示,網絡將掩模分支的conv1 到conv3 卷積塊拷貝了5 次,最終得到6 條并行的卷積通路,其中各個卷積塊分別記為conv1_1,conv2_1,conv3_1,conv1_2,conv2_2,…,conv3_6。其余結構保持不變。

圖6 有向卷積通路的裝配操作Fig.6 Assembly operation of oriented convolutional paths
本文將所提出的Mask Oriented R-CNN 框架在收集的染色體分裂中期照片數據集上進行了實驗,并與原始的Mask RCNN模型進行了比較。本文還在數據集上進行了簡單的消融研究。
圖7 是數據處理過程中涉及的幾種染色體圖像示例。本文實驗一共收集了181 張分割標注的染色體分裂中期照片,包含背景、染色體和雜質3 個對象類別,是尺寸為1 017×896的單通道灰度圖。由于獲取更多標注圖片較為困難,還需另想方法擴充染色體多樣性。事實上,本文實驗還收集到了50 107組單染色體圖像,圖像大小為200×200。這些圖像是由醫生從染色體分裂中期照片中通過圖像處理軟件手工分割,并進行對比拉伸等圖像處理過的后處理圖,與原始中期照片中的風格不一致,且大部分所對應的原始中期照片均已丟失。最終,僅找到1 875條染色體可以找到對應的原始中期照片上分割出來的子圖信息。為了充分利用所有的單染色體圖像,本文利用這1 875條染色體的處理后圖像為輸入,對應的原始中期分割子圖為真值訓練了一個U-Net,以實現醫生手工處理到原始照片風格的遷移。利用這個U-Net,本文對所有50 107組單染色體圖像進行推斷遷移得到原始照片風格的分割子圖,并將這些染色體子圖與雜質圖一起按一定的數量配比隨機平移、旋轉、粘連,最終合成了15 728張分裂中期原始照片。本文實驗利用這15 728張原始風格合成分裂中期照片作為訓練集,而181 張真實的原始分裂中期照片作為測試集進行所有網絡的訓練。

圖7 幾種染色體圖像示例Fig.7 Examples of several types of chromosome images
至于評價指標,本文使用不同IoU 閾值下的平均精度均值(mean Average Precision,mAP)來評估和報告結果,這里簡記為AP。本文采取COCO 數據集(Dataset of Common Objects in Context Visual Recognition Challenge)定義的計算方法[24],且算法中的IoU 采用掩膜IoU。這里AP50表示使用IoU 閾值0.5來確定預測的掩膜在評估中是否為陽性,其余IoU 閾值的指標表示方法類似。不帶閾值表示的AP,指IoU 以0.5 到0.95區間內每隔0.05作為閾值時的平均結果。
Mask Oriented R-CNN 模型的構建是以Abdulla[25]實現的Mask R-CNN 為基礎加以改進的,其采用了如圖1 所示的ResNet(Residual Network)和FPN 作為主干網絡。本文實驗中采取的是ResNet-101+FPN 的組合。本文網絡對于原始Mask R-CNN的部分超參數進行了調整。網絡修改了數據輸入方式使其可以讀入單通道分裂中期原始圖像,并對輸入圖像統一減去灰度均值229。由于染色體中期分裂照片中目標實例尺寸小且數量多,RPN 的錨框大小改為[8,16,32,64,128]。增加了訓練階段最大真值實例數到256,而推理階段也增加到384。為了充分發揮有向包圍框在NMS 中的優勢,本文在部分實驗中取消了RPN 階段中的NMS 過程,以在RoIAlign 階段得到更多的區域推薦。在AwIoU 中本文依據預先簡單的實驗得到k 的參數值為0.3,σedg為0.1,σang為10。實驗還將原始Mask R-CNN的Hard-NMS(Hard Non-Maximum Suppression)方式改進為基于高斯函數的Soft-NMS(Soft Non-Maximum Suppression)[26]以實現更好的性能,其中設置Soft-NMS 的σ 為1,丟棄置信度閾值為0.85。本文還以有向包圍框和AwIoU為基礎實現了文獻[22]中的KL-Loss 及方差投票修正。KLLoss方法將包圍框分支預測結果與真值分別建模為高斯分布和狄拉克分布,并以這兩種分布之間的KL 散度(Kullback-Leibler divergence)作為新的包圍框回歸損失,以預測包圍框的不確定性。本文依照文獻[22]中的建模方法分別對軸對準包圍框分支和本文所提出的有向包圍框分支進行了建模,并將這兩個分支計算得到的KL 散度作為兩個新的損失添加到Mask Oriented R-CNN 的多任務損失公式中進行訓練。文獻[22]提出的方差投票修正是指,以KL-Loss 得到的包圍框不確定性(即“方差”)與NMS中各包圍框之間的IoU 為兩個考察因子,對包圍框的坐標預測進行加權投票精修。這里,實驗將IoU 替換為本文提出的AwIoU,并對軸對準包圍框和有向包圍框都進行了方差加權精修。在實現中,方差投票修正σt參數設置為0.045,NMS 投票閾值為1E -5。網絡以COCO 數據集上預訓練的權重對原始Mask R-CNN對應的層進行初始化,其余權重參數皆進行隨機初始化。使用Adam 優化器進行訓練,β1=0.9,β2=0.999,學習率初始化為0.001。所有實驗都以1的批大小進行,每次實驗訓練135個epoch,取最后一次迭代的模型評估報告。實驗機器為一臺擁有16 GB 內存,型號為Intel Core i7-8700 的處理器以及一塊NVIDIA GTX1080Ti獨立顯卡的64位Windows 10系統的計算機。
表1 總結了在本文實驗的測試集上進行染色體分割的不同方法的性能。在有向包圍框(OBB)的情況下,染色體實例緩解了過度抑制問題,并得到了更加緊實精確的包圍框,因此相比基準(Mask R-CNN)而言,除了最苛刻的AP90一項外,無論是低要求指標AP50還是較高要求的AP80幾乎全都比基準要好得多,更是在AP 這一項上提升了2.71 個百分點的性能。在添加有向卷積通路(OCP)后,AP提升了1.96個百分點的性能,此外AP50、AP60、AP70均得到了2個百分點以上的提升。

表1 不同方法的染色體分割性能比較 單位:%Tab.1 Comparisons of different methods on chromosome segmentation performance unit:%
為了更充分地發揮有向包圍框的作用,網絡去除了RPN階段的基于軸對準包圍框的NMS 操作,因此更多的區域推薦基于有向包圍框進行NMS,大部分指標的性能再次得到小幅度提升,AP 提升了0.12 個百分點。然后網絡實現了文獻[22]中的KL-Loss 方法,還為有向包圍框實現了方差投票方法,由表1 可見這給高要求的AP70、AP80、AP90帶來了較大提升,但與此同時卻對較低要求的其余指標帶來了負面影響,綜合指標AP 也因此下降了0.04 個百分點。最后,網絡實現了AwIoU 度量替代了原先的skew-IoU,盡管幅度不大,但幾乎在所有評價指標中都獲得了提升,AP 再次提升了0.16 個百分點,AP50則提升了0.36個百分點。最終,Mask Oriented R-CNN相較于基準的AP 提升了4.91 個百分點,AP50則提升了10.22個百分點。Mask Oriented R-CNN 分割效果如圖8 所示,左邊為染色體照片輸入原圖,放大的部分中左下角的條帶物為相互粘連的染色體,左上和右下的帶尾的黑團為雜質;右邊是模型分割結果,目標實例被網絡預測得到的掩模所覆蓋,可以看到粘連的染色體和雜質均取得較好的分割效果。

圖8 Mask Oriented R-CNN染色體分割效果Fig.8 Chromosome segmentation effect of Mask Oriented R-CNN
本文提出了名為Mask Oriented R-CNN 的實例分割框架,用于解決核型分析中的染色體分割任務。本文基于Mask RCNN 設計了有向包圍框、AwIoU 度量和有向卷積通路結構等幾個有效的組件來獲取和應用方向信息,并提升了染色體分割性能。本文將方向信息分別以包圍框、冗余性度量和掩膜分支三個彼此不同卻又緊密相關的角度融入到了Mask RCNN 框架之中。雖然消融實驗還不夠充分,本文還是得到了令人印象深刻的實驗結果。未來的其中一個工作方向是提升Mask Oriented R-CNN 框架的泛用性,將這個框架應用到更多的實際場景之中。