梁正興,王先兵,何 濤,吳中鼎,張 嘉
實例分割和邊緣優(yōu)化算法的研究與實現(xiàn)
梁正興1,王先兵1,何 濤2,吳中鼎3,張 嘉3
(1. 武漢大學國家網(wǎng)絡安全學院,湖北 武漢 430000; 2. 中國科學院計算技術研究所,北京 100080; 3. 貴陽鋁鎂設計研究院有限公司,貴州 貴陽 550000)
近年來,實例分割技術正受到越來越多的關注。Mask R-CNN實例分割方法是實例分割領域中的重要方法,但是用Mask R-CNN方法得到的結(jié)果中,每個分割出的實例的邊緣往往不夠理想,無法與真正的邊緣完全吻合。針對此問題,提出了一種用顯著性目標提取方法得到的結(jié)果與Mask R-CNN實例分割結(jié)果相結(jié)合的方法,從而得到更好的實例分割邊緣。首先,利用Mask R-CNN對圖片進行識別,得到實例分割的結(jié)果。然后用PoolNet對待檢測圖片進行處理,得到圖片中的顯著物體信息。最后用PoolNet的結(jié)果對實例分割的掩碼圖邊緣進行優(yōu)化,從而得到邊緣更好的實例分割結(jié)果。經(jīng)過測試,該方法可以對絕大多數(shù)待檢測目標較為顯著的圖片在一些重要指標上得到比Mask R-CNN更好的分割結(jié)果。
實例分割;Mask R-CNN;顯著性目標;邊緣優(yōu)化;掩碼信息
圖像分割是計算機視覺對一幅圖像進行后續(xù)處理的基礎,計算機視覺離不開圖像分割技術。因此,其是計算機視覺中的經(jīng)典問題,同時也是最難的問題之一。
早期的圖像分割技術主要有基于閾值[1]的分割方法、基于邊緣檢測[2]的分割方法、基于小波分析和小波變換[3]的分割方法、基于遺傳算法[4]的圖像分割以及基于主動輪廓[5]模型的分割方法等。以上方法都有自己的優(yōu)勢,但缺點也很明顯,往往缺失圖像中的語義信息,因此大多只能用于特定場景下的圖像分割,并不能夠進行普遍的使用。因此,為了利用圖像中的語義信息,出現(xiàn)了基于聚類[6]的圖像分割方法。然而,該方法僅僅利用了像素點的亮度、顏色、紋理等低級語義信息,在實際場景中,一些物體的結(jié)構(gòu)比較復雜,因此無法得到好的結(jié)果。近些年來隨著深度學習技術的逐步深入,圖像分割技術有了突飛猛進的發(fā)展,深度卷積神經(jīng)網(wǎng)絡可以提取圖片中的高級語義信息,很好地解決了傳統(tǒng)方法中語義信息缺失的問題。
然而,通過深度卷積神經(jīng)網(wǎng)絡得到的實例分割結(jié)果中,檢測目標的邊緣部分往往與實際邊緣相差很大,在實際應用的場景中,比如在增強現(xiàn)實(augmented reality,AR)技術應用領域中,由于檢測出的目標的邊緣信息錯誤率很大,在跟目標物體進行互動的時候,往往會發(fā)現(xiàn)目標物體的邊緣粗糙,有些部分缺少必要的像素,有些部分又帶有實際邊緣以外的像素,使得AR的真實感大打折扣,嚴重影響用戶的實際體驗效果。在其他場景中,邊緣信息的錯誤也會對實例分割的效果帶來或多或少的影響。因此,如何對像Mask R-CNN[7]深度卷積神經(jīng)網(wǎng)絡實例分割的邊緣信息進行優(yōu)化,成為了一個很重要的研究課題。本文提出了一種基于Mask R-CNN和PoolNet的實例分割邊緣進行優(yōu)化的算法,完成了對Mask R-CNN實例分割邊緣的優(yōu)化,并且實現(xiàn)了優(yōu)化算法在移動端的實時應用,提高了在AR等實際應用場景下用戶的使用感受。
在實例分割領域,近些年來也出現(xiàn)了一系列模型。根據(jù)檢測的階段數(shù)量可以分為單階段模型和雙階段模型。在單階段模型中,代表作有YOLACT[18],SOLO[19]以及PolarMask[20]。YOLACT模型將實例分割分成2個子任務,分別用一個Protonet網(wǎng)絡對輸入的每張圖片生成個原型Mask,對每個實例生成個線性組合系數(shù)。然后線性組合出預測的實例Mask。SOLO模型提出了實例類別的概念,將輸入的圖片分割成×的網(wǎng)格,如果某個網(wǎng)格包含了圖片上某個物體的質(zhì)心,則該網(wǎng)格就要負責預測該物體的類別以及Mask,其精度超過了Mask R-CNN,但速度上存在不足。PolarMask模型基于極坐標系建模輪廓,把實例分割問題轉(zhuǎn)化為實例中心點分類問題和密集距離回歸問題,不需要生成檢測框。盡管其速度和精度并不高,但對后續(xù)的研究提供了一種新的思路。在雙階段模型中,2017年,文獻[7]基于Faster R-CNN[16]模型提出Mask R-CNN模型,同時實現(xiàn)了目標檢測、預測、像素級分割,從而實現(xiàn)了實例分割。雖然Mask R-CNN的結(jié)果非常優(yōu)秀,但對于目標物體分割的邊緣往往不夠準確,因此本文的主要工作就是對Mask R-CNN實例分割網(wǎng)絡進行邊緣優(yōu)化。文獻[21]提出的PANet算法在Mask R-CNN的基礎上做出了一些改進,引入了由底向上的路徑擴增結(jié)構(gòu),充分利用了網(wǎng)絡低層的特征進行分割;引入了自適應功能池來提取感興趣區(qū)域(region of interest, ROI)特征,把多層信息整合到一起,使提取到的特征更加豐富;在最終的Mask預測分支上融合了全連接層和卷積層,得到了更加精細的分割結(jié)果。然而在實際測試中,PANet同樣存在邊緣預測不精準的問題,本文應用于Mask R-CNN的方法同樣適用于對PANet進行邊緣優(yōu)化。
視覺顯著目標檢測也是計算機視覺中的一個重要領域。過去的30年,基于傳統(tǒng)方法,對顯著性目標檢測的方法也有很多?;趥鹘y(tǒng)的方法大多使用大量的先驗信息進行檢測,導致其泛化能力比較差。隨著深度學習的興盛,出現(xiàn)了大量基于深度學習的顯著性目標檢測方法,性能和效果得到了很大的提升。PoolNet[22]網(wǎng)絡就是一種基于深度學習的顯著性目標檢測模型,其以特征金字塔網(wǎng)絡(feature pyramid networks,F(xiàn)PN)為基礎,引入全局引導模塊和特征整合模塊,實現(xiàn)對圖片中顯著性目標的提取。經(jīng)過測試,發(fā)現(xiàn)PoolNet網(wǎng)絡對于目標邊緣信息的提取比較準確,因此,本文通過PoolNet網(wǎng)絡提取顯著性目標的邊緣信息對實例分割網(wǎng)絡Mask R-CNN的結(jié)果進行邊緣優(yōu)化。
Mask R-CNN已經(jīng)成為目標檢測和實例分割領域最為重要的神經(jīng)網(wǎng)絡之一。圖1是Mask R-CNN實例分割神經(jīng)網(wǎng)絡的總體框架圖。

圖1 Mask R-CNN實例分割框架
Mask R-CNN總體來說是從Faster R-CNN改進而來,但其替換了Faster R-CNN使用的VGG網(wǎng)絡,改用了特征提取能力更強的ResNet殘差神經(jīng)網(wǎng)絡為主干網(wǎng)絡。其中,ResNet分為5個階段,假如輸入一張1024×1024的圖像,在階段1,圖像變?yōu)?56×256的特征圖,階段2變?yōu)?28×128,階段3變?yōu)?4×64,階段4變?yōu)?2×32,階段5變?yōu)?6×16。另外,為了提取圖像中的多尺度信息,Mask R-CNN還使用了FPN,其中由于階段1的特征圖過大,計算耗時,因此未采用。相反,采用了階段5的下采樣結(jié)果p6,最后利用了[P2 P3 P4 P5 P6] 5個不同尺度的特征圖輸入到RPN網(wǎng)絡中,生成不同尺度的特征區(qū)域。
RPN[7]區(qū)域生成網(wǎng)絡用于從特征圖中提取感興趣的區(qū)域。RPN對于5個不同尺度的特征圖分別對其中的每個位置點進行預測。對于圖像的每個位置,每個特征圖都會生成3個相同面積,不同比例的錨框,分別為{1:1, 1:2, 2:1}。對于每個生成的錨框,RPN網(wǎng)絡輸出2個信息:框中是否有物體存在以及錨框與實際物體邊界框的誤差。在得到錨所屬于的類別之后,若該錨屬于前景,則對其進行邊界框修正,由4個值控制,分別是,,和,其中和代表錨在水平和豎直方向上的偏移,和分別代表寬和高的修正比例??偟膩碚f,通過RPN網(wǎng)絡可以得到5個不同尺度的特征圖的若干個anchor box (錨框),然后通過非極大值抑制算法保留將近2 000個感興趣區(qū)域。
Mask R-CNN對不同尺度的特征圖經(jīng)過ROI Align操作得到的感興趣區(qū)域的固定大小的特征圖進行Concat的操作,隨即進入分類和預測的網(wǎng)絡。網(wǎng)絡分為預測類別的全連接網(wǎng)絡、預測邊界框的全連接網(wǎng)絡、預測mask的全卷積神經(jīng)網(wǎng)絡,3個部分是平行結(jié)構(gòu)。在得到Mask R-CNN的預測結(jié)果之后,可以根據(jù)預測結(jié)果和實際結(jié)果對神經(jīng)網(wǎng)絡進行訓練。模型的損失函數(shù)同樣由3個部分構(gòu)成:分類誤差、檢測誤差和分割誤差,分別由cls,box和mask表示。cls,box的計算與Faster R-CNN相同,mask由每個感興趣區(qū)域輸出的掩膜圖與實際mask之間的誤差確定。
圖2為使用Mask R-CNN用COCO數(shù)據(jù)集訓練的模型對于2幅圖中的瓶子預測的結(jié)果??梢悦黠@的看到圖2(b)中對于瓶子的邊緣的預測不光滑,有些屬于瓶子的像素沒有預測,有些不屬于瓶子的像素被預測為了瓶子。在圖2(e)中,不但瓶子的邊緣不光滑,甚至在左邊瓶子的左上角有不屬于瓶子的像素塊被預測成了瓶子。這些都是Mask R-CNN神經(jīng)網(wǎng)絡模型在邊緣預測中存在的問題。
我國的畜牧獸醫(yī)行業(yè)已經(jīng)發(fā)展到了一個至關重要的時期,上級部門、基層部門、一線從業(yè)人員,都應該強化自己的責任意識。只有把責任放在心里,才能在工作中注意細節(jié),注意質(zhì)量。加強行業(yè)的執(zhí)法監(jiān)測力度,把畜牧產(chǎn)品的衛(wèi)生、產(chǎn)品質(zhì)量放到第一位,讓安全成為畜牧獸醫(yī)這行業(yè)的代名詞。責任貴在落實,只有心中有責任,手上有落實,才能真正的為行業(yè)的創(chuàng)新改革保駕護航。

圖2 Mask R-CNN預測結(jié)果示例((a)、(d)原圖片;(b)、(e) Mask R-CNN預測的掩膜圖;(c)、(f)根據(jù)掩碼圖裁剪出的圖片)
在顯著性目標提取卷積神經(jīng)網(wǎng)絡中,高級語義信息有助于顯著性目標位置的提取,而低層次和中層次的特征有助于優(yōu)化顯著性目標的邊緣信息。基于以上的知識,PoolNet神經(jīng)網(wǎng)絡在基礎的特征提取U形網(wǎng)絡上提出了2個互補的模塊,使得其能夠準確地捕捉物體的位置同時銳化細節(jié)。圖3展示了PoolNet顯著性物體提取網(wǎng)絡的總體結(jié)構(gòu)。
PoolNet神經(jīng)網(wǎng)絡以FPN的U形網(wǎng)絡為主要基礎架構(gòu),圖3左上角為典型的FPN網(wǎng)絡結(jié)構(gòu)。然而,在FPN U形結(jié)構(gòu)中存在著一定的問題。高層次語義信息傳遞到低層時,有關于目標位置等方面的高層信息被逐漸稀釋,不能夠把高層特征信息與低層特征信息很好地融合到一起。所以,PoolNet引入了2個模塊來解決以上問題。

圖3 PoolNet神經(jīng)網(wǎng)絡總體框架
其中一個是全局指導模塊(global guidance module,GGM)。GGM包含改進的金字塔模塊(pyramid pooling module, PPM)以及全局指導流(global guiding flow, GGF),可以使每一層的特征圖都明確地知道顯著對象的位置這一高級語義信息。PPM由4個子分支構(gòu)成,分別生成不同尺度的特征圖。有了PPM提供的特征信息,GGF將該高級語義信息傳遞給U形網(wǎng)絡中的特征圖中。GGM模塊可以顯著地提高FPN U形網(wǎng)絡對于顯著性物體位置信息的定位的準確度。
另一個是特征聚合模塊(feature aggregation module,F(xiàn)AM)。FAM模塊具有4個子分支,輸入的特征圖在其中3個子分支中分別用2,4,8倍的平均池化進行下采樣,然后再經(jīng)過2,4,8倍的上采樣分別得到特征圖,另一個子分支保留原來的特征圖。最后將4個分支的特征圖結(jié)合起來,用3×3的卷積層進行處理。FAM模塊具有2個優(yōu)勢,①當上采樣速率很大時,可以很大程度上減少上采樣的混疊效應;②幫助每個金字塔層次都能夠獲得全局的信息,進一步擴大了整個網(wǎng)絡模型的感受野。
為了提升對于目標邊緣的預測準確度,PoolNet網(wǎng)絡模型在訓練的過程中,使用了用于邊緣檢測任務的數(shù)據(jù)集,而不僅僅是使用用于顯著性目標提取任務的數(shù)據(jù)集。經(jīng)過與邊緣檢測的聯(lián)合訓練,大大提升了PoolNet模型對于顯著性物體邊緣預測的準確度。這也是本文采用PoolNet模型的結(jié)果優(yōu)化Mask R-CNN模型結(jié)果的關鍵。如圖4所示,PoolNet對于物體邊緣的預測遠遠優(yōu)于Mask R-CNN。圖4(c)對于2個瓶子的邊緣預測結(jié)果比圖4(b)更為平滑且符合實際,但圖4(a)中的桌墊同樣作為顯著性物體被預測了出來,這也是本文所要解決的問題之一。圖4(f)對于2個瓶子邊緣的預測結(jié)果也優(yōu)于圖4(e)Mask R-CNN的結(jié)果。在經(jīng)過大量的實驗之后,實驗結(jié)果表明,PoolNet神經(jīng)網(wǎng)絡模型可以對圖片中的顯著性物體做出很好的預測,且對于顯著物體的實例邊緣預測的準確率遠高于Mask R-CNN模型。但由于PoolNet不是實例分割網(wǎng)絡,無法將圖片中的實例分割開來且無法判斷實例的類別,因此需要提出一種算法將PoolNet的結(jié)果應用起來。

圖4 PoolNet預測結(jié)果與Mask R-CNN結(jié)果對比((a)、(d)輸入的原圖片;(b)、(e) Mask R-CNN的掩膜圖;(c)、(f) PoolNet的結(jié)果)
對于輸入的圖片集,輸出其目標物體之外背景的圖片。首先用PoolNet卷積神經(jīng)網(wǎng)絡對輸入的圖片集進行處理,得到顯著性物體識別效果的灰度圖,圖中屬于顯著性物體的像素為白色,屬于背景的像素為黑色,將此效果圖保存。然后對輸入的圖片集中的每一幅圖片分別用Mask R-CNN進行處理,得到檢測的結(jié)果,如果檢測結(jié)果中沒有目標物體,則直接對下一幅圖片進行檢測,如果有目標物體,則對檢測到的目標物體的邊界框、掩碼圖進行下一步處理。對于圖片中每一個表示目標物體的位置的邊界框,計算其與其他邊界框的交并比(intersection over union, IOU),IOU值表示2個矩形框交集的面積與并集的面積的比例。對于與其他任意一個邊界框有IOU值高于0.1的邊界框,本文認為這樣的邊界框中的目標物體與圖片中的其他目標物體重疊的部分太多。由于PoolNet只能識別圖片中的顯著性物體,因此如果圖片中顯著性物體的重疊面積過大,PoolNet將無法將其邊緣有效區(qū)分開來,因此無法使用PoolNet的結(jié)果進行優(yōu)化。所以,本文直接采用Mask R-CNN的結(jié)果對原圖片中該區(qū)域的目標物體進行摳圖。如果該邊界框與其他任意一個邊界框的IOU值都沒有超過0.1,那么可以認為該邊界框中的目標物體與其他目標物體沒有太多重疊的部分,可以采用PoolNet對邊緣進行優(yōu)化。
對于符合IOU條件的邊界框,先對其進行適當?shù)臄U大,以保證目標物體全部包含在邊界框之內(nèi)。然后對于邊界框內(nèi)的掩碼圖分別進行適當?shù)財U大和縮小。其中,擴大的目的是為了保證掩碼圖可以將目標物體全部覆蓋,不至于漏掉屬于目標物體的像素點;而縮小的目的有2點:①為了確保當該目標物體不屬于顯著性物體時,即PoolNet無法對對其進行識別時,還能夠保留Mask R-CNN的結(jié)果;②因為有時候PoolNet對于目標物體中間部分的識別不夠好,會把目標物體中間的部分錯誤地當成圖片的背景,對Mask R-CNN掩碼圖縮小以確保中間部分的像素不會丟失。
圖5為PoolNet與本文算法結(jié)果對比??梢钥闯?,通過對Mask R-CNN掩碼圖進行放大和縮小的操作,避免了由于PoolNet預測不準確導致的中間部分像素缺失的問題。經(jīng)過大量的實際測試,對于每個邊界框中的目標物體掩碼,掩碼在上、下2個方向上擴大和縮小的像素個數(shù)的計算式為

在左、右2個方向上擴大和縮小的像素個數(shù)的計算式為

上述方法可以保證縮小的掩碼圖覆蓋目標物體絕大多數(shù)的部分,絕大多數(shù)情況下擴大的掩碼圖能包括目標物體的全部區(qū)域但是又不至于多出太多的背景區(qū)域的像素,如果擴大的掩碼圖比實際目標物體大太多,則可能會包含圖片內(nèi)其他顯著性物體,導致無法用PoolNet進行邊緣優(yōu)化。
在得到放大和縮小的Mask R-CNN掩碼圖之后,本文調(diào)用原圖片對應的PoolNet處理過的顯著性物體識別圖片,然后Mask R-CNN擴大過的邊界框中的像素逐像素進行處理。對于屬于縮小的掩碼圖的像素,直接將其定義為屬于該目標物體的像素;對于屬于擴大的掩碼圖且不屬于縮小過的掩碼圖的像素,查看該像素點在PoolNet效果圖上對應的像素值,若該點像素值大于200,則認為該像素屬于目標物體,若不大于200,則認為該像素屬于背景;對于不屬于擴大的掩碼圖的像素,直接認為該像素點屬于背景,而不必調(diào)用PoolNet顯著性物體識別效果圖。經(jīng)過如上步驟的處理,本文得到用PoolNet優(yōu)化過的Mask R-CNN掩碼圖。

圖5 PoolNet結(jié)果與本文算法結(jié)果對比((a)、(d)原圖像;(b)、(e)原圖像經(jīng)過PoolNet網(wǎng)絡得到的預測結(jié)果;(c)、(f)本論文算法得到的最終掩碼圖)
本文使用得到優(yōu)化過的掩碼圖對原圖片進行處理。對于屬于掩碼圖的像素直接保留,對于不屬于掩碼圖的像素,將其像素值置零。如圖6所示,利用得到的優(yōu)化過的掩碼圖可以將目標物體較為完美地從圖片中摳出。使用PoolNet修正了Mask R-CNN中絕大多數(shù)不合理的地方,目標物體的邊緣變得光滑且精確。本文算法不僅可以適用于對于瓶子的提取,而且對任何可以用Mask R-CNN模型識別的顯著性物體的提取都有效。
圖7為部分測試圖片采用本文算法與Mask R-CNN運行結(jié)果的對比。其中,圖7(a)和(b)是本文在瓶子數(shù)據(jù)集上的測試結(jié)果的部分展示,圖7(c)是對每張圖片分別更換檢測的目標物體后用本文算法的測試結(jié)果。在目標物體與目標物體或目標物體與顯著性物體之間沒有明顯相互遮擋情況下,本文算法能夠很大程度上優(yōu)化Mask R-CNN對于特定物體的實例分割邊緣。如果對Mask R-CNN模型采用特殊的的訓練集訓練其對于特定物體的識別能力,則能夠盡可能提高識別特定物體的準確率。并且,本文算法不止對于某種特定物體有效,對于所有可以采用Mask R-CNN檢測的顯著性物體都有明顯的優(yōu)化效果。本文算法分別在PC端和服務器實現(xiàn)了2個實例分割邊緣優(yōu)化的系統(tǒng)。

圖6 使用本論文算法得到的效果((a)、(d)原圖片;(b)、(e)優(yōu)化過的掩碼圖;(c)、(f)實驗結(jié)果其中;(e)、(f)為改變待識別目標物體為小狗之后從圖片中提取小狗的效果)

圖7 實驗結(jié)果((a)、(b)在瓶子數(shù)據(jù)集上測試的結(jié)果;(c) 檢測目標物體為其他對象的測試結(jié)果)
本文在包含有二十多個種類,幾百張分辨率為1024×1024的圖片的瓶子數(shù)據(jù)集上fdsf使用GTX1080Ti型號的GPU按照一批一張的方式進行了測試,速度可以達到0.366 fps,其中絕大多數(shù)時間用于Mask R-CNN模型的預測,用于PoolNet模型預測的速度達到了4.89 fps。
另外,為了定量測試本文算法對于邊緣優(yōu)化的效果,使用了本文標注的瓶子數(shù)據(jù)集作為GT(ground truth)圖像來進行測試。由于瓶子數(shù)據(jù)集的標注較為準確,因此可以作為對預測結(jié)果的參照來定量分析預測結(jié)果的準確性,采用以下2個算式來定量分析算法的優(yōu)化效果:
(1) 精準率(precision),即分割正確的面積占預測面積的百分比,也是預測正確的像素點的個數(shù)占預測總像素點個數(shù)的比例

其中,為預測正確的像素點的個數(shù);為預測錯誤的像素點的個數(shù)。
(2) 召回率(recall),即預測正確的像素點個數(shù)占GroundTuth像素點個數(shù)的比例

其中,為預測正確的像素點的個數(shù);為GT中沒有被預測的像素點個數(shù)。
經(jīng)過實際測試,Mask R-CNN的分割精準率為91.9%,本文精準率為96.4%;Mask R-CNN的召回率為96.8%,本文的召回率為95.6%。從測試結(jié)果可以看出,本文算法在精準率上相比于Mask R-CNN有著較大的提升,說明本文算法所預測的實例分割的邊緣往往不會超過實際邊緣,而Mask R-CNN常常超出實際的邊緣。本文算法的召回率相比于Mask R-CNN有些許的不足,主要是因為本文算法要求輸入的圖片上待識別的物體必須顯著且不與其他顯著物體重疊,而用于測試的數(shù)據(jù)集并不能完全滿足此條件。因此本文算法在不符合條件的圖片上所預測的結(jié)果會漏掉不顯著的區(qū)域,而在符合條件的圖片上的優(yōu)化效果非常顯著。
本文主要在優(yōu)化實例分割算法的研究方面,實現(xiàn)了用PoolNet深度神經(jīng)網(wǎng)絡來優(yōu)化Mask R-CNN實例分割邊緣的算法。很多研究者都希望通過調(diào)整網(wǎng)絡結(jié)構(gòu)或者改變訓練過程來優(yōu)化實例分割的邊緣,本文則是通過添加一個顯著性物體識別網(wǎng)絡,來對實例分割神經(jīng)網(wǎng)絡預測的邊緣進行優(yōu)化。實驗結(jié)果顯示,本文算法能夠?qū)ask R-CNN實例分割邊緣有著明顯的優(yōu)化效果。
[1] 張建光, 李永霞. 基于閾值的圖像分割方法[J]. 福建電腦, 2011, 27(8): 86-86, 89. ZHANG J G, LI Y X. Image segmentation method based on threshold[J]. Fujian Computer, 2011, 27(8): 86-86, 89 (in Chinese).
[2] 沈志忠, 王碩, 曹志強, 等. 基于邊緣檢測的圖像分割方法及其在機器魚中的應用[J]. 機器人, 2006, 28(4): 361-366. SHEN Z Z, WANG S, CAO Z Q, et al. An image segmentation algorithm based on edge detection and its application in robotic fish[J]. Robot, 2006, 28(4): 361-366 (in Chinese).
[3] 劉洲峰, 徐慶偉, 李春雷. 基于小波變換的圖像分割研究[J]. 計算機應用與軟件, 2009, 26(4): 62-64. LIU Z F, XU Q W, LI C L. Image segmentation based on wavelet transform[J]. Computer Applications and Software, 2009, (4): 62-64 (in Chinese).
[4] 李銀松. 基于遺傳算法的圖像分割方法[D]. 北京: 北京交通大學, 2014.LI Y S. Image segmentation method based on genetic algorithm[D]. Beijing: Beijing Jiaotong University, 2014 (in Chinese).
[5] 高梅, 余輪. 基于主動輪廓模型的圖像分割算法[J]. 漳州師范學院學報: 自然科學版, 2007, 20(4): 41-46. GAO M, YU L. Review on active contour model based image segmentation[J]. Journal of Zhangzhou Normal University: Natural Science, 2007, 20(4): 41-46 (in Chinese).
[6] SELVER M A, KOCAO?LU A, DEMIR G K, et al. Patient oriented and robust automatic liver segmentation for pre-evaluation of liver transplantation[J]. Computers in Biology and Medicine, 2008, 38(7): 765-784.
[7] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42: 386-397.
[8] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 1-10.
[9] BADRINARAYANAN V, KENDALL, A, CIPOLLA, R. SegNet: a deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2020-02-11]. https://arxiv.org/abs/1409.1556.
[11] CHEN LC, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[EB/OL].[2020-03-16]. https://arxiv. org/abs/1606.00915v1.
[12] XIE S N, GIRSHICK R, DOLLáR P, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5987-5995.
[13] CHEN L C, ZHU G, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//2018 European Conference on Computer Vision (ECCV). New York: IEEE Press, 2018: 833-851.
[14] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6230-6239.
[15] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[16] GIRSHICK R. Fast r-cnn[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[17] REN S Q, HE, K M, GIRSHICK, R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[18] BOLYA D, ZHOU C, XIAO F Y, et al. Yolact: real-time instance segmentation[C]//2019 IEEE International Conference on Computer Vision. New York: IEEE Press, 2019: 9156-9165.
[19] WANG X L, KONG T, SHEN C H, et al. SOLO: segmenting objects by locations[EB/OL].[2020-04-08]. https://arxiv.org/abs/1912.04488.
[20] XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 12193-12202.
[21] LIU S, Li L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.
[22] LIU J J, HOU Q B, CHENG M M, et al. A simple pooling-based design for real-time salient object detection[EB/OL]. [2020-01-19]. https://arxiv.org/abs/ 1904.09569?context=cs.
Research and implementation of instance segmentation and edge optimization algorithm
LIANG Zheng-xing1, WANG Xian-bing1, HE Tao2, WU Zhong-ding3, ZHANG Jia3
(1. Hongyi Honor College, Wuhan University, Wuhan Hubei 430000, China; 2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China; 3. Guiyang Aluminum Magnesium Design and Research Institute Co., Ltd, Guiyang Guizhou 550000, China)
In recent years, the instance segmentation technology has received more attention. Although the Mask R-CNN instance segmentation method is important in the field of instance segmentation, the resultant edge of each instance cannot entirely match the real edge. In order to solve this problem, a method was proposed that combined the result of the salient object extraction with that of the mask R-CNN instance segmentation, so as to produce a better edge of instance segmentation. First, the image was recognized by Mask R-CNN, with the segmentation result obtained. Then PoolNet was utilized to process the detected image, resulting in the salient object information in the image. At last, the edge of the mask image was optimized by the result of PoolNet, attaining a better result of the edge segmentation. After testing, this method can yield better segmentation results than Mask R-CNN for most of images with salient targets in some important indexes.
instance segmentation; Mask R-CNN; salient object; edge optimization; mask information
TP 391
10.11996/JG.j.2095-302X.2020060939
A
2095-302X(2020)06-0939-08
2020-05-09;
2020-07-24
9 May,2020;
24 July,2020
黔科合重大專項字([2016]3012)
Major Special Characters of Qiankehe ([2016]3012)
梁正興(1998-),男,河南駐馬店人,碩士研究生。主要研究方向為圖形圖像處理、計算機視覺等。E-mail:870948473@qq.com
LIANG Zheng-xing (1998-), male, master student. His main research interests cover graphics and image processing, computer vision. E-mail:870948473@qq.com
王先兵(1972-),男,湖北江陵人,副教授,博士,碩士生導師。主要研究方向為圖形圖像處理、計算機視覺等。 E-mail:xbwang@whu.edu.cn
WANG Xian-bing (1972-), male, associate professor, Ph.D. His main research interests cover graphics and image processing, computer vision. E-mail:xbwang@whu.edu.cn