孫世強 左海維 趙露婷



摘要:非極大值抑制(Non-Maximum Suppression,NMS)算法作為Faster R-CNN(region-based convolutional neural net-work,R-CNN)的后置處理算法,從物理空間判定檢測框的重疊比例,忽略內(nèi)在特征聯(lián)系,造成漏檢和誤檢問題。因此提出聯(lián)合特征相似性度量和交并比的檢測框優(yōu)選方法(Optimized box Based on lou and Feature similarity,OBIF)。該方法首先計算兩個檢測框的交并比(Intersection over Union,lou),判斷檢測框之間的重疊比例;然后計算閔式距離,表示重疊的檢測框之間的特征相近性,進行深層次判斷;最后聯(lián)合閔氏距離和交并比實現(xiàn)檢測框優(yōu)選。當運行效率一致和時間復雜度相同時,將Faster R-CNN+OBIF應用到PASCAL VOC 2007數(shù)據(jù)集和結直腸腺癌數(shù)據(jù)集,比較傳統(tǒng)NMS算法,平均識別準確率分別提高了1.4%和1.1%,方法檢測精度得到顯著的提升。
關鍵詞:目標檢測;非極大值抑制算法;FasterR-CNN;交并比;特征相似性度量
中圖分類號:TP391.41 文獻標識碼:A
文章編號:1009-3044(2019)29-0190-04
根據(jù)2018年的世界癌癥報告,癌癥已成為主要的公共健康問題和首要死亡原因。早期癌癥可以臨床治愈,治愈率達80%,而對于中晚期癌癥,通過正規(guī)治療,可以延長生命期,但治愈率較低,不足20%。與中晚期癌癥患者相比,早期病人的長期生存率和生活質(zhì)量都有顯著提高,治療費用也大幅下降,所以早期診斷和治療意義重大。
在臨床上,病理學檢查往往被視為癌癥診斷的金標準。其中,病理圖像是對患者病變部位的組織進行切片,在顯微鏡下進行放大成像得到的圖像。能夠直接反映出組織內(nèi)部所發(fā)生的病變,是醫(yī)生進行癌癥診斷的重要依據(jù),甚至是最終依據(jù)。由于病理學人才的缺失、病患人數(shù)的增加、對癌癥準確診斷率和診斷時間的更高要求,目前將深度學習技術嘲融入計算機輔助系統(tǒng),承擔病理圖像前期預分析工作,將病理圖像中存在問題的細胞核進行框選,最終由醫(yī)生進展針對性診斷,可以較大程度縮短早期病理診斷時間,減少和舒緩病理醫(yī)生的工作量和精力,提高癌癥診斷效率。
本文實驗采用Faster R-CNN(region-based eonvolutionalneural network,R-CNN)框架應用至結直腸腺癌數(shù)據(jù)集,癌癥病理圖像特征圖經(jīng)RPN網(wǎng)絡嗍(Region Proposal Network,RPN)后會生成大量的檢測框。NMS (Non-Maximum Suppression,NMs)算法對檢測框集合進行合理篩選,合并同類別檢測框,以達到問題細胞核分類和檢測框回歸的目的。由于NMS算法僅將交并比(Intersection over Union,IoU)作為評價指標,容易造成目標的漏檢和誤檢。此外,NMS算法忽略各檢測框特征圖的內(nèi)在特征聯(lián)系,不具有特征敏感性。所以本文提出聯(lián)合特征相似性度量和交并比的檢測框篩選方法(optimized box Based on louand Feature similarity,OBIF),通過設置合理OBIF指標閾值,完成病理圖像中問題細胞核的檢測工作,輔助醫(yī)生完成癌癥診斷。
1相關知識
1.1Faster R-CNN
Faster R-CNN是目標檢測領域經(jīng)典算法,它將feature既-traction、proposal提取、bounding box regression、classification整合在一個網(wǎng)絡中。如圖1所示,F(xiàn)asterR-CNN分為4個主要內(nèi)容:
(1)Faster R-CNN采用一組基礎的conv+relu+pooling層提取圖像的特征圖。該特征圖被共享給RPN和全連接層。
(2)RPN網(wǎng)絡用于生成region proposals。RPN實際分為兩條操作線,一條通過softmax分類anchor屬于foreground或者background,另一條計算對于anchor的框回歸偏移量,修正an-chor獲得精確的proposals。
(3)Roi Pooling層收集輸入的feature maps和proposals,綜合后提取proposalfeaturemaps,送入全連接層判定目標類別。
(4)利用proposalfeaturemaps計算proposal的類別,同時再次框回歸獲得檢測框最終的精確位置。
其中,特征圖經(jīng)過RPN網(wǎng)絡后產(chǎn)生約20K個anchor,但如此數(shù)量的檢測框不可能全部送入Fast R-CNN。一方面這20K個anchor中存在大量重疊的檢測框,另一方面會產(chǎn)生巨大的計算開銷,造成檢測速度下降。因此在RPN網(wǎng)絡生成檢測框后要采用一定的機制來進行優(yōu)化篩選,在Faster R-CNN中,目前采用的是非極大值抑制的方式,具體如下:
(1)檢測框集合P,檢測框置信度集合c和保留檢測框集合K;
(21將集合c從大到小排列,將置信度最大所對應的檢測框移至集合K中,并在集合P中將該檢測框刪除;
(3)計算集合P剩余檢測框與該檢測框的IoU值,刪除大于設定閾值T的檢測框;
(4)重復(2)和(3)的操作步驟,直至集合P為空。
1.2閔可夫斯基距離
在智能分類算法中,為區(qū)分樣本之間的差異性,通常需要做樣本特征的相似性分析,并以“距離”作為評價指標。根據(jù)數(shù)據(jù)特性的不同,可以采用不同的相似性度量方法,本文選用的是閔可夫斯基距離。
閔式距離是衡量數(shù)值點之間距離的一種非常常見的方法,兩個n維向量