胡一凡,肖滿生,范明凱,吳宇杰
(湖南工業(yè)大學 計算機學院,湖南 株洲 412007)
內(nèi)窺鏡檢查是耗費精力的一個項目,息肉檢查通常也通過內(nèi)窺鏡實現(xiàn),醫(yī)生人為的內(nèi)窺鏡檢查需要高度的手眼協(xié)調(diào),耗費時間與精力,通過計算機技術輔助并減輕人為負擔是一個發(fā)展的趨勢。近幾年深度學習技術給計算機輔助診斷帶來了新的契機,目前一些在通用檢測領域使用的深度學習模型,如:Faster R-CNN[1]、SSD[2]、YOLO[3]、RetinaNet[4]等,都在目標檢測上有著優(yōu)良的表現(xiàn),能夠很好地遷移到醫(yī)學領域。
目前,息肉圖像檢測的方法分為傳統(tǒng)圖像處理方法和深度學習方法。傳統(tǒng)的圖像處理方法需要對采集的息肉圖像做一定的預處理排除干擾,同時需要進行手工特征提取以找出息肉特征,最后采用分類器進行分類。傳統(tǒng)圖像處理中提取的特征通常有SIFT特征[5]、HOG特征[6]等,這些特征提取方法需要依靠人為的先驗知識進行設計,缺乏通用性,魯棒性差,難以實現(xiàn)方法的遷移以及端到端學習。深度學習方法目前是以CNN(卷積神經(jīng)網(wǎng)絡)為基礎進行拓展的目標檢測網(wǎng)絡,深度學習的優(yōu)點在于不需要人工設計算法去提取圖像的特征,通過CNN多次卷積和池化能夠提取出圖像不同的特征,CNN的深度決定了能否提取更多的特征,目前在圖像的分類[7]、檢測[8]和分割[9]領域都有許多成熟的應用。同時近年來出現(xiàn)的以Vision Transformer[10]為主的方法,將Transformer[11]從自然語言處理領域遷移到了計算機視覺領域,提出了一種新的檢測思路,具有代表性的檢測方法有DETR[12], 也是一種極具發(fā)展?jié)摿Φ哪繕藱z測模型。
在醫(yī)學息肉的目標檢測方面,Mo X等人[13]使用了Faster R-CNN在內(nèi)窺鏡息肉數(shù)據(jù)集上進行檢測,獲得了較高的精確度,實驗結(jié)果對檢測中等和大面積的息肉效果較好,但是對小目標息肉的檢測效果不佳,并且在對比度不高和含有鏡面反光的區(qū)域中也無法正確地識別息肉。Ohrenstein DC等[14]提出了一種SSD聯(lián)合GAN的檢測方法,GAN[15]用于提升數(shù)據(jù)集中小目標的分辨率,在保證SSD檢測的速度上,提升了檢測小目標息肉的精確度,但依舊有可提升的空間。王博等人[16]提出了一種改進的M2det的內(nèi)窺鏡息肉檢測方法,使用了FFMs模塊融合主干網(wǎng)絡特征,充分利用了圖像特征,同時增加了scSENet注意力機制保留了有效特征,使得檢測效率優(yōu)于許多息肉檢測方法,但是模型對一些對比度低且形狀不規(guī)則的息肉圖像依然存在誤檢。Shen Zhiqiang等人[17]使用了一種COTR方法,將CNN和Transformer結(jié)合用于息肉檢測,該方法促進了特征重建并且加速了模型的收斂,獲得了與CNN檢測相當?shù)男阅埽@種方法檢測固著性息肉時產(chǎn)生的置信度較低,可能會導致模型漏檢。
手術切除是根治粘液腺囊腫最傳統(tǒng)的方法,但手術治療只適應囊腫與粘膜無粘連的患者。它的不足之處在于:切除囊腫對組織的創(chuàng)傷大,局部易形成疤痕,術中出血明顯止血困難;有些病變部位操作不便,術后易復發(fā)。并且,患者普遍對手術有恐懼心理,一般不愿接受。術后疼痛明顯,影響病人飲食、生活。所以目前不建議首選手術治療。
實驗所需的藥材于2016年6月采于新疆伊寧,經(jīng)鑒定為車前屬(Plantago)植物巨車前(Plantago maxima Juss. ex Jacq.),憑證標本(TLM-201601)存放于塔里木大學生物資源保護利用兵團重點實驗室天然產(chǎn)物研究室。
依據(jù)上述的研究現(xiàn)狀,提出了一種基于Mask R-CNN胃腸息肉增強檢測方法。在Mask R-CNN的特征提取網(wǎng)絡上提出替換部分卷積采用可變形卷積從而自適應特征采樣的范圍,模型之外提出了一種增強圖像邊緣強度的增強檢測模塊(CLAHE Enhanced Detection,CED),通過滑動窗口的方式對原圖進行切分和對比度增強,有效地對息肉圖像中的中小目標和不顯著目標進行檢測。
該文采用了Kvasir-SEG[27]數(shù)據(jù)集與CVC-ClinicDB[28]2個胃腸息肉圖像數(shù)據(jù)集進行實驗。Kvasir-SEG數(shù)據(jù)集包含1 000張息肉類的原始圖像并提供分割掩碼圖片和邊界框標簽,由經(jīng)驗豐富的胃腸病學家手動注釋和驗證,適用于圖像逐像素分割與目標檢測。CVC-ClinicDB是一個公開的內(nèi)窺鏡圖像數(shù)據(jù)集,包含來自31個結(jié)腸鏡序列的612張分辨率為384×288的圖像,圖像提取來自結(jié)腸鏡息肉檢測視頻,并提供原圖和息肉相應區(qū)域的掩碼信息,此數(shù)據(jù)集常用于醫(yī)學圖像分割,也是MICCAI 2015 Sub-Challenge on Automatic Polyp Detection Challenge in Colonoscopy Videos使用的官方數(shù)據(jù)集。

圖1 Mask R-CNN模型結(jié)構
特征提取網(wǎng)絡主要使用CNN進行多層的卷積獲取輸入圖像的特征圖。Mask R-CNN采用了ResNet(殘差網(wǎng)絡)[22]和FPN(特征金字塔網(wǎng)絡)[23]組成特征提取網(wǎng)絡,F(xiàn)PN能夠輸出不同尺度的特征,提供了多尺度的特征圖,ResNet具有更好的語義特征提取性能,能夠保證一定網(wǎng)絡深度的同時避免網(wǎng)絡退化,同時ResNet中Residual block(殘差塊)的簡易結(jié)構,使得ResNet能夠很好地與其他特征提取模塊結(jié)合。ResNet和FPN的模塊組合,使得模型在圖像中夠提取到更加豐富的特征,對各類目標的檢測率都有提升。
文中Mask R-CNN使用了ResNet50作為特征提取網(wǎng)絡,ResNet50被分為5個部分,每個部分由多個不同通道數(shù)的Residual block疊加,如圖3所示。模型改進使用可變形卷積來替換原網(wǎng)絡中的標準卷積,由于可變形卷積引入的偏移量ΔPn需要通過特征提取網(wǎng)絡反向傳播學習來確定,引入了一定的計算量,因而不適合將所有的標準卷積進行替換,經(jīng)過實驗驗證,最后將ResNet50中后三個卷積組中的標準卷積替換成可變形卷積能獲得比較好的效果。替換的可變形卷積增強了模型本身適應尺度變換的能力,模型可以更好地提取圖像中目標形狀的完整特征。
(4)將步驟(3)增強檢測的結(jié)果與步驟(1)初步檢測的結(jié)果融合,過濾檢測框重疊的結(jié)果,取置信度較高的檢測框,調(diào)整大小最后輸出增強檢測結(jié)果。
德國水兵俱樂部舊址1層門廳、大廳、走廊區(qū)域、3層東北角房間遺存有德租時期鋪裝的釉面磚.門廳位置保存較完整,由于使用頻繁,部分磚材出現(xiàn)污跡、裂紋、失光以及缺失,對保存較好的地磚進行溫水擦洗,清除表面污垢.
直方圖均衡化是一種提升對比度的常用方法,通過灰度直方圖的分布得到映射曲線,再通過灰度概率分布實現(xiàn)圖像的空間映射。對于離散的一幅灰度圖像gray,計算圖像中灰度值為i的像素出現(xiàn)的概率有公式(3),其中L是圖像所有的灰度數(shù),N是圖像中所有的像素數(shù),ni為像素值為i的像素數(shù),計算所得Pgray(i)是像素值為i的圖像直方圖。將Pgray應用于累積分布函數(shù)可得公式(4),即為灰度圖像的累計歸一化直方圖。
二維卷積在特征圖上作用分兩步:(1)在輸入的特征圖上使用標準的網(wǎng)格R進行采樣;(2)將采樣的結(jié)果乘上對應的權重w并進行求和。一個標準3×3的二維卷積如圖2(a)所示,網(wǎng)格R代表了二維卷積的采樣范圍,R為{(-1,-1),(-1,0),…,(0,1),(1,1)},對于特征圖Y上每個位置P0,都由公式(1)表示,其中Pn對應了二維卷積中R每一個位置。可變形卷積在公式(1)的基礎上增加了偏移量{ΔPn|n=1,2,…,N},且N=|R|,如公式(2)所示,原二維卷積的采樣范圍中增加了不規(guī)則的偏移ΔPn,隨著偏移量的取值和方向不同,使得二維卷積的采樣范圍隨給定的偏移量變化。

圖2 特征圖中二維卷積的采樣范圍(a)和可變形卷積的其中一種情況,通過引入偏移量ΔPn擴大了采樣范圍(b)
(1)
(2)
RPN是由全卷積組成的網(wǎng)絡,它為圖像生成一系列目標候選框,以便后續(xù)進一步篩選,保證模型檢測精確度。RPN預先定義一系列的候選框,通過錨點滑動窗口的方式,在特征圖的每一個區(qū)域上滑過,并由特征圖映射回原圖,在原圖上生成候選框,并判斷哪些候選框中包含目標,這樣能較精準地確定圖片中目標的位置。RPN默認定義了3種尺度的候選框,每一種尺度的候選框設置了3種比例,能夠生成9種不同比例尺度的候選框,能夠覆蓋到絕大多數(shù)的目標。

圖3 ResNet50特征提取網(wǎng)絡(a)和替換了可變形卷積的ResNet50分別在后三個卷積組上使用了可變形卷積(b)
一些胃腸息肉圖像中,檢測目標與背景有極其相似的特征,這類目標稱為不顯著目標,目視檢測的方法很難察覺到這些特征,對于通用的目標檢測模型而言檢測此類目標也有一定的難度。因此采取調(diào)整對比度的方法增強不顯著目標與背景的邊緣強度,擴大不顯著目標與背景的差異,能有效提高模型的檢測率。
可變形卷積(Deformable Convolution)[24]是應用在特征提取網(wǎng)絡中的一種特殊卷積,它增加了CNN的幾何變換能力。通常CNN中卷積的結(jié)構是固定的,卷積在圖像中滑動采樣的過程中,受限于標準卷積的結(jié)構,模型的特征提取范圍存在局限性,對未知目標的變化適應性差,泛化能力弱。可變形卷積在標準卷積的結(jié)構上引入了偏移量來增加空間采樣范圍,在原卷積核的每一個元素上增加了一個方向參數(shù),使得卷積核在模型訓練時自適應地擴大采樣范圍。
(3)
(4)
將公式(4)的直方圖運用于RGB三個圖像通道上,可對彩色圖像進行直方圖均衡化,能很好地提高圖像整體的對比度。
在直方圖均衡化的基礎上,CLAHE[25]是自適應直方圖均衡方法上的改進,CLAHE在應用累積分布函數(shù)前對直方圖進行了預定義值的裁剪,從而限制了高頻噪聲區(qū)域的局部信息增強,從而抑制噪聲。對息肉圖像而言,R通道的像素與彩色圖像原圖接近,所以使用CLAHE對圖像的G、B二通道進行增強,使目標的顏色發(fā)生一定偏移,從而減小息肉目標與背景的相似度。圖4是使用CLAHE方法對部分息肉圖像的增強效果,對一些不顯著的息肉目標可以起到很好的增強邊緣效果。

圖4 息肉數(shù)據(jù)集中原圖像(a)(b)和使用了CLAHE增強后的息肉圖像(c)(d)
(3)對切片的圖像采用雙線性插值進行適當上采樣,上采樣后的圖片進行CLAHE增強后分別送入模型進行增強檢測。
(5)
(6)
(7)
雙線性插值上采樣后像素的填充可能導致圖像的邊緣強度減弱,通過CLAHE提升對比度同時對圖像邊緣進行增強,從而能夠使模型更好地檢測小目標和不顯著目標。綜上所述,增強檢測模塊的具體流程(見圖5)如下:
(1)檢測圖像先輸入Mask R-CNN模型進行初步識別,得到部分檢測結(jié)果。
表1為不同施鉀肥處理對甜玉米苗期和抽穗期葉片數(shù)、株高、莖粗及SPAD值的影響。施用鉀肥明顯促進了玉米苗期葉片數(shù)、株高、莖粗和SPAD值的增加,與不施鉀(NP)處理相比,增幅分別為10.8%~23.2%、19.2%~40.0%、21.7%~40.1%和 8.5%~26.1%,等施鉀量不同處理的葉片數(shù)沒有顯著差異。其他施鉀處理的株高和莖粗均顯著高于全部施用有機鉀處理(100%OF),增幅分別為 10.0%~17.5%和 10.4%~15.1%。有機無機鉀肥配合施用處理的SPAD值顯著高于100%OF處理。
(2)根據(jù)輸入圖像的大小,確定合適的滑動窗口大小n,使用n×n的滑動窗口對原圖像進行切片操作。
總體來講,多重隨機森林加權大數(shù)投票對于動態(tài)行為分類效果較好,分析原因是使用多組最佳參數(shù)組合使波動誤差縮小,同時加權投票機制使最終決策更加穩(wěn)定。但是在實際的應用中,隨著基分類器個數(shù)增多,模型訓練及行為識別過程中時間消耗也會越多,應當根據(jù)實際場景去選擇基分類器的個數(shù)。
在目標檢測任務中小目標的檢測是一個難點[26],目標檢測的定義中小目標是指像素面積小于32×32個像素點,難點在于小目標所占的像素點非常少,傳統(tǒng)模型的檢測框通常針對中等目標和大型目標設計,無法很好地定位,且一些小目標在圖像上的特征表現(xiàn)過于稀少且不顯著,檢測模型在定位的過程中很難判斷是目標還是背景,導致檢測閾值過低而被模型過濾。針對這個問題,在Mask R-CNN模型的基礎上提出了一種結(jié)合CLAHE的滑動窗口增強檢測模塊,模型首先對圖像全局進行檢測,找出中等、大型息肉,在此基礎上對圖像進行滑動切片操作,將圖像分成若干個區(qū)域,再對若干區(qū)域進行雙線性插值。雙線性插值是一種圖像上采樣的方法,該方法通過圖像已知的像素點進行插值計算確定出未知的像素點,目的是為了放大小目標特征。圖像的雙線性插值操作如下:已知圖像中四個點的像素值f(P11),f(P12),f(P21),f(P22)和位置P11=(x1,y1),P12=(x1,y2),P21=(x2,y1),P22=(x2,y2)要計算上述四個點所包含的未知點Q(x,y)的像素值。首先通過公式(5)和公式(6)對Q的x方向進行插值,算出與Q點在相同x坐標下的Q1、Q2點的像素值,再通過公式(7)對Q的y方向進行插值,即可算出Q點位置上的像素值。
ROIAlign是Mask R-CNN模型對ROIPooling結(jié)構的改進,RPN在特征圖上生成候選框后通過ROIPooling將對應的候選框位置池化為固定大小的特征圖,再輸入后續(xù)的全連接層進行目標分類和邊框坐標回歸,ROIPooling在池化操作中采取了取整的步驟,使得池化后的特征圖丟失了部分細節(jié),對Mask R-CNN的分割操作有很大的影響,ROIAlign通過雙線性插值的方法算出特征圖對應的像素值,避免了ROIPooling的取整步驟,優(yōu)化了模型結(jié)構。
Mask R-CNN[18]是一個能進行多任務的圖像檢測模型[19],模型能同時進行目標檢測任務和實例分割[20]任務。Mask R-CNN主要部分由特征提取網(wǎng)絡、RPN(區(qū)域候選網(wǎng)絡)、ROI Align和全連接網(wǎng)絡四個部分組成,網(wǎng)絡結(jié)構如圖1所示。Mask R-CNN從整體上可以看作為Faster R-CNN與FCN(全卷積網(wǎng)絡)[21]的組合,模型先對圖像做目標檢測,圖像經(jīng)過特征提取網(wǎng)絡進行多尺度特征提取,并通過RPN確定目標的種類和候選框,得到每個息肉的具體位置與特征圖,在此基礎上通過FCN執(zhí)行語義分割,使每一個檢測框內(nèi)對應生成當前類別的目標分割結(jié)果。
Kvasir-SEG和CVC-ClinicDB數(shù)據(jù)集是從人體的腹腔中采集而來,腹腔中存在著大量粘液,在采集過程中由于光照會產(chǎn)生反光,反光現(xiàn)象一定程度上遮擋了圖像的部分特征,引入了過多噪聲。為了改善這種現(xiàn)象,使用了一種圖像去反光的算法[29]進行預處理,對一些具有強烈反光影響的息肉圖像修復效果較好。該算法主要步驟是檢測息肉圖像中具有強烈反光的部分,然后計算周邊非反光部分的像素值,并將這些像素值進行加權平均對反光部分進行填充。

實驗環(huán)境為Ubuntu20.04,Intel Xeon E5-2678 v3(6)@ 3.300 GHz,GPU NVIDIA RTX 2080Ti ,CUDA 10.2,深度學習框架為Pytorch,在Kvasir-SEG數(shù)據(jù)集上訓練了4 800個迭代數(shù),在CVC-ClinicDB數(shù)據(jù)集上訓練了2 400個迭代數(shù),初始學習率設為0.02,隨訓練緩慢遞減。
改進后Mask R-CNN模型在兩個數(shù)據(jù)集上訓練情況曲線記錄在圖6,模型在兩個訓練集上的loss值隨著訓練迭代數(shù)的增加由急劇下降過渡到逐漸平緩,表明模型在不斷的擬合訓練集樣本,有利于提升模型對測試集樣本的檢測精確度。
秀容川栽落草地,不動了。老砍頭走上前,略一探查,發(fā)覺秀容川心不跳了,脈搏也停止了,再看他眼睛,兩只瞳孔也散了。

圖6 改進后的Mask R-CNN在數(shù)據(jù)集上的訓練損失值
模型對Kvasir-SEG與CVC-ClinicDB數(shù)據(jù)集分別實驗,訓練集和測試集比例設為8∶2,在Kvasir-SEG數(shù)據(jù)集的實驗中隨機選取了800張圖片作為訓練集,200張圖片作為測試集,實驗中由于Kvasir-SEG數(shù)據(jù)集中小目標的數(shù)量較少,評測代碼無法對APs進行計算。在CVC-ClinicDB數(shù)據(jù)集中隨機選擇了489張圖片作為訓練集,122張圖片作為測試集。對于目標檢測任務,選擇了5個其他檢測模型進行評測對比,同時還做了三個基于Mask R-CNN的改進對比實驗。對于實例分割任務只進行了Mask R-CNN改進對比實驗,目標檢測和實例分割的試驗結(jié)果分別由表1、表2所示。
不同于R-CNN類算法需要先使用啟發(fā)式方法得到候選區(qū)域,然后在候選區(qū)域上做分類和回歸進行目標的定位和檢測,Yolov2僅使用CNN網(wǎng)絡一步預測待檢測目標的位置和類別,提供車牌端到端的預測,如圖1所示。

表2 實例分割實驗結(jié)果


表1 目標檢測實驗結(jié)果

紙產(chǎn)品主要通過造紙機來生產(chǎn)制造,生產(chǎn)過程包括漿料準備、成形、壓榨和干燥等主要工序。干燥因其體積最大、固定資產(chǎn)投資最大、能源消耗最高,被認為是最關鍵的工序。因此,本研究選擇紙張干燥過程作為切入點,總結(jié)紙張干燥過程建模與智能模擬技術的研究進展,為建立紙張干燥過程系統(tǒng)模型,實現(xiàn)智能模擬紙張干燥生產(chǎn)過程并最終助力傳統(tǒng)造紙工業(yè)轉(zhuǎn)型升級、實現(xiàn)智能制造,積累技術力量。
圖7可視化了Mask R-CNN(DCN+CED)在不同IOU閾值下的PR曲線,可以看出在IOU值為0.5和0.75時模型在兩個數(shù)據(jù)集上的表現(xiàn)良好,在IOU值為0.9時,模型表現(xiàn)欠佳,可以說明Mask R-CNN(DCN+CED)在較嚴格的測試條件下對兩個數(shù)據(jù)集仍有較好的檢測性能。

圖7 Kvasir-SEG數(shù)據(jù)集在IOU分別為0.5、0.75、0.9時的PR曲線(a)和CVC-ClinicDB數(shù)據(jù)集在IOU分別為0.5、0.75、0.9時的PR曲線(b)
圖8展示了Mask R-CNN(DCN+CED)在兩個數(shù)據(jù)集上的檢測結(jié)果的可視化圖,上三幅圖來源于Kvasir-SEG數(shù)據(jù)集,下三幅圖來源于CVC-ClinicDB數(shù)據(jù)集。從可視化結(jié)果可以看出,模型對不同形狀大小的息肉檢測效果良好,且對一些具有反光干擾下的息肉圖片也有較好的檢測效果,凸顯了改進的有效性。
帶著群眾的殷切期望,青州市歷史上首次鎮(zhèn)人大專題詢問拉開序幕。詢問代表的提問樸實、直接,貼近實際,應詢?nèi)藛T的回答實在、透徹,直面問題。能馬上辦好的,都當場做了答復;需要長期辦理的,明確了工作措施和完成時限。整個過程環(huán)環(huán)相扣、有條不紊、合法合規(guī)。

圖8 Kvasir-SEG和CVC-ClinicDB部分測試集檢測結(jié)果
該文提出了一種基于Mask R-CNN的增強檢測模型用于更好地對息肉圖像進行檢測和分割,在特征提取網(wǎng)絡中引入了可變形卷積提高了模型對圖片的特征提取范圍,同時設計了一種增強檢測模塊,在兩個數(shù)據(jù)集上的驗證實驗和模型對比實驗均表明可變形卷積和所提出的增強檢測模塊對小面積息肉和不顯著息肉的檢測有明顯的提升效果。另外提出的增強檢測模塊在理論上能夠遷移到其他檢測模型,需要根據(jù)不同任務做出一定的參數(shù)和方法調(diào)整,增強檢測需要花費多余的時間進行切分和檢測,后續(xù)將針對檢測時間較長的問題進行一定的改進,同時也將繼續(xù)研究將模塊進一步融入模型以獲得更好的兼容性。