










摘 要:散焦模糊檢測存在輪廓細節丟失、錯分均質清晰區域以及難以處理低對照度漸變區域等諸多問題,針對上述問題,提出一種基于雙向互補學習的散焦模糊檢測網絡,雙向學習、逐層融合、互補信息以生成高質量檢測結果。雙向互補學習網絡由特征提取殘差模塊、雙向互補解碼子網和融合校正解碼子網構成。殘差模塊提取原始圖像的分層級特征;雙向互補解碼子網同時學習模糊區域和清晰區域的信息,形成互補學習、互補不足;融合校正解碼子網則逐層融合成對互補特征圖,校正預測誤差;此外,所有解碼子網均采用分層監督的方式引導網絡高效學習。提出的方法在三個公開數據集上F分數分別提升了1.1%、0.1%、1.8%,檢測速度達到26.618 fps,超越了現存方法。雙向互補學習網絡可以有效地挖掘分層級特征和互補標簽的信息,快速地生成檢測結果。
關鍵詞:散焦模糊檢測;互補學習;語義特征;結構特征;特征融合
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)07-044-2190-06
doi:10.19734/j.issn.1001-3695.2021.12.0683
基金項目:國家自然科學基金聯合基金資助項目(GG2090090072,U1332130,U1713206);國家自然基金重大儀器專項資助項目(61727809);安徽省重點研究與開發計劃資助項目(1704a0902051);國家重點研發資助項目(SQ2019YFC010463)
作者簡介:張廣強(1997-),男(土家族),貴州思南人,碩士,主要研究方向為計算機視覺;鄭津津(1963-),男(通信作者),安徽懷寧人,教授,博導,博士,主要研究方向為神經網絡深度學習、圖像處理、計算機圖形學等(jjzheng@ustc.edu.cn);豐穗(1992-),女,四川德陽人,博士研究生,主要研究方向為計算機視覺;蘇天成(1998-),男,安徽利辛人,碩士研究生,主要研究方向為計算機視覺;周洪軍(1963-),女,遼寧黑山人,高級工程師,博導,博士,主要研究方向為圖像處理、同步輻射計量.
Dual direction complementary learning network based defocus blur detection
Zhang Guangqiang1,Zheng Jinjin1?,Feng Sui1,Su Tiancheng1,Zhou Hongjun2
(1.Dept. of Precision Machinery amp; Precision Instrumentations,University of Science amp; Technology of China,Hefei 230026,China;2.National Synchrotron Radiation Laboratory,Hefei 230029,China)
Abstract:Many challenging problems exist,such as,missing boundary details,misclassifying homogeneous clear areas and the difficulty of dealing with low illuminance regions,in defocus blur detection (DBD).To solve these issues,this paper proposed a dual direction complementary learning network (DDCLNet),via dual direction learning and fusing hierarchical complementary features to obtain high quality results.The network consisted of residual modules,a dual direction complementary decoder subnet (DDCDS) and a fusion correction decoder subnet (FCDS).Residual modules extracted hierarchical features of the source images.DDCDS simultaneously learned clear and blurry information to complement each other.FCDS fused complementary features.In addition,all decoder subnets utilized the supervision mechanism to guide the network to learn efficiently.The F-mea-sure increases by 1.1%,0.1%,1.8% on three public datasets than other methods and the detection speed reaches 26.618 fps,which surpasses exiting methods.DDCLNet can effectively dig out the information of the hierarchical features and complementary labels,to obtain high quality detection results fast.
Key words:defocus blur detection;complementary learning;semantic features;structural features;feature fusion
0 引言
相機景深有限、對焦不準等諸多因素會導致數字圖像存在散焦模糊現象,造成數字圖像嚴重退化、信息大量丟失,進而可能影響圖像去模糊[1]、圖像質量評估[2]、圖像恢復[3]等后續高階任務。因此,檢測散焦模糊圖像的模糊區域至關重要。
目前模糊檢測方法大致可以分為基于手工特征的傳統方法和基于深度學習方法兩大類。相比清晰的銳化區域,模糊區域更加平滑,基于這一觀察研究人員設計出一系列基于淺層級手工特征,如梯度[4]、頻域特征[5]的傳統方法。但是只依靠淺層特征的檢測方法往往表現不佳,當背景變得復雜、干擾信號增加,這些方法往往失效,如圖1(b)~(d)所示。
深度學習基于神經網絡強大的特征提取能力,在許多計算機視覺任務中表現出優異的性能,如顯著性檢測[6,7]、圖像分類[8,9]、目標檢測[10]、圖像分割[11,12]等。在散焦模糊檢測任務中,許多基于深度學習的方法[13~15]也取得了優異成果。盡管這些工作有一定突破,但是在處理輪廓細節、低對照度漸變區域、區分均質清晰區域與均質模糊區域等問題時,魯棒性無法保證,如圖1所示。圖(a)是原圖;(b)~(d)屬于傳統方法;(e)是真值標簽;(f)(g)屬于深度學習方法;(h)是本文的方法。
神經網絡提取的淺層級特征主要表達數字圖像的結構信息,深層級特征則主要表達數字圖像的語義信息。充分挖掘、利用神經網絡提取出的分層級特征的信息是算法表現良好的關鍵因素之一。本文提出利用雙向互補解碼子網挖掘分層級特征的信息以相互補足中間預測層可能會遺漏的信息,采用互補學習的方法校正預測誤差。淺層級特征需要深層級特征定位模糊區域,深層級特征需要淺層級特征修正輪廓細節,因此,本文建立由淺層解碼子網和深層解碼子網構成的雙向互補解碼子網, 淺層解碼子網融合由深至淺的特征,深層解碼子網融合由淺至深的特征,以此融合分層級特征,學習單一子網可能會遺漏的信息。深層解碼子網和淺層解碼子網采用互補學習的方式訓練參數,深層解碼子網學習模糊區域到標簽的映射,淺層解碼子網學習清晰區域到標簽的映射,兩個子網生成成對的互補特征圖,相互補足;兩個子網生成的成對互補特征圖被逐層融合到設計的融合校正解碼子網,以校正中間層級預測誤差,生成最終的高質量精細檢測結果。本文的創新貢獻表現在如下幾點:a)提出雙向學習解碼框架,能高效地挖掘、融合神經網絡提取出的分層級特征的信息;b)提出一種獨特的互補學習模式,以充分挖掘清晰區域和模糊區域的信息,互補不足、校正中間層級預測誤差;c)提出的方法在CUHK(The Chinese University of Hong Kong)[5]、DUT(Dalian University of Technology)[16]、CTCUG[15]三個公開數據集上F分數分別提升了1.1%、0.1%、1.8%。在不犧牲算法性能的前提下,檢測速度在配有一塊GTX1070 顯卡(GPU)的平臺上可以達到26.618 fps,超越了現有方法,大量消融實驗驗證了雙向互補學習方式的優異性。
1 相關工作
1.1 基于傳統手工特征的方法
圖像的模糊區域會丟失結構和輪廓等細節信息,導致其在梯度信息和頻率信息方面與清晰聚焦區域均存在明顯差異。因此,大多傳統方法根據高階梯度信息和頻率域的頻率特性設計手工特征,以檢測模糊區域。
Shi等人[7]根據梯度、頻率特性和數據驅動的局部濾波特征等一系列模糊特征表示子判別模糊區域和清晰區域,并建立了第一個公開、完整的模糊檢測數據集CUHK。Golestaneh等人[17]提出一種基于新型高頻多尺度融合和梯度、幅度排序變換的檢測方法,從多個分辨率圖像塊中提取出離散余弦變換系數,根據系數特性進行檢測。Pang等人[22]開發出一種基于核特征的模糊檢測方法,訓練一系列的支持向量機對模糊區域和聚焦區域進行分類。Zhuo等人[18]提出利用高斯核對離焦圖像進行重新模糊,然后通過原始圖像的梯度與重新模糊后梯度的比值特性得到離焦區域。Tang等人[23]通過建立平均對數譜殘差矩陣得到初級的粗糙模糊映射,再利用圖像區域鄰域的內在相關性對模糊映射圖進行迭代細化得到最終精細的映射。基于與清晰區域相比,大多數模糊區域的局部圖像塊明顯具有較少的局部二值模式的觀測,Yi等人[19]建立一個局部二值矩陣來度量模糊區域和清晰區域的二值模式,然后結合圖像的多尺度特征獲取高質量的銳化映射。
傳統方法雖然實現了一定突破,但是當場景變得復雜,傳統方法由于只對固定特征具有識別能力,往往失效。此外,傳統方法難以區分不包含梯度等高階信息的模糊區域與均質清晰區域。
1.2 基于深度學習的方法
傳統方法雖然取得一定進展,但是限于其特征的表征能力,大量研究者轉而探索深度學習方法在散焦模糊檢測任務上的表現。深度學習的方法可以自適應地提取目標特征,使得其具有強大的特征提取能力,特別是自VGG(deep convolutional neural networks)網絡[8]和殘差網絡[24]提出后。正因如此,許多研究者利用深度學習的方法在散焦模糊檢測任務中做出進一步的突破。
Park等人[25]利用卷積神經網絡提取出高維特征,結合傳統的手工特征,輸入到全卷積網絡(full convolution network,FCN)[26]中以獲取映射結果。Wang等人[27]提出一種多輸入多輸出金字塔式網絡結構,在網絡的高層級輸入同分辨率的原始圖以融入細節信息,并通過多監督方式引導網絡逐層學習,生成銳化的檢測結果。另外一些方法探索更高效地融合高層級的語義信息和低層級結構信息,如BTB-C(multi-stream bottom-top-bottom fully convolutional network)[12]、BTB-F(multi-stream bottom-top-bottom network)[16]、DFNet(recurrently fusing and refining multi-scale deep features based network)[21],其采取的策略是建立多條特征融合支路,利用自設計的獨特模塊來循環微調、校正誤差。Zhao等人[28]利用多個子網產生多樣性 的結果,然后將生成的多樣性結果輸入到掩模模板(mask層)進行融合,以相互校正預測誤差。盡管深度學習已經取得一定進展,但是散焦模糊檢測的挑戰性依然存在。
2 雙向互補學習網絡
如許多工作一樣[3,4,19,29],本文設定模糊圖像清晰區域的像素為正樣本,模糊區域的像素為負樣本。當然也有另外一種設定方式[21],設定方式不影響算法本身。
2.1 整體框架
如圖2所示,提出的網絡利用ResNext101(aggregated residual transformations for deep neural networks)[30]的五個殘差塊提取圖像的分層級特征,提取的分層級特征圖的通道數分別是64、256、512、1 024、2 048,使用卷積層將所有多通道特征圖變為“1”通道特征圖(特征圖),意味著在解碼階段的所有特征圖都是單通道的灰度圖,使得解碼子網參數急劇減少,是提出方法高效的關鍵技巧。此外,網絡還包含由深層解碼子網和淺層解碼子網構成的雙向互補解碼子網和融合校正解碼子網。所有解碼子網每引入某一層級特征,則緊連著一個雙卷積模塊來融合特征、學習對應區域到標簽的映射。如圖2所示,所有的解碼子網均采用分層監督的方式高效地學習對應標簽的信息。
2.2 雙向互補解碼子網
設計的雙向互補解碼子網可以高效地挖掘分層級特征(feature1~feature5)的信息和互補標簽的信息,互補不足。如圖2所示,淺層解碼子網以feature1所在層級為輸出支路,以feature4至feature2的順序依次融合各層級特征,目的是先用較深層級語義特征定位目標區域,再用較淺層級細節特征修正目標區域輪廓細節。深層解碼子網則是以feature5所在層級作為輸出支路,按同樣的方式融合feature4~feature2的特征。兩個解碼子網每引入某一層級的特征,則緊連著兩個卷積層以融合分層級特征,學習目標區域到對應標簽的映射。如圖2中橙色虛線所示(見電子版),所有解碼子網均采用分層監督方式,逐層引導網絡學習對應標簽的信息。用于監督淺層解碼子網標簽的白色區域代表清晰區域,黑色區域代表模糊區域,深層解碼子網的標簽則剛好是其互補圖,以此同時學習模糊區域和清晰區域的特征,生成成對互補特征圖,相互補充、互補不足。融合校正解碼子網的標簽則是設定的目標標簽(清晰區域像素為正樣本,模糊區域像素為負樣本,即圖2中互補標簽1,互補標簽1是本文設定模式下的真值圖,最終結果的理想目標即為互補標簽1),引導網絡生成最終高質量精細的檢測結果。
2.3 融合校正解碼子網
雙向互補解碼子網學習的是互補區域到對應標簽的映射,因而深層解碼子網檢測的是模糊區域的特征,淺層解碼子網則檢測的是清晰區域的特征。如果不能有效地融合雙向互補解碼子網檢測的不同區域的互補特征,則可能對最終檢測結果產生不利影響。如圖2中紅色虛線方框所示(見電子版),建立融合校正解碼子網,以像素減去(加上)深層(淺層)解碼子網生成的特征圖,以此逐層融合雙向互補解碼子網生成的成對互補圖,校正中間層級預測誤差。消融實驗表明,提出的融合校正解碼子網可以有效地融合互補特征,促進生成高質量精細檢測結果。
2.4 損失函數
在監督階段,所有解碼子網的特征圖每經過一個雙卷積模塊(圖2中紫色模塊)處理后都返回輸出,并上采樣到與標簽相同分辨率,然后與相應標簽同時喂給目標損失函數。最后網絡總的損失函數是前面各個輸出產生的損失函數的加權和,以此分層監督,校正預測誤差,引導生成最后的檢測結果。
交叉熵損失函數(BCEloss)作為分層監督的目標優化函數。損失函數的計算如式(1)(2)所示。其中,1(·)表示指示函數;F(·)表示預測圖;P(·)表示像素分類正確的概率;G(·)表示標簽;l(·)表示單層損失函數;L(·)表示總的損失函數;c表示標簽像素類別;W、H表示圖像寬、高;(x,y)表示像素位置;θ表示網絡參數;n表示分層監督的次數;αi表示分層輸出損失函數的權重,實驗中都簡單地設為1,因為微調這個權重系數并不會帶來實質性的突破,真正有意義的是提出的網絡框架。
2.5 模型搭建
在卷積神經網絡領域有許多用于提取特征的網絡,在實驗中,選取在ImageNet數據集上預訓練的ResNext101作為特征提取網絡(backbone),其獨特的殘差結構和良好的預訓練有利于模型更好地提取原始圖像的多層級、多尺度特征。如圖2所示,基于最終的檢測結果是單通道的特征圖這一觀察,在模型設計時,直接利用卷積層將backbone提取出的多通道特征圖轉換為單通道特征圖后再解碼,這層卷積扮演著特征選擇和縮減解碼子網參數量的作用,使得網絡檢測速度極大提升。為簡化解碼階段的復雜度,在解碼之前利用上采樣和下采樣(雙線性插值)操作將所有多尺度特征圖采樣成統一尺度大小(fea-ture3尺寸)。
在解碼階段,每當發生特征圖融合,則在解碼子網中嵌入一個雙卷積模塊(圖2中紫色雙矩形模塊,見電子版)以循環地修正中間層級預測圖、校正預測誤差,雙卷積模塊由兩次連續的卷積操作+batch歸一化操作+PReLU激活操作構成。針對淺層解碼子網和深層解碼子網融合backbone提取的分層級特征,采用強制逐像素相加的方式以增強相互之間的影響。由于淺層解碼子網學習的是目標區域的信息而深層解碼子網學習的是互補區域的信息,所以融合校正解碼子網采用強制逐像素加上淺層解碼子網和減去深層解碼子網產生的中間預測圖的方式融合互補特征圖對。網絡的各部分模塊結構和具體參數如表1所示。其中W、H是輸入圖片的原始寬、高。
3 實驗及分析
3.1 實驗配置
3.1.1 數據集
迄今為止,公開的用于散焦模糊檢測的數據集僅有CUHK[5]、 DUT[14]、CTCUG[15]三個。CUHK數據集包含704張場景各異、背景信息雜亂的散焦模糊圖像,文獻[16]將其中604張圖像劃分為訓練集,剩余100張圖像劃分為測試集,之后基本均采用該劃分方式。DUT數據集包含600張訓練圖片,500張測試圖片,其中的圖片普遍包含低對照漸變區域和均質的清晰區域。Tang等人[15]于2020年指出CUHK和DUT數據集的模糊目標通常出現在背景區域,而前景目標通常出現在清晰區域,這意味著檢測算法可能檢測的是背景目標而非模糊區域,意味著算法可能更偏向于檢測前景或者背景而非模糊檢測,于是Tang等人建立了一個新的數據集CTCUG,其特點是圖片均勻地包含模糊前景或者模糊背景。CTCUG數據集能有效地檢驗提出的模糊檢測算法對于模糊區域和非模糊區域分割的效果,僅包含150張用于測試的圖片。
3.1.2 實現細節
使用PyTorch框架和Python語言實現算法,在一臺配有一塊七彩虹3060l顯卡(GPU)的服務器上訓練,在一臺配有一塊Intel 4.20 GHz的中央處理器(CPU)和一塊GTX1070 顯卡(GPU)的機器上測試模型。特征提取網絡(backbone)是在ImageNet[8]上預訓練的ResNext101,所有訓練過程的迭代訓練批量(batch-size)設為16,采用SGD優化算法優化網絡參數,學習率采取指數衰減方式更新,公式如下:
其中:num(iteration)表示總的迭代次數;lr0表示初始學習率;s代表當前的迭代次數;lr表示當前學習率;γ是衰減指數。對于CUHK和CTCUG數據集的測試,在CUHK的訓練集上迭代訓練10 000次后網絡收斂,初始學習率設為0.01;對于DUT數據集的測試,微調在CUHK訓練集上訓練的網絡10 000次迭代循環后網絡收斂,初始學習率設置為0.001。
在訓練過程中,采取隨機旋轉、隨機翻轉和隨機裁剪的圖像變換方式擴增數據集。訓練時,將原始圖片和對應標簽裁剪成300×300大小喂入網絡訓練;測試時,原始分辨率輸入,對應分辨率輸出。具體代碼參見https://github.com/nothing-wind/DDCLNet。
3.2 評價指標
在模糊檢測任務中,常用F分數(F-measure)、平均絕對誤差(MAE)、PR(precision-recall)曲線、召回率(recall)、精確率(precision)等指標評估算法的性能。它們的計算公式如下:
其中:TP表示預測圖中分類正確的正樣本;FP表示預測圖中分類錯誤的正樣本;FN表示預測圖中分類錯誤的負樣本;F(·)代表預測圖;G(·)代表標簽;(i,j)表示像素的位置索引; β2參數用于強調精確率,與F分數正相關,本文和大多數工作一樣設為0.3。
3.3 與現有方法比較
本文共比較11種方法,4種基于傳統手工特征的方法包括SS(spectral and spatial approach)[18]、HIFST(multiscale fused and sorted transform coefficients of gradient magnitudes)[17]、DBDF(image gradient,F ourier domain,and data-driven local filters)[5]、LBP(local binary patterns)[19],7種基于深度學習的方法DHDE(unified approach of multi-scale deep and hand-crafted features)[25]、BTB-F[16]、DFNet[21]、BTB-C[14]、CENet(cross-ensemble network)[20],BR2Net(bidirectional channel attention residual refining network)[15]、EFENet(boosting diversity of deep ensemble networks)[28]。部分方法的預測圖來源于文獻公開的結果,BR2Net方法的預測圖是用作者公開的代碼生成的。
3.3.1 定量比較以及運行效率比較
如表2所示,在三個數據集上定量比較了F-measure和MAE,同時還比較了不同方法的運行速率(幀率,FPS)。對于運行速率的比較,統一將圖像設置成300×300大小作為輸入,測試每幅圖像前向傳播的速度,測試的平臺為配置有一塊GTX1070 GPU加一塊Intel 4.20 GHz CPU的計算機。提出的方法在三個數據集上F-measure指標比第二名(BR2Net)分別高出0.9%、0.1%、1.8%,且各項指標均領先于其他方法,充分說明了本文方法的全面優異性。此外在不犧牲性能的情況下,得益于所有解碼階段特征圖的通道為“1” 的設計,檢測速率達到26.618 fps,超越了現存方法。實際上,在消融實驗小節,利用特征提取能力較弱的ResNet18作為特征提取網絡,在不犧牲性能的情況下(三個數據集上F-measure分別達到0.921、0.880、0.871),檢測速度更是高達81.175 fps,是其他方法的5、6倍,充分表明了本文方法的優越性能和極高效率。
圖3分別比較了各種方法在CTCUG數據集上的P-R曲線、精確率、召回率、F-measure和MAE。從圖中可以看出,本文提出方法的PR曲線始終連續地高于其他方法,表明本文方法不僅結果優于其他方法,魯棒性也可以得到保證。此外,本文方法的召回率和精確率在高于其他方法的同時,兩者也比較均衡,表明本文方法沒有更偏重于強調精確率不均衡,一方過高而一方過低,將導致檢測結果相似性下降。此外,提出方法的平均絕對誤差明顯低于其他方法,從整體來看,提出的方法具有更低的預測誤差。
3.3.2 定性比較
圖4展示其他方法和本文方法在三個數據集上的整體視覺效果,圖5結合樣例具體分析本文方法在處理輪廓細節(紅框)、區分均質清晰區域(紫框)、處理低對照度漸變區域(綠框)等問題時的性能。可以看出,本文的雙向互補學習網絡在輪廓細節處理,正確區分均質清晰區域與均質模糊區域,以及正確處理低對照度漸變區域(黃框)等方面均具有更好的性能。特別地,背景區域是清晰區域,而前景區域是模糊區域時,BTB-F、DFNet均將一部分背景區域判定成了模糊區域,而本文方法與標簽幾乎吻合,如圖6所示。其中實線紅框表示BTB-F方法錯分,虛線橙框表示DFNet方法錯分(見電子版)。這意味著兩種方法在檢測清晰區域時可能在一定程度上依賴于前景特征(換言之,測模糊區域依賴于背景特征:源于本文設定清晰區域的像素為正樣本),而本文方法則更加依賴于圖像的清晰區域的特征,而非前景或者背景特征。因此,本文方法更能夠正確辨別出清晰區域特征和模糊區域特征。
3.4 消融實驗
為了驗證互補學習的有效性,設計深層解碼子網和淺層解碼子網均學習從清晰區域到目標標簽的映射的學習方式,表3中以Ours_noc表示,只學習單一標簽的信息,不學習互補標簽的信息。可以看出:互補學習方法(本文方法)的F-measure在三個數據集上比沒有互補學習的方法(Ours_noc)高出了2.1%、1.5%、2.4%,證明了互補學習方法的優越性。互補學習有兩種實現方式,一種正如所提出的;另一種則是深層解碼子網學習清晰區域到標簽的映射,淺層解碼子網學習模糊區域到互補標簽的映射。表3中以Ours_rev表示,可見本文采用的方式性能更優,其可能的原因是淺層特征主要表達圖像的細節信息。因此在本文設定下(最終結果以清晰區域像素為正樣本),淺層解碼子網學習清晰區域到互補標簽1的映射方式,可以更多地保留清晰區域的細節特征,從而可以更好地修正最終目標區域(即清晰區域)的輪廓細節。
為了驗證融合校正解碼子網的有效性,直接移除融合校正解碼子網,表3中以Ours_nof表示,淺層解碼子網生成的最終結果強制逐像素減去深層解碼子網生成的最終結果,然后輸入到最后的雙卷積融合層(此融合層保持不變),以得到最后的檢測結果。由表3可見,沒有融合校正解碼子網的框架(Ours_nof)在三個數據集上的各個指標大幅下降,顯示出融合校正解碼子網對于雙向互補學習的重要性。
提出的網絡框架可以利用不同的Backbone提取特征,為了更公平地比較,分別使用VGG16[8]和ResNet18[23]作為特征提取網絡,驗證提出網絡框架的通用性和有效性,表3中以Ours_v16、Ours_res18表示。提出的框架使用VGG16作為backbone,在CUHK、DUT數據集上的F-measure比EFENet (backbone為VGG16)分別高出0.4%、1.4%。提出的方法利用ResNet18作為backbone,F-measure僅在DUT數據集上略低于第二名BR2Net (backbone為ResNext101),但是檢測速率卻高達81.175 fps,是其他方法的5~6倍,驗證了解碼階段所有特征圖的通道設計為“1”方法的高效性。
4 結束語
為了解決散焦模糊檢測任務中存在的各種具有挑戰性的問題,本文提出采用一種基于雙向互補學習框架的神經網絡方法,獲得了高質量精細的模糊檢測結果。提出的網絡由特征提取殘差模塊、雙向互補解碼子網和融合校正解碼子網構成,殘差模塊可以提取出模糊圖像豐富的分層級特征;雙向互補解碼子網則可以充分地挖掘提取出的分層特征和互補標簽的有益信息,互補學習單一解碼子網可能會遺漏的信息;融合校正解碼子網可以校正中間層級預測誤差,促進網絡生成高質量精細檢測結果。此外,得益于解碼階段所有特征圖的通道均為“1”的獨特設計技巧,提出的方法在檢測速度上取得了較大的優勢。
在未來的工作中將進一步探索并優化網絡結構,期望利用殘差結構和空洞卷積設計出更加有效的模糊檢測子,以增強網絡的學習性能。
參考文獻:
[1]Yu Xin,Xu Feng,Zhang Shunli,et al.Efficient patch-wise non-uniform deblurring for a single image[J].IEEE Trans on Multimedia,2014,16(6):1510-1524.
[2]Li Dingquan,Jiang Tingting,Lin Weisi,et al.Which has better visual quality:the clear blue sky or a blurry animal?[J].IEEE Trans on Multimedia,2018,21(5):1221-1234.
[3]江澤濤,伍旭,張少欽.一種基于MR-VAE的低照度圖像增強方法[J].計算機學報,2020,43(7):1328-1339.(Jiang Zetao,Wu Xu,Zhang Shaoqin.Low-illumination image enhancement based on MR-VAE[J].Chinese Journal of Computers,2020,43(7):1328-1339.)
[4]Xu Guodong,Quan Yuhui,Ji Hui.Estimating defocus blur via rank of local patches[C]//Proc of IEEE International Conference on Compu-ter Vision.Washington DC:IEEE Computer Society,2017:5371-5379.
[5]Shi Jianping,Xu Li,Jia Jiaya.Discriminative blur detection features[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2014:2965-2972.
[6]張冬明,靳國慶,代鋒,等.基于深度融合的顯著性目標檢測算法[J].計算機學報,2019,42(9):2076-2086.(Zhang Dongmin,Jin Guoqin,Dai Feng,et al.Salient object detection based on deep fusion of hand-crafted features[J].Chinese Journal of Computers,2019,42(9):2076-2086.)
[7]Shi Jianping,Xu Li,Jia Jiaya.Just noticeable defocus blur detection and estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:657-665.
[8]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[9]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).https://arxiv.org/pdf/1409.1556.pdf.
[10]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2015:1440-1448.
[11]Chen Huaian,Jin Yi,Jin Guoqiang,et al.Semisupervised semantic segmentation by improving prediction confidence[J].IEEE Trans on Neural Networks and Learning Systems,2021(99):1-13.
[12]曾文雯,楊陽,鐘小品.基于改進Mask R-CNN的在架圖書書脊圖像實例分割方法[J].計算機應用研究,2021,38(11):3456-3459,3505.(Zeng Wenwen,Yang Yang,Zhong Xiaopin,et al.Improved Mask R-CNN based instance segmentation method for spine image of books on shelves[J].Application Research of Computers,2021,38(11):3456-3459,3505.)
[13]Purohit K,Shah A B,Rajagopalan A N.Learning based single image blur detection and segmentation[C]//Proc of the 25th IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2018:2202-2206.
[14]Zhao Wenda,Zhao Fan,Wang Dong,et al.Defocus blur detection via multi-stream bottom-top-bottom fully convolutional network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:3080-3088.
[15]Tang Chang,Liu Xinwang,An Shan,et al.BR2Net:defocus blur detection via a bidirectional channel attention residual refining network[J].IEEE Trans on Multimedia,2020,23(4):624-635.
[16]Zhao Wenda,Zhao Fan,Wang Dong,et al.Defocus blur detection via multi-stream bottom-top-bottom network[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,42(8):1884-1897.
[17]Golestaneh S A,Karam L J.Spatially-varying blur detection based on multiscale fused and sorted transform coefficients of gradient magnitudes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:596-605.
[18]Zhuo Saojie,Sim T.Defocus map estimation from a single image[J].Pattern Recognition,2011,44(9):1852-1858.
[19]Yi Xin,Eramian M.LBP-based segmentation of defocus blur[J].IEEE Trans on Image Processing,2016,25(4):1626-1638.
[20]Zhao Wenda,Zheng Bowen,Lin Qinhua,et al.Enhancing diversity of defocus blur detectors via cross-ensemble network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:8905-8913.
[21]Tang Chang,Zhu Xinzhong,Liu Xinwang,et al.DefusionNet:defocus blur detection via recurrently fusing and refining multi-scale deep features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2700-2709.
[22]Pang Yanwei,Zhu Hailong,Li Xinyu,et al.Classifying discriminative features for blur detection[J].IEEE Trans on Cybernetics,2015,46(10):2220-2227.
[23]Tang Chang,Wu Jin,Hou Yonghong,et al.A spectral and spatial approach of coarse-to-fine blurred image region detection[J].IEEE Signal Processing Letters,2016,23(11):1652-1656.
[24]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[25]Park J,Tai Y W,Cho D,et al.A unified approach of multi-scale deep and hand-crafted features for defocus estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1736-1745.
[26]Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2015:3431-3440.
[27]Wang Xuewei,Zhang Shulin,Liang Xiao,et al.Accurate and fast blur detection using a pyramid M-Shaped deep neural network[J].IEEE Access,2019,7:86611-86624.
[28]Zhao Wenda,Hou Xueqing,He You,et al.Defocus blur detection via boosting diversity of deep ensemble networks[J].IEEE Trans on Image Processing,2021,30(6):5426-5438.
[29]Cun Xiaodong,Pun C M.Defocus blur detection via depth distillation[C]//Proc of the 16th European Conference on Computer Vision.Cham:Springer,2020:747-763.
[30] Xie Saining,Girshick R,Dollár P,et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1492-1500.