朱 莉,趙 俊,傅應(yīng)鍇,張 晶,沈 惠,張守峰
(南昌大學(xué) 信息工程學(xué)院,江西 南昌 330031)
紅外熱成像是物體熱輻射產(chǎn)生的電磁波轉(zhuǎn)換為人類視覺可分辨圖像的過程。紅外熱圖像通過灰度級(jí)反映不同物體的差異,具有測(cè)量范圍廣、響應(yīng)快、非接觸式測(cè)量等優(yōu)勢(shì),在特定場(chǎng)景下可代替可見光圖像[1-2]。目標(biāo)區(qū)域(Region Of Interest,ROI)分割是紅外熱圖像處理中的基本問題,從復(fù)雜的背景中分割出目標(biāo)區(qū)域,為后續(xù)的目標(biāo)識(shí)別等任務(wù)提供基礎(chǔ)。經(jīng)典的圖像分割方法可分為基于邊緣、基于區(qū)域和基于層的分割[3]。但是,紅外熱圖像往往存在信噪比低、對(duì)比度低等缺陷[4],為目標(biāo)區(qū)域分割帶來很大的困難。文獻(xiàn)[5]中采用大津法(Otsu算法)用于紅外熱圖像的人體分割,但當(dāng)紅外熱圖像邊緣模糊和區(qū)域不明確時(shí)會(huì)造成嚴(yán)重的過分割。文獻(xiàn)[6]采用模糊C均值(Fuzzy C-Means,F(xiàn)CM)算法用于紅外艦船目標(biāo)的分割,可通過無監(jiān)督迭代分類實(shí)現(xiàn)低信噪比圖像目標(biāo)區(qū)域分割。然而該類方法對(duì)噪聲很敏感,需人工設(shè)定類別、種子點(diǎn)、聚類中心等參數(shù),聚類性能不穩(wěn)定。文獻(xiàn)[7]采用著名的Chan-Vese模型,克服了信噪比低且邊緣模糊的問題,實(shí)現(xiàn)了紅外行人的有效分割。但該模型自適應(yīng)能力較差,在背景復(fù)雜的情況下會(huì)造成誤分割。
近年來,機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于圖像分類以及識(shí)別等。常用的算法有支持向量機(jī)、隱馬爾可夫模型及人工神經(jīng)網(wǎng)絡(luò)等。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)算法在訓(xùn)練模型前需要人工提取特征,難度大且耗時(shí)長(zhǎng),會(huì)引起模型過擬合問題,造成分割效果不理想。隨之,深度學(xué)習(xí)算法在一些圖像分割比賽中取得了突破性進(jìn)展,并開始應(yīng)用于紅外領(lǐng)域,實(shí)現(xiàn)了人體動(dòng)作的識(shí)別、健康監(jiān)測(cè)[8]和紅外與可見光圖像融合等。2017年,LU等[9]利用神經(jīng)網(wǎng)絡(luò)完成多波段紅外圖像的分割,直接通過有標(biāo)簽圖像樣本訓(xùn)練并優(yōu)化網(wǎng)絡(luò),具有強(qiáng)大的復(fù)雜環(huán)境適應(yīng)能力,且無須過多的人工干預(yù)。同年,文獻(xiàn)[10]中將全卷積網(wǎng)絡(luò)用于紅外乳腺圖像的分割,即使在小數(shù)據(jù)集的情況下,該算法也能通過微調(diào)或數(shù)據(jù)擴(kuò)增等策略表現(xiàn)出良好的分割效果。與此同時(shí),條件隨機(jī)場(chǎng)憑借其充分利用圖像上下文信息的優(yōu)勢(shì),開始應(yīng)用于室內(nèi)場(chǎng)景分割和合成孔徑雷達(dá)圖像的分割等。
筆者在前期研究[11-12]中提出了兩種基于多模態(tài)特征圖融合的目標(biāo)區(qū)域分割算法,通過對(duì)比度、熵以及梯度特征構(gòu)建多模態(tài)特征圖,實(shí)現(xiàn)目標(biāo)區(qū)域分割。這兩種算法在實(shí)際采集到的紅外太陽能板數(shù)據(jù)集上已經(jīng)取得很好的分割結(jié)果。但是,在目標(biāo)區(qū)域不連通的情況下,則需要額外計(jì)算或手動(dòng)標(biāo)記更多的種子點(diǎn),在一定程度上會(huì)導(dǎo)致目標(biāo)區(qū)域漏分割問題。
針對(duì)上述現(xiàn)有的經(jīng)典分割算法存在需人工干預(yù)、復(fù)雜場(chǎng)景下漏分割以及誤分割率高等問題,在已有研究[11-12]基礎(chǔ)上,筆者進(jìn)一步提出一種基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)和稠密條件隨機(jī)場(chǎng)(Dense Conditional Random Field,DCRF)的深度學(xué)習(xí)分割算法,即FCN-DCRF。首先,對(duì)原始紅外圖像標(biāo)注含有二分類語義信息的標(biāo)簽,即目標(biāo)區(qū)域和背景;其次,將有標(biāo)簽數(shù)據(jù)放入全卷積網(wǎng)絡(luò)進(jìn)行有監(jiān)督訓(xùn)練,對(duì)圖像進(jìn)行像素級(jí)別語義分類,得到每個(gè)像素的類別概率,完成粗分割;再次,將粗分割圖像作為稠密條件隨機(jī)場(chǎng)的輸入,利用圖像的空間上下文信息計(jì)算像素勢(shì)能,進(jìn)而實(shí)現(xiàn)精分割,得到最終的分割結(jié)果。本課題組采集了實(shí)際的太陽能板紅外熱圖像數(shù)據(jù)集,并將FCN-DCRF應(yīng)用于數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。與經(jīng)典分割方法中的大津法、聚類分割方法中的FCM、Chan-Vese模型及本課題組前期提出的算法[11-12]進(jìn)行了客觀性能對(duì)比。
針對(duì)紅外熱圖像,筆者提出了一種基于深度學(xué)習(xí)的目標(biāo)區(qū)域分割算法——FCN-DCRF,算法流程如圖1所示。

圖1 FCN-DCRF算法流程圖
這種算法主要分為粗分割和細(xì)分割兩個(gè)模塊。粗分割模塊:為原始紅外熱圖像打造含有語義信息的標(biāo)簽,放入全卷積網(wǎng)絡(luò)訓(xùn)練以得到最優(yōu)模型進(jìn)行特征提取,實(shí)現(xiàn)像素級(jí)別語義分類,完成粗分割。細(xì)分割模塊:以稠密條件隨機(jī)場(chǎng)作為后處理過程,考慮空間上下文信息,通過計(jì)算像素一元?jiǎng)菽芎投獎(jiǎng)菽?,推測(cè)出各像素點(diǎn)最可能的類別標(biāo)簽,得到最終的精分割結(jié)果。
筆者提出的FCN-DCRF算法首先利用全卷積網(wǎng)絡(luò)完成紅外熱圖像目標(biāo)區(qū)域的粗分割。全卷積網(wǎng)絡(luò)可以接受任意尺寸的圖片,不受卷積和池化過程對(duì)圖片大小的影響,實(shí)現(xiàn)端對(duì)端分割。FCN-DCRF中采用的全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)結(jié)構(gòu)如圖2所示。5層卷積層和5層池化層交替連接,后接3層全連接層,最后經(jīng)過上采樣完成像素級(jí)別的分類。

圖2 全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
輸入層:輸入原始紅外熱圖像,大小為320×240。
卷積層C1:用于特征提取。卷積是輸入圖像不同局部的矩陣和卷積核矩陣各個(gè)對(duì)應(yīng)位置的權(quán)值相乘,再通過激活函數(shù)輸出卷積層的特征圖。卷積核大小為3×3,步長(zhǎng)為1,個(gè)數(shù)為64,輸出特征圖尺寸為518×438。C1的輸出公式如下:
C1i=(f(ωi*a)),i=1,…,N,
(1)
其中,f(·)指修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù);C1指卷積層輸出的特征圖;ωi指卷積核矩陣位置i的權(quán)值,其在隨機(jī)初始化后經(jīng)梯度下降法不斷更新達(dá)到最優(yōu);a代表輸入圖像;*代表卷積;N值取9。C2~C5層的計(jì)算過程同C1層。
最大池化層P1:池化層夾在兩卷積層之間,作用是降維。池化層的采樣步長(zhǎng)為2,逐個(gè)對(duì)518×438區(qū)域取其中最大值作為池化層處理后的元素值。輸出特征圖的尺寸為上一層輸出的1/2,輸出公式如下:
P1i=g(C1i) ,
(2)
其中,g(·)指最大池化操作;P1i指最大池化層的輸出特征圖。P2~P5層的計(jì)算過程同P1層。
全連接層F1~F3的計(jì)算過程同以上所有卷積層的,但F1卷積核大小為7×7,F(xiàn)2和F3卷積核大小為1×1,步長(zhǎng)均為1。經(jīng)過5次卷積和池化后,輸出特征圖尺寸分別縮小為原始圖像的1/2,1/4,1/8,1/16,1/32。上采樣層:上采樣實(shí)際上是插值的過程。選擇對(duì)第5層輸出的圖像進(jìn)行32倍、對(duì)第4層輸出的圖像進(jìn)行16倍或是對(duì)第3層輸出的圖像進(jìn)行8倍上采樣到原圖大小。
粗分割模塊利用深度學(xué)習(xí)算法實(shí)現(xiàn)了像素級(jí)別的類別分類,可有效地實(shí)現(xiàn)目標(biāo)區(qū)域的分割。然而,全卷積網(wǎng)絡(luò)沒有考慮圖像的上下文信息,導(dǎo)致分割邊緣粗糙。因此,在卷積神經(jīng)網(wǎng)絡(luò)的處理后加入條件隨機(jī)場(chǎng),利用條件隨機(jī)場(chǎng)中的二元?jiǎng)菽塬@取圖像的上下文信息,建模預(yù)測(cè)之間的相互作用,與全卷積網(wǎng)絡(luò)的分割有效性相結(jié)合,進(jìn)一步地提高分割的準(zhǔn)確率。對(duì)于一張W×H的圖像,設(shè)I為整幅圖像的觀測(cè)向量,X為所有觀測(cè)向量對(duì)應(yīng)的類別標(biāo)簽。條件隨機(jī)場(chǎng)可用吉布斯分布[13]表示:
(3)
(4)
其中,E(X|I)為能量函數(shù)。在能量函數(shù)中,ψi′(xi′)=-logP(xi′),是全卷積網(wǎng)絡(luò)最后一層概率輸出的一元?jiǎng)菽埽琍(xi′)是像素點(diǎn)i′的類別標(biāo)簽分配概率;ψi′j′(xi′,xj′)是模型的二元?jiǎng)菽芎瘮?shù),是為了描述圖中像素點(diǎn)i′和j′之間的空間上下文關(guān)系,其定義為
(5)
其中,i′和j′的取值范圍是[1,N′],其中N′=WH;pi′和Ii′分別代表原始測(cè)試圖像中像素點(diǎn)i′的坐標(biāo)位置和強(qiáng)度;|pi′-pj′|指像素點(diǎn)i′和j′之間的距離;|Ii′-Ij′|指像素點(diǎn)之間的灰度值差異;ω(1)和ω(2)指模型權(quán)重;θα,θβ和θγ是高斯核的標(biāo)準(zhǔn)差參數(shù)。
根據(jù)高效平均場(chǎng)近似算法,當(dāng)X滿足式(6)時(shí),像素點(diǎn)類別分配達(dá)到最優(yōu)。
(6)
作為太陽能發(fā)電系統(tǒng)的核心組成部分,太陽能板是紅外熱圖像處理技術(shù)的一個(gè)重要應(yīng)用領(lǐng)域[14]。首先,在場(chǎng)景復(fù)雜的情況下,不同區(qū)域的熱差會(huì)使太陽能板與背景區(qū)域在紅外熱成像時(shí)呈現(xiàn)出一定的灰度差異,且太陽能板的紅外熱圖像紋理、邊緣信息豐富,有利于提出復(fù)雜背景下紅外熱圖像目標(biāo)區(qū)域的分割算法。因此,對(duì)太陽能板紅外熱圖像的研究具有重大的理論意義。其次,基于紅外熱成像的太陽能板區(qū)域的精準(zhǔn)分割,為后續(xù)定期的故障檢測(cè)提供方便,節(jié)省了人為巡檢排查的成本,具有很大的實(shí)際研究意義[15-16]。
(1) 紅外熱圖像實(shí)驗(yàn)數(shù)據(jù)采集。在中國(guó)江蘇林洋光伏科技有限公司2MW并網(wǎng)光伏電站采集了紅外熱圖像來構(gòu)建數(shù)據(jù)集。數(shù)據(jù)采集時(shí)間為2016年7月至8月,采集每天早、中、晚不同室外溫度下的光伏電站太陽能板。采集設(shè)備為大立科技DM63非制冷焦平面在線式紅外熱像儀,圖像大小為320×240。經(jīng)嚴(yán)格的數(shù)據(jù)篩選,剔除由儀器不穩(wěn)定、惡劣天氣、不明原因造成圖像模糊等不合格數(shù)據(jù),最終獲取159張圖像構(gòu)成數(shù)據(jù)集。其中,20%用于測(cè)試,80%用于訓(xùn)練,并采用五折交叉驗(yàn)證對(duì)算法性能進(jìn)行客觀評(píng)估。
(2) 紅外熱圖像實(shí)驗(yàn)數(shù)據(jù)標(biāo)注。使用MATLAB R2016b標(biāo)注,數(shù)據(jù)集的語義標(biāo)簽設(shè)定為:目標(biāo)區(qū)域(紅外熱太陽能板)和背景區(qū)域(非太陽能板的所有場(chǎng)景)兩類。對(duì)159張圖像進(jìn)行標(biāo)注的效果如圖3所示。

圖3 紅外熱圖像原圖與對(duì)應(yīng)的語義標(biāo)簽(白色代表目標(biāo)區(qū)域,黑色代表背景)
由于計(jì)算量大,采用配有GTX1080顯卡、Intel(R) Core(TM) i5-7400@3.00GHz處理器和8.00 GB內(nèi)存的計(jì)算機(jī)完成實(shí)驗(yàn),操作系統(tǒng)為Ubuntu16.04。在PyTorch框架上用VGG-16模型初始化全卷積神經(jīng)網(wǎng)絡(luò),再在Caffe框架上完成FCN-DCRF訓(xùn)練與測(cè)試。網(wǎng)絡(luò)訓(xùn)練時(shí)主要的參數(shù)設(shè)置及訓(xùn)練時(shí)間如表1所示。

表1 主要參數(shù)及訓(xùn)練時(shí)間
文中采用4種評(píng)價(jià)指標(biāo)評(píng)估算法的性能,即準(zhǔn)確率(Precision,P),又稱查準(zhǔn)率;召回率(Recall,R),又稱查全率;Fβ指數(shù)(F-measure,F(xiàn)β)和J指數(shù)(Jaccard-measure,J)。4個(gè)指數(shù)的定義如下:
(7)
(8)
(9)
(10)
其中,S1代表算法提取到的正確像素點(diǎn)(包括邊界點(diǎn))集合,S2代表算法提取區(qū)域的所有像素點(diǎn)集合,S3代表人工提取區(qū)域的所有像素點(diǎn)集合,運(yùn)算符| · |表示該區(qū)域像素點(diǎn)的統(tǒng)計(jì)。Fβ指數(shù)是召回率和準(zhǔn)確率加權(quán)調(diào)和的平均。當(dāng)置信度β=1時(shí),F(xiàn)β就是最常見的F1指數(shù)。F1指數(shù)越接近1,代表分割效果越好。J指數(shù)用來衡量各算法分割與人工分割結(jié)果的區(qū)域相似度。同樣,J指數(shù)越接近1,代表分割效果越好。


表2 五折交叉驗(yàn)證結(jié)果


表3 算法分割性能評(píng)價(jià)指標(biāo)平均值對(duì)比
對(duì)Otsu、FCM、Chan-Vese及FCN-DCRF分割算法的各項(xiàng)分割性能評(píng)價(jià)指標(biāo)進(jìn)行T-test檢驗(yàn),統(tǒng)計(jì)檢驗(yàn)結(jié)果如表4所示。綜合表3和表4可知:
(1)文中算法的分割性能優(yōu)于另外3種算法的,且其性能指標(biāo)R、F1、J具有統(tǒng)計(jì)意義。
(2)文中算法得到的P顯著高于Otsu算法的,雖然與FCM、Chan-Vese相比沒有顯著提高,但仍然高于這兩種算法的,且能滿足實(shí)際應(yīng)用中的分割要求。

表4 算法性能評(píng)價(jià)指標(biāo)的T-test檢驗(yàn)
注:#表示p>0.05,*表示p<0.05,***表示p<0.001,p是統(tǒng)計(jì)檢驗(yàn)的值。
圖4是各算法對(duì)5種典型紅外熱圖像的分割結(jié)果。由圖4可知:
(1)圖4第1列為第一類圖像,其特點(diǎn)是太陽能板紋理豐富,邊緣明顯。對(duì)于此類圖像,文中算法可以精準(zhǔn)地分割出目標(biāo)區(qū)域,而其余3種方法均受紋理影響,出現(xiàn)了過分割現(xiàn)象。
(2)第2列為第二類圖像,其特點(diǎn)是目標(biāo)區(qū)域與背景區(qū)域邊界模糊。對(duì)于此類圖像,文中算法能準(zhǔn)確分割,而其他3種方法均將目標(biāo)區(qū)域以外的區(qū)域誤分割為目標(biāo)區(qū)域。
(3)第3列為第三類圖像,其特點(diǎn)是目標(biāo)區(qū)域與背景之間界限清晰但相互交叉。對(duì)于此類圖像,其余3種方法都未能準(zhǔn)確分割中目標(biāo)區(qū)域嵌入的一小部分背景(圖左中部分),文中算法能較好地完成分割。
(4)第4列為第四類圖像,其特點(diǎn)是背景復(fù)雜,與目標(biāo)區(qū)域溫差不大的區(qū)域較多。如圖右上角小塊區(qū)域及圖下半部區(qū)域均是背景。對(duì)于此類圖像,其余3種算法出現(xiàn)了明顯的誤分割,文中算法能很好地提取目標(biāo)區(qū)域。
(5) 第5列為第五類圖像,其特點(diǎn)是背景簡(jiǎn)單,但目標(biāo)區(qū)域紋理信息較弱。對(duì)于此類圖像,其余3種算法將大量非目標(biāo)區(qū)域誤判為目標(biāo)區(qū)域。因此,文中算法分割結(jié)果明顯優(yōu)于對(duì)比算法的。

圖4 算法分割結(jié)果對(duì)比(a)測(cè)試原圖;(b)人工分割標(biāo)準(zhǔn);(c)FCM算法;(d)Chan-Vese算法;(e)Otsu算法;(f)文中算法
為了客觀比較分割算法的性能,分別計(jì)算了圖4中圖像的P、R、F1指數(shù)和J指數(shù)。表5的結(jié)果表明,F(xiàn)CN-DCRF算法客觀分割效果均明顯優(yōu)于3種對(duì)比算法的。綜合圖4和表5可得出:
(1) 在背景復(fù)雜、較難分割的條件下,其余3種算法將大量非目標(biāo)區(qū)域誤判為目標(biāo)區(qū)域,少數(shù)情況下它們的P會(huì)高于文中算法的,但文中算法依舊能夠在不同背景下表現(xiàn)出良好的分割效果,R、F1指數(shù)和J指數(shù)都遠(yuǎn)高于對(duì)比算法的。
(2)其余3種算法僅適用于一些邊界明顯的簡(jiǎn)單場(chǎng)景圖,文中算法能很好地滿足復(fù)雜場(chǎng)景下目標(biāo)區(qū)域分割。
另外,計(jì)算了FCM、Otsu、Chan-Vese和FCN-DCRF測(cè)試一張圖片所用時(shí)長(zhǎng)。以均值標(biāo)準(zhǔn)差的形式分別表示為4.451 30.611 4 s、0.066 50.023 2 s、2.798 20.595 0 s和9.651 10.079 1 s。FCN-DCRF由于需要進(jìn)行多層神經(jīng)網(wǎng)絡(luò)層的特征計(jì)算,耗時(shí)會(huì)變長(zhǎng),但其分割指標(biāo)和均優(yōu)于運(yùn)算速度最快的Otsu算法,并且FCN-DCRF的運(yùn)算速度可滿足實(shí)際圖像處理的要求。

表5 算法性能評(píng)價(jià)指標(biāo)對(duì)比


圖5 文中算法與文獻(xiàn)[11-12]中算法分割結(jié)果的對(duì)比
作為全卷積網(wǎng)絡(luò)中的特征提取器,卷積層能提取到數(shù)據(jù)不同層次的抽象特征。圖6展示輸入一張紅外熱圖像,C1~C5特征圖的可視化偽彩色結(jié)果,只取每一層中64張?zhí)卣鲌D。由圖可見,C1輸出的特征圖細(xì)節(jié)較為清晰,提取到了圖像的邊緣。C2~C5的特征圖分辨率逐漸降低,部分特征圖中太陽能板棱角區(qū)域被顯著激活;另一部分特征圖中背景區(qū)域被顯著激活。因此,全卷積網(wǎng)絡(luò)可在不同層提取不同的特征,從而實(shí)現(xiàn)目標(biāo)區(qū)域分割。

圖6 全卷積神經(jīng)網(wǎng)絡(luò)卷積層的特征圖可視化
針對(duì)復(fù)雜背景下紅外熱圖像分割困難,現(xiàn)有算法存在誤分割、漏分割等問題,筆者提出了一種基于深度學(xué)習(xí)的全卷積網(wǎng)絡(luò)和稠密條件隨機(jī)場(chǎng)的分割算法,即FCN-DCRF。該算法首先利用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取和像素級(jí)別的語義分類,得到粗分割結(jié)果;再結(jié)合稠密條件隨機(jī)場(chǎng)算法,通過計(jì)算像素一元、二元?jiǎng)菽芤约翱臻g上下文信息,進(jìn)一步優(yōu)化粗分割結(jié)果,實(shí)現(xiàn)精分割。將該算法應(yīng)用于實(shí)際采集的太陽能板紅外熱圖像集,實(shí)驗(yàn)結(jié)果表明,這種算法獲得的查全率、F1指數(shù)和J指數(shù)都明顯高于FCM、Chan-Vese和Otsu算法的;同時(shí)與本課題組前期的研究算法對(duì)比,這種算法能有效解決目標(biāo)區(qū)域不連通情況。因此,F(xiàn)CN-DCRF具有分割性能優(yōu)、耗時(shí)短、人工干預(yù)少的優(yōu)點(diǎn),可廣泛用于復(fù)雜背景下的紅外熱圖像分割。