999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合殘差連接的圖像語義分割方法

2024-02-04 04:14:08王龍寶張珞弦徐淑芳
計算機(jī)測量與控制 2024年1期
關(guān)鍵詞:語義特征方法

王龍寶,張珞弦,張 帥,徐 亮,曾 昕,徐淑芳

(1.河海大學(xué) 計算機(jī)與信息學(xué)院,南京 210000;2.河海大學(xué) 水利部水利大數(shù)據(jù)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南京 210000;3.中國電建集團(tuán) 昆明勘測設(shè)計研究院有限公司,昆明 650000;4.長江生態(tài)環(huán)保集團(tuán)有限公司,武漢 430061)

0 引言

在過去的30年里,圖像語義分割是計算機(jī)視覺中的關(guān)鍵任務(wù)之一,現(xiàn)實(shí)生活中也有越來越多的應(yīng)用場景需要從影像中推理出相關(guān)的知識或語義。圖像語義分割是在像素級別上的分類,屬于同一類的像素都將被歸為一類,即將圖像中的所有像素劃分為有意義的對象類,因此圖像語義分割是從像素級別來理解圖像的。圖像語義分割與實(shí)例分割不同,語義分割不會將同一類的實(shí)例進(jìn)行區(qū)分,只關(guān)注每個像素的類別,如果輸入的對象中有兩個具有相同類別的對象,那么語義分割不將其劃分為單獨(dú)的對象,而實(shí)例分割是需要對對象個體進(jìn)行區(qū)分的,即實(shí)例分割對同一類的不同對象也會進(jìn)行分割。

由于圖像語義分割技術(shù)有助于理解圖像中的具體內(nèi)容,并且能夠幫助人們確定物體之間的關(guān)系,因此圖像分割的應(yīng)用對于各種領(lǐng)域的發(fā)展都有所幫助[1-5],比如自動駕駛、衛(wèi)星圖像分析、人臉識別、醫(yī)學(xué)影像診斷等。具體而言,結(jié)合圖像語義分割使得機(jī)器可以智能地對醫(yī)療影像進(jìn)行分析,大大減少了運(yùn)行診斷測試所需的時間的同時也很大程度的降低了醫(yī)生的工作負(fù)擔(dān)。此外,在自動駕駛過程中利用圖像語義分割技術(shù)實(shí)時分割道路場景,使得自動駕駛汽車有環(huán)境感知的能力,以便自動駕駛車輛可以在道路上進(jìn)行安全行駛。

當(dāng)前,圖像語義分割方法分為傳統(tǒng)圖像語義分割方法和基于深度學(xué)習(xí)的圖像語義分割方法。

傳統(tǒng)的圖像語義分割算法通常是基于聚類方法,并且往往還需要利用額外的輪廓、邊緣等信息進(jìn)行輔助分析[1,6]。假定同一區(qū)域內(nèi)的像素點(diǎn)為同一類別,利用已有的聚類方法,將這些像素點(diǎn)聚類即可實(shí)現(xiàn)圖像的分割。近年來,各研究者對基于聚類圖像分割的技術(shù)進(jìn)行了許多改進(jìn)和發(fā)展,其中最著名、最重要的技術(shù)之一是使用馬爾可夫過程進(jìn)行建模。除此方法外,文獻(xiàn)[7]將邊緣提取、圖像分割以及層次分析法結(jié)合起來。文獻(xiàn)[8]對SAR影像無監(jiān)督學(xué)習(xí)范圍的擴(kuò)大進(jìn)行了研究。盡管傳統(tǒng)的圖像語義分割方法能夠?qū)崿F(xiàn)對圖像的分割,并且對許多領(lǐng)域的發(fā)展都有一定的促進(jìn)作用,但是,它僅僅是通過提取圖片的低級特征信息來進(jìn)行分割,并沒有將圖像的語義信息納入到其中,所以,傳統(tǒng)的圖像語義分割方法的圖像分割效果非常有限[9]。

與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的圖像語義分割方法顯著提高了分割效果,且從分割結(jié)果可以直接清楚的知道分割出來的具體是什么物體?;谏疃葘W(xué)習(xí)的圖像語義分割算法,可以有效地克服大部分傳統(tǒng)的圖像語義分割算法中所忽視的目標(biāo)邊緣問題,并且對椒鹽噪聲也具有魯棒性[10-11]。深度學(xué)習(xí)[12-13]在計算機(jī)視覺中被廣泛使用,通過增加模型的深度可以提高算法的性能和準(zhǔn)確性,利用深度學(xué)習(xí)可以快速地從非常大的數(shù)據(jù)集中提取圖像特征。

卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)[14-15]是一種人工神經(jīng)網(wǎng)絡(luò),其可以類似人一樣具有簡單的決定能力和簡單的判斷能力,在圖像和語音識別方面可以給出更好的結(jié)果,在圖像識別領(lǐng)域也被廣泛應(yīng)用。CNN的結(jié)構(gòu)可以分為三層,分別是卷積層、池化層和全連接層。卷積層的主要作用是進(jìn)行特征提取以及特征映射;池化層進(jìn)行下采樣以降低空間分辨率和訓(xùn)練參數(shù);全連接層就是一個完全連接的神經(jīng)網(wǎng)絡(luò),通常在CNN尾部對卷積層以及池化層得出的特征進(jìn)行重新擬合,通過調(diào)整權(quán)重和網(wǎng)絡(luò)連接得到分類的結(jié)果,減少特征信息損失。CNN本質(zhì)上是多層感知器,成功的關(guān)鍵在于其網(wǎng)絡(luò)連接和共享權(quán)重的方式。這種方法一方面降低了過度擬合的風(fēng)險,另一方面減少了權(quán)重的數(shù)量,使得優(yōu)化整個網(wǎng)絡(luò)比其他方法更容易。然而,CNN不能夠訓(xùn)練不同大小的圖像,由于全連接層的輸入層中的神經(jīng)元數(shù)量是固定的,因此卷積層的輸入圖像的尺寸大小是固定的。

全卷積神經(jīng)網(wǎng)絡(luò)(FCN,fully convolutional networks)將CNN最后一層全連接層替代為卷積層,消除了全連接層輸入神經(jīng)元個數(shù)的限制,解決了CNN卷積層必須是相同輸入大小的問題,F(xiàn)CN能夠接受任意大小的輸入圖像。FCN通過反卷積將上一層的特征圖上采樣,將其還原為與輸入圖像一致的尺寸大小,在保持原輸入圖像的空間信息的前提下,對每一幅圖像都生成一個預(yù)測,并在此基礎(chǔ)上對圖像進(jìn)行逐像素分類。此外,由于在卷積過程中避免了使用像素塊帶來的重復(fù)存儲和計算卷積的問題,因此與CNN相比,F(xiàn)CN減少了模型中的參數(shù),提高了算法的運(yùn)算效率。

然而,F(xiàn)CN方法仍然存在一些問題,輸出特征圖通過卷積層和池化層的交替?zhèn)鞑ミM(jìn)行下采樣,因此FCN直接預(yù)測通常是低分辨率的,目標(biāo)邊界也相對較為模糊。為了解決這個問題,最近提出了各種基于FCN的方法。例如,文獻(xiàn)[16]中提出了一種多尺度卷積網(wǎng)絡(luò),包括多個具有不同分辨能力的子網(wǎng)絡(luò),以便逐步改進(jìn)粗預(yù)測。文獻(xiàn)[17]提出高低層特征融合,即在多層的輸出后是一個反卷積層,用于對高密度的像素輸出進(jìn)行雙線性的上采樣,從而有效增強(qiáng)了圖像語義信息特征以及空間信息特征。文獻(xiàn)[18]為了精確地重構(gòu)物體邊界的高度非線性結(jié)構(gòu),用一個深度反卷積網(wǎng)絡(luò)代替了文獻(xiàn)[17]中的簡單反卷積處理,以識別像素級的類別標(biāo)記。此外,F(xiàn)CN中全卷積的設(shè)計模式仍然保留使用了卷積神經(jīng)網(wǎng)絡(luò)中的池化層,忽略了高分辨率的特征圖必然會導(dǎo)致邊緣信息的丟失。同時,F(xiàn)CN解碼器中復(fù)用編碼器特征圖的方式使其在測試時顯存消耗也很大,忽略了圖像的位置信息以及減小了特征圖的分辨率。

編碼器和解碼器結(jié)構(gòu)是解決以上問題的關(guān)鍵,大多數(shù)基于深度學(xué)習(xí)的語義分割技術(shù)都使用編碼器和解碼器架構(gòu)。編碼器負(fù)責(zé)將輸入轉(zhuǎn)化為特征,解碼器則負(fù)責(zé)將特征轉(zhuǎn)化為目標(biāo)。SegNet[19]和U-Net[20]是兩個典型的用于圖像語義分割的編碼-解碼器結(jié)構(gòu)。SegNet是基于全卷積神經(jīng)網(wǎng)絡(luò)搭建的一種編碼-解碼器網(wǎng)絡(luò)結(jié)構(gòu),通過編碼器提取圖像特征后,再通過解碼器逐步還原到與原圖相同分辨率的分割結(jié)果。U-Net是為了幫助生物序列中的圖像分割而創(chuàng)建的,它由兩部分組成:收集上下文的收縮路徑和用于識別精確位置的對稱擴(kuò)展路徑相比于已有的深度卷積神經(jīng)網(wǎng)絡(luò)語義分割方法,該方法提出了一種更為穩(wěn)定的網(wǎng)絡(luò)結(jié)構(gòu)。SegNet的編碼器部分使用了去除全連接層的VGG-16網(wǎng)絡(luò)[21],解碼器部分使用了一系列上采樣和卷積層,這樣可以實(shí)現(xiàn)通過保留的最大池化層的最大值索引來恢復(fù)特征圖分辨率,并利用可學(xué)習(xí)的后續(xù)卷積層來產(chǎn)生稠密特征。

盡管此方法提出了最大池化索引策略,盡可能保留了各特征圖像中的關(guān)鍵信息,但是在編碼器網(wǎng)絡(luò)中仍舊不可避免的產(chǎn)生了大量信息損失,這些信息損失在解碼器網(wǎng)絡(luò)中往往是不可恢復(fù)的,導(dǎo)致語義分割結(jié)果精度的不理想。

因此,本文設(shè)計一種更加優(yōu)化的網(wǎng)絡(luò)模型,以降低SegNet在編碼器網(wǎng)絡(luò)中提取高維特征時產(chǎn)生的信息損失,同時,在解碼時能夠更加完整地勾勒分割邊界,提高分割精度,并控制網(wǎng)絡(luò)的參數(shù)總量和執(zhí)行時的內(nèi)存占比,從而能夠在較低時間消耗和硬件需求的前提下,實(shí)現(xiàn)多目標(biāo)的精確識別和多場景的全面理解。

1 相關(guān)理論基礎(chǔ)

1.1 SegNet模型

SegNet模型核心是由一個編碼器網(wǎng)絡(luò)以及相應(yīng)的解碼器網(wǎng)絡(luò)組成,整體架構(gòu)如圖1所示。

圖1 SegNet模型結(jié)構(gòu)

編碼器網(wǎng)絡(luò)主要由卷積層、批歸一化層、ReLU層和池化層組成。編碼器網(wǎng)絡(luò)中的卷積層對應(yīng)于VGG16網(wǎng)絡(luò)中的前13個卷積層。卷積層通過卷積提取特征,其使用的是same padding卷積,不會改變特征圖的尺寸;批歸一化層(Batch Normlisation)起到歸一化的作用;ReLU層應(yīng)用逐元素非線性激活函數(shù)(ReLU)來加快此網(wǎng)絡(luò)的收斂速度;池化層執(zhí)行最大池化操作,記錄最大值的索引位置并將結(jié)果輸出。對于圖像分類任務(wù)而言,多層最大池化和下采樣由于平移不變性可以獲得較好的魯棒性,但同時也導(dǎo)致了特征圖大小和空間信息的損失。為了解決這個問題,SegNet只存儲每個編碼器特征映射的池化最大索引或每個池化窗口中最大特征值的位置。

解碼器將編碼器獲取到的物體信息以及大致的位置信息與特定的像素點(diǎn)相對應(yīng),對縮小后的特征圖像進(jìn)行上采樣,通過對上采樣后的圖像進(jìn)行卷積處理,完善物體的幾何形狀,以補(bǔ)償因編碼器中的池化層將物體縮小造成的細(xì)節(jié)損失。解碼器有與編碼器相對應(yīng)的上采樣層、卷積層、批歸一化層以及ReLU層。其中上采樣層具體操作為對輸入的特征圖放大兩倍,然后將輸入的特征圖數(shù)據(jù)根據(jù)池化層的最大索引位置放入,其他位置均為0。解碼器的最終輸出被饋送到soft-max分類器,對每個像素進(jìn)行獨(dú)立分類,預(yù)測的分割結(jié)果對應(yīng)于在每個像素處具有最大概率的類別。

SegNet的創(chuàng)新之處在于解碼器階段的上采樣層使用了編碼器階段池化層的最大池化索引來進(jìn)行反池化。與FCN中利用雙線性插值進(jìn)行上采樣的方式相比,反池化操作大大減少了模型的參數(shù)量。SegNet相比其他架構(gòu)更有效的原因正是由于其只存儲特征圖的最大池化索引,并在其解碼器網(wǎng)絡(luò)中使用它們來實(shí)現(xiàn)良好的性能。與FCN進(jìn)行對比,SegNet在達(dá)到較好的分割性能的同時,也具有較為均衡的內(nèi)存占用率和準(zhǔn)確率,反池化也提升了模型對邊界的描述能力。與其他競爭架構(gòu)相比,SegNet結(jié)構(gòu)在推理時間和有效的推理內(nèi)存方面都體現(xiàn)出了較為良好的性能。

1.2 交叉熵?fù)p失函數(shù)

交叉熵?fù)p失函數(shù)是處理分類問題中常用的一種損失函數(shù)。交叉熵是用于描述兩個概率分布之間的距離,交叉熵越小,兩個概率的分布便越接近。交叉熵?fù)p失函數(shù)常常用在邏輯回歸問題即求解離散的分類問題上,用來作為預(yù)測值和真實(shí)標(biāo)簽值的距離度量。模型在使用梯度下降更新參數(shù)時,模型訓(xùn)練的速度取決于學(xué)習(xí)率和偏導(dǎo)數(shù)值。偏導(dǎo)數(shù)的大小反映了模型的誤差,值越大,模型效應(yīng)越差,但同時模型訓(xùn)練則越快。因此,如果利用邏輯函數(shù)獲得概率并且結(jié)合使用交叉熵?fù)p失函數(shù),則模型效果不好時學(xué)習(xí)速度會更快,如果模型效果良好,學(xué)習(xí)速度會較慢。

標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)(CE,cross-entropy loss)如下所示:

(1)

其中:p代表正樣本的預(yù)測概率,y代表樣本標(biāo)簽,正類為1,負(fù)類為0。log表示自然對數(shù),底數(shù)為e??梢钥闯觯A(yù)測越準(zhǔn)確,計算出的損失值就越小,如果預(yù)測完全正確,則計算的損失值就為0,因此符合優(yōu)化方向。為方便表示,簡記如下:

(2)

則交叉熵可以表示為:

CE(p,y)=CE(pt)=-log(pt)

(3)

交叉熵?fù)p失函數(shù)由于引入了類間競爭的特性,使得類間的互補(bǔ)性更強(qiáng),但其僅僅覆蓋了正確標(biāo)記的正確率,并沒有考慮其它非正確標(biāo)記間的差別,導(dǎo)致所獲得的特征有所偏離。

2 融合殘差連接的語義分割網(wǎng)絡(luò)結(jié)構(gòu)

2.1 模型建立

本文所設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)是基于SegNet所提出的編-解碼器結(jié)構(gòu),搭建一種殘差連接的語義分割網(wǎng)絡(luò)結(jié)構(gòu)。對于一張普通拍攝照片而言,淺層CNN提取的特征往往包含更多的邊界、紋理等直觀視覺信息,深層CNN往往提取的是更高級的抽象特征,只有將二者有機(jī)結(jié)合,才能實(shí)現(xiàn)語義分割精度的提升。加深、加寬網(wǎng)絡(luò)結(jié)構(gòu),雖然能夠提高分割精度但是帶來了大量的參數(shù)負(fù)擔(dān)和冗余,因此需要引用殘差連接和concatenation(級聯(lián))操作,有效的將淺層視覺特征與深層語義特征進(jìn)行結(jié)合。同時將已有的普通的層間連接調(diào)整為殘差連接,總體來看,增加的參數(shù)量可以忽略不計。

圖2 融合殘差連接的語義分割網(wǎng)絡(luò)結(jié)構(gòu)圖

將一張帶訓(xùn)練圖像輸入此改進(jìn)的SegNet網(wǎng)絡(luò)結(jié)構(gòu),其在網(wǎng)絡(luò)中共經(jīng)過一下幾步過程:

1)將圖像進(jìn)行卷積操作,得到H*W*64個通道的特征圖像,記為F1。

2)下采樣得到H/2*W/2*64,然后再進(jìn)行卷積操作得到H/2*W/2*128,記為F2。

3)下采樣得到H/4*W/4*128,然后進(jìn)行卷積操作得到H/4*W/4*256,記為F3。

4)下采樣得到H/8*W/8*256,記為F4。

(4)

(5)

(6)

8)最終通過softmax函數(shù)對每一像素所屬類別予以賦值并輸出相應(yīng)的語義分割結(jié)果。

2.2 模型訓(xùn)練

圖3本方法網(wǎng)絡(luò)模型訓(xùn)練流程圖。首先對數(shù)據(jù)集進(jìn)行預(yù)處理以及訓(xùn)練集和驗(yàn)證集劃分。其次將處理好的數(shù)據(jù)輸入初始化參數(shù)的語義分割網(wǎng)絡(luò)模型。根據(jù)分割結(jié)果的交叉熵?fù)p失最小原則,不斷迭代網(wǎng)絡(luò)更新模型參數(shù),直至收斂并達(dá)到最小損失。最后輸出最優(yōu)網(wǎng)絡(luò)模型和參數(shù)。

圖3 網(wǎng)絡(luò)訓(xùn)練流程圖

2.3 改進(jìn)的交叉熵?fù)p失函數(shù)

標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)計算公式中所有樣本的權(quán)重都是相同的,因此如果正、負(fù)樣本不均衡,大量簡單的負(fù)樣本會占據(jù)主導(dǎo)地位,少量的難樣本與正樣本會起不到作用,導(dǎo)致精度變差。

因此,我們引入平衡因子,取值在[0,1]區(qū)間內(nèi)。

(7)

設(shè)計的改進(jìn)的交叉熵?fù)p失公式(B-CE,balanced cross-entropy loss)如下:

CE(p,y)=-βlog(pt)

(8)

引入平衡因子的交叉熵?fù)p失函數(shù),在收斂效率上比原函數(shù)更快,主要是在不均衡分布的類別像素上,其迭代優(yōu)化的效率更具備針對性,因此整體收斂效率得到了提升。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)系統(tǒng)為Windows 10 professional,24 GB RAM,處理器為Intel(R)Core i7- 8750H,2.20 GHZ,GPU為NVIDIA GeForce GTX 1 060 6 GB。實(shí)驗(yàn)平臺為Matlab 2018 b,基于MatconvNet和visual C++ 2015搭建深度學(xué)習(xí)網(wǎng)絡(luò)模型,模型訓(xùn)練和測試是基于cuda9.0搭建的GPU環(huán)境。

3.2 評價指標(biāo)

IoU(Intersection over Union)的全稱為交并比,具體是指預(yù)測候選邊界集和真實(shí)邊界集的交集和并集的比值,是當(dāng)前目標(biāo)識別和語義分割研究最通用的評價指標(biāo)。IoU是一個較為簡單的測量標(biāo)準(zhǔn),只要是在輸出中得出一個預(yù)測范圍的任務(wù)都可以用IoU來測量。交并比的數(shù)學(xué)含義如圖4所示。最理想情況是候選邊界集與真實(shí)邊界集完全重疊,即比值為1,即預(yù)測精確度越高。交并比的計算公式如下:

圖4 交并比的數(shù)學(xué)含義

(9)

一般約定,0.5是閾值,用來判斷預(yù)測的邊界框是否正確,IoU越高,邊界框越精確。

3.3 實(shí)驗(yàn)結(jié)果與分析PASCAL VOC 2012數(shù)據(jù)集

以下內(nèi)容將展示在PASCAL VOC 2012數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果,包括各類別IoU的數(shù)值統(tǒng)計與分析和隨機(jī)樣本的視覺解析,并從評價指標(biāo)和視覺效果兩方面全方位評估所設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)的有效性和先進(jìn)性。

3.3.1 數(shù)據(jù)集簡介及參數(shù)設(shè)置

PASCAL VOC 2012作為基準(zhǔn)數(shù)據(jù)之一,數(shù)據(jù)集包含原圖片總共17 125張及其對應(yīng)的標(biāo)注圖。在對象檢測、圖像分割網(wǎng)絡(luò)對比實(shí)驗(yàn)與模型效果評估中被頻頻使用。Pascal VOC 2012數(shù)據(jù)集針對視覺任務(wù)中監(jiān)督學(xué)習(xí)提供了標(biāo)簽數(shù)據(jù),它主要有4個大類別,分別是人、常見動物、交通車輛、室內(nèi)家具用品,并可細(xì)分為二十個類別:

1)person:person;

2)animal:bird,cat,cow,dog,horse,sheep;

3)vehicle:aeroplane,bicycle,boat,bus,car,motorbike,train;

4)indoor:bottle,chair,dining table,potted plant,sofa,tv/monitor。

此外,針對該數(shù)據(jù)集的實(shí)驗(yàn)中各項(xiàng)參數(shù)設(shè)置如表1所示,測試數(shù)據(jù)為完全隨機(jī)抽選,在網(wǎng)絡(luò)訓(xùn)練時采用帶動量的隨機(jī)梯度下降法作為優(yōu)化器,學(xué)習(xí)率和動量參數(shù)設(shè)置為0.1和0.9。

表1 PASCAL VOC 2012數(shù)據(jù)集超參數(shù)設(shè)置

3.3.2 實(shí)驗(yàn)結(jié)果對比與分析

如表2所示,為本方法、SegNet在PASCAL VOC 2012數(shù)據(jù)集上的分割表現(xiàn)。可以看出,相比于其他兩種方法,本方法整體分割精度表現(xiàn)優(yōu)異,其中Bird等7類物體交并比超過90%,13類物體超過80%,mIoU達(dá)到80.81%,相比于SegNet提高了約8個百分點(diǎn)。

表2 PASCAL VOC 2012測試集各類別IoU

如圖5所示,數(shù)據(jù)樣本的視覺展示進(jìn)一步對分割效果進(jìn)行了評估。為更充分和全面驗(yàn)證方法的分割能力,從數(shù)據(jù)集中隨機(jī)選取的5個樣本幾乎包含數(shù)據(jù)集具有的所有類別的物體。盡管結(jié)果相似度較高,但仍能直觀的從分割結(jié)果看出本方法分割精度更高。首先從整體上看,SegNet與本方法均能夠較好的實(shí)現(xiàn)圖像語義分割任務(wù),基本上能夠?qū)D像中的目標(biāo)物體識別并標(biāo)注出。然而,在部分關(guān)鍵細(xì)節(jié)處,本方法表現(xiàn)更佳。如圖5(a)中所示,自行車輪廓的準(zhǔn)確勾勒需要準(zhǔn)確的高頻邊界信息,相比于SegNet,本方法對低級別的高頻邊界信息進(jìn)行了更大程度的保留并應(yīng)用于解碼器網(wǎng)絡(luò),使得最終分割結(jié)果中自行車輪廓更為清晰。同樣地,如圖5(b)中鳥類雙腳的分叉處,圖5(c)中椅子的輪廓邊界,圖5(e)中自行車輪廓和遠(yuǎn)端人物邊界等高頻細(xì)節(jié)信息處,本方法更具針對性的低級別特征與高級別語義特征融合方法使得分割結(jié)果更接近真實(shí)標(biāo)注圖。

圖5 PASCAL VOC 2012隨機(jī)樣本測試結(jié)果展示

綜上可得,在添加了有效的多殘差連接之后,該語義分割網(wǎng)絡(luò)所提取的特征保真度更高,能夠與原圖保持更高的相關(guān)性,使得圖像的像素級分類結(jié)果和邊界定位效果更優(yōu)于SegNet。從視覺感受的定性分析情況以及各類別交并比的定量分析結(jié)果來看,本方法綜合利用了最大池化索引的有效性和多殘差連接的靈活性,使得圖像語義分割結(jié)果達(dá)到更高的精度,更加滿足實(shí)際應(yīng)用需求。

3.4 實(shí)驗(yàn)結(jié)果與分析-Cityscapes數(shù)據(jù)集

以下內(nèi)容為在Cityscapes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比結(jié)果與分析,包括各類別IoU的數(shù)值統(tǒng)計與分析和隨機(jī)樣本的視覺解析,分別從評價指標(biāo)和視覺效果兩方面全方位評估所設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)的在不同類型數(shù)據(jù)集上的魯棒性和有效性。

3.4.1 數(shù)據(jù)集簡介

Cityscapes數(shù)據(jù)集是由包含戴姆勒在內(nèi)的三家德國單位聯(lián)合提供的,是一個新的大規(guī)模數(shù)據(jù)集,主要關(guān)注城市環(huán)境中駕駛場景的圖像。Cityscapes數(shù)據(jù)集涵蓋了50個城市的不同季節(jié)、不同時段的街道場景,包括5 000張精標(biāo)注圖片和20 000粗標(biāo)注圖片,其中精標(biāo)注圖片數(shù)據(jù)集被劃分為訓(xùn)練集(2 975張)、驗(yàn)證集(500張)和測試集(1 525張)。Cityscapes數(shù)據(jù)共有兩種數(shù)據(jù)標(biāo)注格式,分別是實(shí)例分割和語義分割所采用的分割圖格式以及多邊形邊框的json格式。精標(biāo)注數(shù)據(jù)集中的每張圖片都同時擁有3個標(biāo)注文件,即實(shí)例分割標(biāo)注、語義分割標(biāo)注、多邊形標(biāo)注。標(biāo)注類別共分為8組,每組的具體類別如下所示:

1)flat:road,sidewalk,parking+,rail track+;

2)human:person*,rider*;

3)vehicle:car*,truck*,bus*,on rails*,motorcycle*,bicycle*,caravan*+,trailer*+;

4)construction:building,wall,fence,guard rail+,bridge+,tunnel+;

5)object:pole,pole group+,traffic sign,traffic light;

6)nature:vegetation,terrain;

7)sky:sky;

8)void:ground+,dynamic+,static+。

其中*表示部分區(qū)域連在一起的實(shí)例,會作為一個整體來標(biāo)注;+表示該類別不包含在驗(yàn)證集中,并被視為無效標(biāo)注。

本文在精標(biāo)注數(shù)據(jù)集上進(jìn)行分割實(shí)驗(yàn)并與SegNet方法在此數(shù)據(jù)集上的分割表現(xiàn)進(jìn)行對比分析。如表3所示,為本文在部署實(shí)驗(yàn)時的各項(xiàng)參數(shù)數(shù)值。同樣地,采用帶動量的隨機(jī)梯度下降法作為優(yōu)化器,其學(xué)習(xí)率和動量數(shù)值分別預(yù)設(shè)為0.1和0.9。

表3 Cityscapes數(shù)據(jù)集超參數(shù)設(shè)置

3.4.2 實(shí)驗(yàn)結(jié)果對比與分析

表4展示了本文所提方法和SegNet在Cityscapes數(shù)據(jù)集進(jìn)行精細(xì)標(biāo)注的各類別交并比以及平均交并比。總的來看,本文所設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了更高的交并比表現(xiàn),其預(yù)測的分割結(jié)果更相近于真實(shí)標(biāo)記數(shù)據(jù)集。相比于SegNet,本網(wǎng)絡(luò)在mIoU值上提高了約十三個百分點(diǎn)。

表4 Cityscapes測試集各類別IoU

如圖6所示,隨機(jī)選擇6張測試樣本做視覺展示,分別通過SegNet和本文方法進(jìn)行分割預(yù)測并產(chǎn)生精細(xì)標(biāo)注分割圖,最右側(cè)為真實(shí)標(biāo)記結(jié)果。整體分割結(jié)果上來看,SegNet與本文方法均能實(shí)現(xiàn)較好的分割結(jié)果。由于是車載攝像裝置拍攝的圖像,其中前方馬路等主體大范圍目標(biāo)均可以實(shí)現(xiàn)較為準(zhǔn)確的分割,這一結(jié)果和IoU值形成對應(yīng)。

然而由于SegNet的細(xì)節(jié)處理不盡精細(xì),導(dǎo)致其部分分割結(jié)果不能達(dá)到滿意。具體來說,如圖6(a)中左側(cè)人群部分的分割結(jié)果比較模糊,然而本方法的分割結(jié)果能夠?qū)⑷巳褐械牟煌瑐€人進(jìn)行一個較為優(yōu)化的分割,其結(jié)果也更趨近于最右側(cè)的真是標(biāo)注結(jié)果。如圖6(b)中的最右側(cè)交通指示牌、左側(cè)綠色植物右上側(cè)的交通指示牌,SegNet的分割結(jié)果無法達(dá)到較為精確的分割,指示牌識別上出現(xiàn)明顯的少分、漏分情況,而本文方法的分割結(jié)果則更為精細(xì)和準(zhǔn)確。同樣的情況包括如圖6(c)中的路燈、圖6(d)中的立柱、行人、圖6(f)中的自行車及車手等目標(biāo)分割狀況。綜上所述,本文所設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)在細(xì)節(jié)標(biāo)注及邊界勾勒時的表現(xiàn)全面優(yōu)于SegNet的分割性能。

4 消融實(shí)驗(yàn)——損失函數(shù)

本文將通過實(shí)驗(yàn)驗(yàn)證所設(shè)計的帶有平衡因子的交叉熵?fù)p失函數(shù)的影響,尤其在模型訓(xùn)練的收斂效率方面的表現(xiàn)。以PASCAL VOC 2012數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),在訓(xùn)練過程中的損失曲線如圖7所示。

圖7 不同損失函數(shù)的訓(xùn)練損失

從圖7中可以得出采用B-CE損失函數(shù)能夠有效提高迭代效率,在采用B-CE損失函數(shù)之后在大約第80個epoch開始達(dá)到收斂狀態(tài)。相對地,使用原始的CE損失函數(shù)盡管收斂過程較為穩(wěn)定,但是收斂速率較之更慢,在大約100 epoch時才能達(dá)到收斂狀態(tài);從損失層面來看,B-CE可以幫助網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)更少的損失,分析其主要原因可能來自負(fù)樣本帶來的損失的進(jìn)一步減少,因?yàn)樘岣吡藢ω?fù)樣本、難分類樣本的關(guān)注度,訓(xùn)練更具針對性,并且本來易分的樣本也不會因?yàn)閾p失函數(shù)的微調(diào)而導(dǎo)致錯誤分類。從實(shí)際的訓(xùn)練和損失曲線中動態(tài)關(guān)系中,我們進(jìn)一步驗(yàn)證了所改進(jìn)損失函數(shù)的有效性。

5 結(jié)束語

由于SegNet模型在多次降采樣和上采樣過程中產(chǎn)生了大量信息損失,語義分割精度表現(xiàn)因此而受到較大限制。為解決此問題,本文設(shè)計了一種融合多殘差連接的新型編-解碼器網(wǎng)絡(luò)結(jié)構(gòu),在不新增大量參數(shù)負(fù)擔(dān)的前提下,通過引入若干殘差連接,使得不同分辨率的低級別空間信息特征和高級別語義特征得以充分利用,進(jìn)而顯著減小上采樣和下采樣過程產(chǎn)生的信息損失。此外,為緩解類別非均衡分布帶來的消極影響,本文基于交叉熵?fù)p失函數(shù)設(shè)計了一種帶平衡因子的交叉熵?fù)p失函數(shù),不僅促進(jìn)了模型收斂效率,同時在達(dá)到收斂狀態(tài)時降低了大量損失,使得模型具備更強(qiáng)的性能,實(shí)現(xiàn)更高的分割精度。通過在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比和分析,通過量化評價指標(biāo)和視覺分析效果證實(shí)本方法的分割表現(xiàn)明顯優(yōu)于SegNet。

猜你喜歡
語義特征方法
語言與語義
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認(rèn)知范疇模糊與語義模糊
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 成人国产精品网站在线看| 久久黄色影院| 激情六月丁香婷婷四房播| 亚洲成肉网| 亚洲精品高清视频| 亚洲无码视频图片| 99re这里只有国产中文精品国产精品| 2022精品国偷自产免费观看| 真实国产乱子伦视频| 在线国产毛片手机小视频| av大片在线无码免费| 国产综合网站| 国产欧美日韩另类| 一级爆乳无码av| 国产97色在线| 在线亚洲精品自拍| 久久精品这里只有国产中文精品| 欧美日韩综合网| 精品三级网站| 日本精品影院| 黄色网页在线观看| 久久精品国产免费观看频道| 四虎国产在线观看| 免费 国产 无码久久久| 国产精品视频999| 国产青青草视频| 欧美黄色a| 青青网在线国产| 亚洲综合色婷婷| 亚洲第一区精品日韩在线播放| 67194在线午夜亚洲| 国产爽歪歪免费视频在线观看 | 青青草91视频| 激情视频综合网| 国产极品美女在线观看| 久草视频中文| 97久久超碰极品视觉盛宴| 亚洲成在人线av品善网好看| 亚洲91精品视频| 99久久精品免费视频| 婷婷色中文网| 人妻无码中文字幕第一区| 国产粉嫩粉嫩的18在线播放91| 国产丝袜第一页| 欧美啪啪网| 成人免费一级片| 免费一级毛片在线观看| 四虎在线高清无码| 91在线激情在线观看| 又爽又大又黄a级毛片在线视频| 色综合中文字幕| 亚洲色婷婷一区二区| 欧美亚洲一区二区三区在线| 无码一区18禁| 国产精品久久久久久影院| 国产在线观看成人91| 国产av剧情无码精品色午夜| 欧美一区二区精品久久久| 国产天天射| 青草国产在线视频| 欧美成人免费午夜全| 国产美女丝袜高潮| 日韩无码精品人妻| 精品视频一区二区三区在线播| 中日无码在线观看| 国产成人三级在线观看视频| 亚洲高清在线天堂精品| 日韩性网站| 国产精品va免费视频| 亚洲精品成人7777在线观看| 久久久久久尹人网香蕉| 国产尤物jk自慰制服喷水| 欧美一级黄色影院| 国产精品一区二区国产主播| 国产AV无码专区亚洲精品网站| 不卡无码h在线观看| a天堂视频| 国产粉嫩粉嫩的18在线播放91| 精品久久久久久中文字幕女| 亚洲男人的天堂在线| 日本午夜影院| 日韩在线永久免费播放|