唐璐 趙英



關(guān)鍵詞: 圖像分割; 計(jì)算機(jī)視覺; 深度學(xué)習(xí); 數(shù)據(jù)集; 評(píng)價(jià)指標(biāo)
0 引言
圖像分割[1]是計(jì)算機(jī)視覺中的一個(gè)重要任務(wù),其目的是將一幅圖像分割成不同的對(duì)象。在許多應(yīng)用中,如圖像識(shí)別[2]、目標(biāo)跟蹤和機(jī)器人導(dǎo)航等,圖像分割都是一個(gè)必要的前置任務(wù)。圖像分割一直是計(jì)算機(jī)視覺研究熱點(diǎn)之一,許多傳統(tǒng)的方法已經(jīng)被提出并被廣泛使用。近年來,深度學(xué)習(xí)[3]方法的發(fā)展為圖像分割帶來了新的突破,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolu?tional Neural Networks,CNN) [4]的出現(xiàn),使得圖像分割的性能有了大幅提升。
1 傳統(tǒng)的圖像分割方法
1.1 基于閾值的方法
基于閾值的方法通常將圖像中的像素值與一個(gè)固定的閾值進(jìn)行比較。該方法的主要思想是根據(jù)像素值的大小將圖像中的不同區(qū)域分割出來。它的主要步驟:1) 確定閾值:通過試驗(yàn)或根據(jù)應(yīng)用場景確定一個(gè)合適的閾值,將圖像中的像素值分為兩類,例如背景和前景。2) 閾值分割:將圖像中的每個(gè)像素值與所確定的閾值進(jìn)行比較,根據(jù)比較結(jié)果將其分為兩個(gè)類別。3) 后處理:進(jìn)行形態(tài)學(xué)操作和噪聲濾波等后處理操作,消除分割圖像中的噪聲和小的不連續(xù)區(qū)域。其方法簡單易懂、計(jì)算量小,但由于閾值選擇的固定性,對(duì)于圖像中像素值變化大、光照不均勻等情況下效果較差,如果選擇的閾值不合適,可能會(huì)導(dǎo)致圖像分割結(jié)果不準(zhǔn)確。因此,為了得到更好的分割效果,需要根據(jù)圖像特點(diǎn)選擇合適的閾值確定方法,并對(duì)閾值進(jìn)行優(yōu)化。
1.2 基于邊緣的方法
基于區(qū)域的圖像分割方法是將圖像分割問題轉(zhuǎn)化為區(qū)域的分割問題,將圖像分成若干個(gè)不相交的區(qū)域,并將每個(gè)區(qū)域標(biāo)記為屬于不同類別的像素。這種方法的主要思想是將具有相似顏色、紋理、形狀等特征的像素聚合成一個(gè)區(qū)域,并將區(qū)域劃分為前景和背景。它的主要步驟:1) 超像素分割:將圖像分割成一些超像素,每個(gè)超像素由若干個(gè)像素組成,具有相似的顏色、紋理、形狀等特征。2) 特征提?。簩?duì)每個(gè)超像素提取特征,如顏色直方圖、紋理特征、邊緣特征等。3) 區(qū)域合并:通過合并相鄰的超像素來生成區(qū)域。合并的標(biāo)準(zhǔn)可以是相似度、距離或者其他特征。4) 分類:將每個(gè)區(qū)域分類為前景或背景。該方法的優(yōu)點(diǎn)是,它可以考慮每個(gè)區(qū)域的上下文信息,從而更好地處理復(fù)雜的圖像。然而,由于需要對(duì)每個(gè)區(qū)域進(jìn)行分類,因此速度較慢,并且需要高質(zhì)量的特征提取器和分類器。
1.4 基于聚類的方法
基于聚類的方法將像素點(diǎn)分為不同的聚類,每個(gè)聚類代表一種顏色或灰度值。常見的聚類算法包括K-means 和Mean-shift 算法等,K-Means 算法是一種典型的基于劃分的聚類算法,也是一種無監(jiān)督學(xué)習(xí)算法,對(duì)給定的樣本集,用歐氏距離作為衡量數(shù)據(jù)對(duì)象間相似度的指標(biāo),相似度與數(shù)據(jù)對(duì)象間的距離成反比,相似度越大,距離越小。Mean-shift算法是一種通用的尋找數(shù)據(jù)局部眾數(shù)的搜索算法。對(duì)于給定的一定數(shù)量樣本,隨便選擇一個(gè)點(diǎn)作為中心點(diǎn),計(jì)算該點(diǎn)在一定范圍之內(nèi)所有點(diǎn)到中心點(diǎn)的距離向量的平均值,作為偏移均值,然后將中心點(diǎn)移動(dòng)到偏移均值位置,通過這種不斷重復(fù)的移動(dòng),可以使中心點(diǎn)逐步逼近到最佳位置,即選擇的初始中心點(diǎn)會(huì)從沿一定變化方向移動(dòng)到高密度中心點(diǎn)。基于聚類的方法計(jì)算速度快,但是需要事先確定聚類數(shù)量和聚類中心。
綜上,這些方法通常不需要大量的計(jì)算資源和訓(xùn)練樣本,但是由于特征提取和分類的過程是分離的,其分割結(jié)果可能不夠精確。
2 深度學(xué)習(xí)方法
CNN是基于深度學(xué)習(xí)的圖像分割方法中最常見的一種。它利用卷積操作在不同的層次提取圖像特征,然后利用全連接層將特征映射到相應(yīng)的分割結(jié)果。它是由輸入層、卷積層、采樣層(池化層)和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)絡(luò),使用反向傳播算法進(jìn)行訓(xùn)練,如圖1。CNN有三個(gè)特性:局部連接、權(quán)重共享和匯聚。這些特性使得它具有一定程度上的平移、縮放和旋轉(zhuǎn)不變性。它主要使用在圖像和視頻分析的各種任務(wù)上,比如圖像分類、物體識(shí)別、圖像分割等,其準(zhǔn)確率也遠(yuǎn)遠(yuǎn)超出了其他的神經(jīng)網(wǎng)絡(luò)模型。它能夠提取更加豐富的特征信息,具有較高的精度和魯棒性,參數(shù)量較少,但是需要較大的計(jì)算資源和訓(xùn)練樣本。
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,相較于傳統(tǒng)的基于閾值、邊緣、區(qū)域和聚類的方法,具有更高的準(zhǔn)確度和更強(qiáng)的泛化能力。其基本流程如下:1) 數(shù)據(jù)預(yù)處理:對(duì)圖像進(jìn)行預(yù)處理,包括圖像尺寸歸一化、數(shù)據(jù)增強(qiáng)等。2) 搭建CNN:選擇適合的CNN模型,并對(duì)其進(jìn)行修改以適應(yīng)圖像分割任務(wù)。3) 訓(xùn)練網(wǎng)絡(luò):將準(zhǔn)備好的數(shù)據(jù)集送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過優(yōu)化目標(biāo)函數(shù)使網(wǎng)絡(luò)輸出的分割結(jié)果逐漸接近于真實(shí)分割結(jié)果。4) 預(yù)測分割結(jié)果:用訓(xùn)練好的網(wǎng)絡(luò)對(duì)新的圖像進(jìn)行分割預(yù)測?;贑NN的方法具有較高的分割準(zhǔn)確度和魯棒性,但同時(shí)也需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源。因此,在實(shí)際應(yīng)用中需要考慮訓(xùn)練時(shí)間和硬件資源等問題??傮w來說,基于CNN的圖像分割方法在像素級(jí)別的目標(biāo)分割任務(wù)中具有優(yōu)秀的性能和廣泛的應(yīng)用前景。
3 數(shù)據(jù)集
數(shù)據(jù)集的質(zhì)量和數(shù)量對(duì)圖像分割方法的性能和效果有很大影響。因此,選擇合適的數(shù)據(jù)集非常重要。在選擇數(shù)據(jù)集時(shí),需要根據(jù)具體應(yīng)用場景和算法需求進(jìn)行選擇,同時(shí)需要注意數(shù)據(jù)集的標(biāo)注質(zhì)量和數(shù)量,以及數(shù)據(jù)集的廣泛使用程度等因素。此外,對(duì)于一些復(fù)雜的場景,還需要進(jìn)行數(shù)據(jù)增強(qiáng)以增加訓(xùn)練數(shù)據(jù)的數(shù)量,表1對(duì)PASCAL VOC、MS COCO和CamVid 常用數(shù)據(jù)集一些基本信息進(jìn)行了匯總。
PASCAL VOC:包括20個(gè)對(duì)象類別,例如人、車、動(dòng)物等。數(shù)據(jù)集包括11 530個(gè)圖像,每個(gè)圖像都有一個(gè)語義分割標(biāo)注,該數(shù)據(jù)集的標(biāo)注非常準(zhǔn)確,是評(píng)估圖像分割算法的重要基準(zhǔn)。MS COCO:包括80個(gè)對(duì)象類別,例如人、車、飛機(jī)等。數(shù)據(jù)集包括330 000個(gè)圖像,每個(gè)圖像都有一個(gè)實(shí)例分割標(biāo)注和語義分割標(biāo)注,該數(shù)據(jù)集的標(biāo)注非常精細(xì),是評(píng)估圖像分割算法的重要基準(zhǔn)。CamVid:包括11個(gè)對(duì)象類別,例如路標(biāo)、行人等。數(shù)據(jù)集包括701個(gè)視頻幀,每個(gè)幀都有一個(gè)像素級(jí)別的標(biāo)注,該數(shù)據(jù)集是評(píng)估視頻分割算法的重要基準(zhǔn)之一。
4 評(píng)價(jià)指標(biāo)
TP(True Positive) :真正例,模型預(yù)測為正例,實(shí)際是正例;FP(False Positive) :假正例,模型預(yù)測為正例,實(shí)際是反例;FN(False Negative) :假反例,模型預(yù)測為反例,實(shí)際是正例;TN(True Negative) :真反例,模型預(yù)測為反例,實(shí)際是反例;n表示類別數(shù),如表2所示。
4.1 Mean Intersection over Union(MIoU)
MIoU是一種常用的圖像分割評(píng)價(jià)指標(biāo)[5],用于衡量模型在像素級(jí)別上預(yù)測結(jié)果與真實(shí)標(biāo)注的重疊程度。IoU是一種常用的評(píng)價(jià)指標(biāo),可以衡量分割結(jié)果與真實(shí)標(biāo)注之間的重疊程度。MIoU 即為所有類別IoU的平均值。適用于多類別分割,對(duì)不平衡數(shù)據(jù)集的魯棒較好,但計(jì)算量較大,公式如下:
4.2 Pixel Accuracy(PA)
PA是分割準(zhǔn)確率的一種度量方式,它表示預(yù)測的像素分類結(jié)果與真實(shí)標(biāo)簽的像素分類結(jié)果,相匹配的像素?cái)?shù)占總像素?cái)?shù)的比例。簡單易懂,易于計(jì)算,但不適用于不平衡數(shù)據(jù)集,公式如下:
4.3 Precision
Precision表示模型預(yù)測為正例的所有樣本中,預(yù)測正確(真實(shí)標(biāo)簽為正)樣本的占比,公式如下:
4.4 Recall
Recall表示所有真實(shí)標(biāo)簽為正的樣本,有多大百分比被預(yù)測出來,公式如下:
4.5 F1 Score(F1)
F1綜合了Precision和Recall兩個(gè)指標(biāo),是一個(gè)比較全面的評(píng)價(jià)指標(biāo)。適用于不平衡數(shù)據(jù)集,不適用于樣本比例不同的情況,公式如下:
5 結(jié)論
圖像分割在許多領(lǐng)域中都有廣泛的應(yīng)用,如醫(yī)學(xué)影像[6]、自然圖像和遙感圖像等。在醫(yī)學(xué)影像領(lǐng)域中,圖像分割能夠幫助醫(yī)生進(jìn)行病變檢測和診斷,如腫瘤分割和心臟分割等。在自然圖像領(lǐng)域中,圖像分割能夠幫助計(jì)算機(jī)識(shí)別不同的物體,并進(jìn)行目標(biāo)跟蹤和圖像檢索等。在遙感圖像領(lǐng)域中,圖像分割能夠幫助計(jì)算機(jī)對(duì)地面物體進(jìn)行分類和監(jiān)測,如土地利用和城市規(guī)劃等。然而,圖像分割仍然存在一些挑戰(zhàn)和難點(diǎn)。首先,圖像分割需要大量的標(biāo)注數(shù)據(jù)和計(jì)算資源,這在訓(xùn)練和應(yīng)用中都是一個(gè)難點(diǎn)。其次,圖像分割需要解決一些具體的問題,如處理圖像中的噪聲、模糊和邊緣不清等問題。此外,不同的圖像分割方法適用于不同的場景,如何選擇合適的方法進(jìn)行分割也是一個(gè)難點(diǎn)。綜上所述,基于CNN的圖像分割方法在圖像分割領(lǐng)域取得了顯著的進(jìn)展,具有更好的性能和更高的準(zhǔn)確度,但也存在一些缺點(diǎn)。未來,需要繼續(xù)探索更加高效和準(zhǔn)確的圖像分割算法,以滿足實(shí)際應(yīng)用中的需求。