999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RGB-D的肉牛圖像全卷積網絡語義分割優化

2019-11-08 00:57:30鄧寒冰周云成許童羽
農業工程學報 2019年18期
關鍵詞:語義深度區域

鄧寒冰,周云成,許童羽,苗 騰,3,徐 靜

基于RGB-D的肉牛圖像全卷積網絡語義分割優化

鄧寒冰1,2,周云成1,2※,許童羽1,2,苗 騰1,2,3,徐 靜1,2

(1. 沈陽農業大學信息與電氣工程學院,沈陽 110866;2. 遼寧省農業信息化工程技術研究中心,沈陽 110866;3. 北京農業信息技術研究中心,北京 100097)

基于卷積神經網絡的深度學習模型已越來越多的應用于檢測肉牛行為。利用卷積操作實現肉牛圖像的像素級分割有助于實現遠距離、無接觸、自動化的檢測肉牛行為,為肉牛異常行為早期發現提供必要手段。為了提高復雜背景下肉牛圖像語義分割精度,降低上采樣過程中的語義分割誤差,該文提出基于RGB-D的肉牛圖像全卷積網絡(fully convolutional networks, FCN)的語義分割優化方法,用深度密度值來量化深度圖像中不同像素點是否屬于相同類型的概率,并根據深度圖像與彩色圖像在內容上的互補關系,優化和提升FCN對肉牛圖像的語義分割(像素密集預測)精度。通過試驗驗證,該方法與全卷積網絡的最優分割結果相比,可以將統計像素準確率平均提高2.5%,類別平均準確率平均提升2.3%,平均區域重合度平均提升3.4%,頻率加權區域重合度平均提升2.7%。試驗證明,該方法可以提升全卷積網絡模型在復雜背景下肉牛圖像語義分割精度。

圖像處理;模型;動物;語義分割;RGB-D;全卷積網絡;多模態;肉牛圖像

0 引 言

隨著圖像傳感設備成本的不斷降低,目前在畜牧養殖過程中已經逐步實現了全時段監控,特別是對動物全生命周期的行為監控和行為分析已經成為畜牧養殖業的一個研究熱點。人們在獲取大量動物圖像和視頻信息的同時,更關心如何實現對這些圖像信息的處理、分析、理解和應用[1];如何將動態的目標對象從復雜環境背景中分割出來,這是進行動物行為分析的前提條件,同時也是實現遠距離、無接觸、自動化檢測動物行為的關鍵。

計算機視覺領域中的傳統分割方法是通過人工提取圖像特征來實現像素的聚類和提取,當圖像背景復雜時,特征提取將變得非常麻煩甚至難以實現[2]。而隨著深層卷積神經網絡技術的發展,一種“端到端”的概念被引入到計算機視覺中來。讓計算機自動在每個特定類別對象中學習和尋找最具描述性、最突出的特征,讓深層網絡去發現各種類型圖像中的潛在模式[3]。在大量標注數據的基礎上,通過不斷的訓練來自動提高卷積神經網絡的分類、分割、識別、檢測等處理的精度,將人工成本從算法設計轉移到數據獲取,降低了技術應用難度[4]。

在農業領域,基于卷積神經網絡的計算機視覺技術已經逐漸成為主流研究方向。例如植物關鍵器官識別[5-8],蟲害個體識別[9-11],植物病害分級[12-13],利用多層卷積操作可以在不同尺度自動抽取圖像特征,最后通過特征抽象可以獲得目標位置和目標類型;針對家禽、水產等動物的視頻圖像處理方面,利用深層卷積網絡可以實現針對動物個體輪廓提取、特征標定、行為軌跡追蹤等[14-18]。然而,由于卷積神經網絡中淺層的卷積感知域較小,只能學習到一些局部區域的特征;而深層的卷積層具有較大的感知域,對物體的大小、位置和方向等敏感性更低,有助于實現分類,但是因為丟失了物體的一些細節,不能指出每個像素具體屬于哪個物體,很難做到精確的分割,不能夠準確的給出目標對象的清晰邊界信息[19-22]。而為了實現精準的像素分類,通常是以卷積過程中卷積核中心位置像素為基準點,通過判斷該點周圍區域像素組成的圖像類別來預測該基準點的目標類別。然而,當卷積核區域不能覆蓋一個完整對象時,預測精度會明顯下降,而增大卷積核區域會造成運算過程中存儲量的增加和計算效率的降低。為此,Evan等提出了全卷積網絡(fully convolutional networks,FCN)用于圖像分割[23],該網絡從抽象的特征中恢復出每個像素所屬的類別,與傳統用CNN進行圖像分割的方法相比,該網絡采用的是全卷積連接的結構,卷積過程共享感知區域,因此可以避免重復計算并提高卷積操作效率。

然而對于肉牛圖像分割問題,由于肉牛所處的養殖環境復雜,圖像中環境信息的顏色和紋理等會對肉牛形體細節部位的分割產生影響。特別是FCN在上采樣過程中使用反卷積操作,對于圖像中細節信息不敏感,沒有考慮像素間的類別關系,使分割結果缺乏空間規整性和空間一致性[24],這樣得到的分割效果會非常粗糙。為了提高全卷積網絡語義分割的精度,改善肉牛圖像細節部位的分割效果,本文提出了基于RGB-D肉牛圖像全卷積網絡語義分割優化方法,定義了深度密度概念,利用深度密度值來量化深度圖像中不同像素點是否屬于相同類型的概率,并根據深度圖像與彩色圖像在像素內容上的映射關系,優化全卷積網絡對肉牛圖像的語義分割結果,提升分割的精度。

1 材料與方法

1.1 試驗材料和準備工作

試驗數據采集自遼寧省沈陽市北部地區肉牛養殖中心,肉牛品種為西門塔爾肉牛。為了增加樣本多樣性,試驗在5月、8月和10月,分別于上午(8:00-10:00)、中午(11:00-13:00)和下午(14:00-16:00)在室內和室外獲取肉牛圖像信息。采集設備為Kinect Sensor(2.0版本),可以同步獲取分辨率為1 920像素×1 080像素的彩色圖像(RGB)和分辨率為512像素×424像素的深度圖像(Depth)。由于Kinect設備通過設備本身發出的結構光來計算物體的距離信息,所以在室外采集的深度圖像存在較大的噪聲,因此在室外采集過程中,只使用獲取到的RGB圖像(用于分類網絡訓練);而室內采集的肉牛圖像,由于外部光線可控,因此深度信息比較準確,可用于分割優化使用。在數據獲取過程中,Kinect設備位置固定,與拍攝對象(肉牛)保持0.5~4.5m距離,被拍攝對象在該范圍可以自主活動。具體環境布局如圖1所示。

圖1 試驗環境布局圖

本試驗選取的肉牛數量約為70頭(室內30頭,室外40頭),從Kinect視頻流等間隔(5張/s)抽取RGB圖像和深度圖像,而且RGB圖像和深度圖像在時間軌跡上是同步的。將彩色圖像通過人工加標注的方式形成4種用途的樣本:用于分類網絡訓練,用于分類網絡測試,用于分割網絡訓練和用于分割網絡測試。在設定樣本尺寸以及樣本數量時,考慮到全卷積網絡中不存在全連接層,因此可以實現對任意尺寸圖片的處理。因此,本文利用可以將試驗中用到的RGB圖像和深度圖像的尺寸統一到512像素×424像素。為了增加樣本多樣性,分別于不同日期的上午、中午、下午3個時間段中各選取2 000張圖像作為分類網絡的訓練樣本(共6 000張),500張圖像作為分類網絡的測試樣本(共1 500張);與此同時,在上述3個時間中,從室內采集的樣本中選取1 000張分割網絡的訓練樣本,200張分割網絡的測試樣本。而深度圖像是通過將Kinect獲取的物體深度信息進行可視化表示后的效果圖,即將可視范圍內的深度值轉換為灰度值,灰度歸一化后范圍是[0,1],在后文中會利用深度圖像計算每個像素點的深度密度,利用深度密度值來優化FCN語義分割結果。

本文后面章節將介紹如何設計試驗和實現相關方法,具體包括3個主要過程,如圖2所示。

圖2 主要方法流程圖

1)利用分類樣本集和分割樣本集分別對基礎分類網絡和全卷積網絡進行訓練,其中基礎分類網絡的參數可以用于初始化全卷積網絡,以加速訓練過程中損失函數收斂;FCN的輸出特征圖可以通過上采樣得到初步的分割結果。

2)提出深度密度概念并給出深度密度計算方法,通過深度圖像中每個像素點的深度密度,可以量化該像素點與周圍空間其他像素點屬于同一類別的概率。

3)利用深度密度值對分割結果中細節部位(例如邊緣部位)進行調優,得到最終優化后的分割結果。

1.2 基礎網絡構建與訓練

建立深層分類網絡是解決逐像素預測問題和語義分割問題的基礎,而VGG系列網絡在0~100類左右的分類問題上,其分類精度與Inception系列、ResNet系列等分類網絡非常接近,而且VGG網絡結構相對簡單,沒有Inception和ResNet網絡結構中的用于優化訓練的分支結構,因此更容易改造為全卷積網絡,因此本文選擇VGG-19[25]作為分類網絡的基本模型。VGG系列網絡在ILSVRC2014(ImageNet[26]Large-Scale Visual Recognition Challenge)上首次提出,其網絡結構參考了AlexNet[27]。由于全卷積分割網絡是在分類網絡的基礎上建立的,兩類網絡在多個卷積層上是權值共享的,因此對分類網絡進行預訓練可以簡化分割網絡的訓練過程,并且對分割精度有明顯提升。此外,為了防止數據量不夠而導致的過擬合問題,在訓練分類網絡的過程中加入了ILSVRC2016部分數據集,其中選擇與試驗場景相似的150類圖片,形成了151類的數據集合。

在訓練VGG-19方面,本文采用與文獻[25]相同的訓練方法。由于分類網絡與全卷積分割網絡在卷積層是共享權值的,因此在訓練全卷積分割網絡之前,對分類網絡進行訓練會提高分割網絡的分割精度,同時縮短分割網絡的訓練時間。圖3a給出了VGG-19訓練過程中的損失函數的變化趨勢圖。由于本文使用的數據集規模要遠小于ImageNet[28],因此在經歷次80 000次batch迭代后,損失值已經在(0,0.05)之間,而平均分類精度可以達到0.9以上,已經基本達到了分類要求。同時基于同樣的數據集和訓練方法對AlexNet進行訓練,訓練結果如圖3b所示。而相比AlexNet而言,雖然VGG-19層數更多,但是由于卷積核更小,因此網絡收斂過程更加平穩,沒有出現AlexNet在訓練后期出現的loss值跳變的情況。所得到的VGG-19分類網絡模型可以作為后文中全卷積網絡的基礎網絡模型。

圖3 VGG-19和AlexNet訓練過程中的loss值

1.3 全卷積網絡構建

VGG-19只能通過輸出的特征向量來判定圖像的具體類別,整個過程丟失大量的像素信息,無法實現像素級別的分類。全卷積網絡(fully convolutional networks,FCN)以分類卷積神經網絡為基礎,將分類網絡中的全連接層轉換為卷積層,以保留輸入圖像的二維信息;對輸出的特征圖進行上采樣操作,使其恢復到原始圖像的尺寸,最后通過逐個像素分類獲取每個像素的類別,從而實現對全圖像的語義分割。本文中的全卷積網絡的結構如圖4所示,其中、分別表示初始圖像的高和寬,表示通道數或維度。

FCN是基于VGG-19建立的,每層池化操作可以使圖片縮小一半,將VGG-19中的全連接層全部換成卷積層,卷積核的大小為1×1,通道數保持不變,這樣就可以保留特征圖的二維空間屬性,最終可以獲得與類別數相等的熱圖(圖4中FC19)。熱圖的尺寸在經歷過5次池化過程后,變成原圖像大小的1/32(如圖4中FC17、FC18和FC19)。為了實現端到端的語義分割,需要將熱圖進行32倍的上采樣操作,以獲取與原圖像尺寸相等的語義分割結果。

注:C表示卷積層,FC表示卷積核為1×1的全卷積層;H表示輸入圖像的高度值,W表示輸入圖像的寬度值,D表示輸入圖像和輸出的特征圖通道數。全卷積網絡最后輸出的特征圖(熱圖)可以通過上采樣操作獲得與輸入圖像具有相同尺寸的語義分割結果。

1.4 基于全卷積網絡的上采樣操作

上采樣(up-sample)是池化操作的逆過程,上采樣后數據數量會增多。在計算機視覺領域,常用的上采樣方法有3種:1)雙線性插值[29](bilinear):這種方法特點是不需要進行學習,運行速度快,操作簡單;2)反卷積[30](deconvolution),利用轉置卷積核的方法,對卷積核進行180°翻轉;3)反池化[31](depooling),在池化過程中記錄坐標位置,然后根據之前坐標將元素填寫進去,其他位置補0。

與文獻[23]中的上采樣過程不同,為了提高上采樣操作的精度,本文對于2倍尺寸的上采樣操作選擇雙線性插值法,對于大于2倍尺寸的上采樣操作選擇反卷積法。對于雙線性插值法,設原始特征圖的尺寸為×,雙線性插值法首先將原始特征圖的尺寸變為(2+1)×(2+1),然后利用2×2的卷積核對新特征圖進行valid模式的卷積操作,最終獲得尺寸為2×2的新特征圖;而對于反卷積法,設原始尺寸為×,利用×的卷積核對特征圖進行full模式的卷積操作,最終可以獲得尺寸為(+-1)×(+-1)的新特征圖。

因為VGG-19中有5次池化操作,每經過一次池化操作,特征圖的尺寸都變為原尺寸的1/2。本文分別將每次池化后得到的特征圖命名為p1、p2、p3、p4和p5。如圖5所示,輸入圖像的尺寸為·,經過5次池化操作后p5的尺寸變為(/32)·(/32)。而p1~p5都可以作為本文上采樣的輸入特征圖,參照輸入圖像的尺寸,分別恢復到對應特征圖的2倍、4倍、8倍、16倍和32倍。本文沿用文獻[26]中的名稱,稱這些結果為FCN-2s、FCN-4s、FCN-8s、FCN-16s和FCN-32s。(圖5中只給出了FCN-8s、FCN-16s和FCN-32s的上采樣過程)。為了解釋計算過程,本文設輸入圖像的尺寸為32×32像素,VGG-19網絡中卷積操作不改變該階段輸入圖像或特征圖的大小,則p1的尺寸為16×16像素,p2的尺寸為8×8像素,p3的尺寸為4×4像素,p4的尺寸為2×2像素,p5的尺寸為1×1像素。FCN最后的3個全卷積層的卷積操作(1×1的卷積核)不會改變特征圖的二維空間屬性,因此輸出的特征圖尺寸仍與p5相等,為1×1像素,而且通道數與分類數(Number of classes)相等。

1)對于FCN-32s,熱圖的大小為1í1,FCN-32s是由熱圖直接通過32倍的反卷積操作還原成32í32的尺寸。即用=32的卷積核對=1的特征圖進行反卷積處理,輸出的分割圖為32í32(+?1=32)。

2)對于FCN-16s,對熱圖進行1次雙線性插值操作,將熱圖的寬和高分別增大2倍,然后與p4相加,最后將相加的結果進行16倍的反卷積操作(=31,=2),可以獲得與原圖像相同尺寸的圖像。

3)對于FCN-8s,對熱圖進行2次雙線性插值操作,使熱圖的寬和高分別增大4倍;然后對p4進行1次雙線性插值操作,即將p4的寬和高分別增大2倍;最后將增大后的熱圖、p4與p3相加,對相加的結果進行8倍的反卷積操作(=29,=4),可以獲得與原圖像相同尺寸的圖像。

從結構上看,仍舊可以針對p1和p2的結果進行上采樣處理,分別得到FCN-2s和FCN-4s,但是根據文獻[23]的結果顯示在8倍上采樣之后,優化效果已經不明顯。因此,本文選擇可以生成FCN-8s的全卷積網絡作為語義分割的基礎網絡,但是上采樣操作將熱圖中的分類像素點還原到原輸入圖像的尺寸,該過程存在較大的像素分類誤差,即像素的錯誤分類以及像素丟失,而基于深度密度的圖像分割優化方法可以用于優化該網絡的語義分割結果。

圖5 全卷積網絡的上采樣操作

2 基于深度密度的圖像分割優化

2.1 深度圖像分析

深度圖像中每個像素值表示空間中該點的位置與攝像頭的空間距離,因此深度圖像可以很好的描述復雜環境中肉牛的的輪廓信息(如圖6a所示),而深度圖像與RGB圖像的像素之間存在內容上的映射關系(如圖6b)。在試驗中,每張用于語義分割的RGB圖像有與其對應的、具有相同尺寸的深度圖像,而且通過Kinect2.0的軟件處理,可以實現RGB圖像與深度圖像在內容上的近似映射。

圖6 Kinect獲取的肉牛圖像

從深度圖像上可以看出,同一物體的細節信息可以通過連續變化的深度值表示出來,特別是對于同一目標來說,深度值一般是連續的,而相鄰不同物體間的邊界信息會出現深度值的跳變。通過統計可以發現,在同一張圖片上,深度值相近的像素點在空間上有較大概率是是臨近的,而且深度圖像中屬于同一物體并且在空間上連續的像素點,一般具有連續的灰度值區間。利用深度圖像上的這一特點,本文提出了深度密度(depth density)的概念。

2.2 深度密度定義

設深度圖像的尺寸為×,其中為圖像的行數,為圖像的列數;(,)為深度圖像上點(,)的深度值(由灰度表示);(,)表示圖像上點(,)對應的深度密度值,其表達式由公式(1)所示。

為了計算相似度,本文首先給出幾個參數定義:

式中為深度密度計算過程中區域邊長。

這樣,利用公式(8)就可以計算像素點(,)的深度密度值,即

利用該公式計算得到的深度密度(,)的取值區間為(0,1]。其中,深度密度值越接近于0表示該點與該區域的整體深度值分布情況差異很大,則該點屬于深度圖中的邊界像素或者噪聲像素的概率較高;深度密度值越接近于1表示該點與該區域的整體深度值分布差異較小,則該像素點位于物體表面的幾率較大。這就證明了如果一個像素點的深度密度接近于1,則該點有很大概率與其周圍×范圍內的像素點屬于同一物體。基于這一原理可以對全卷積的分割結果進行優化。圖7給出了=7時的深度密度圖,其中圖7a是肉牛的深度圖像,圖7b是深度圖像通過計算深度密度計算后獲取的深度密度圖像。在深度密度圖中,像素點的灰度值表示深度密度值,深度密度值越接近與1(白色),表示該像素點與周圍像素點深度值差別越小,而深度密度值越接近于0(黑色),表示該像素點與周圍像素點深度值差別越大,或該像素點在原深度圖像中為無效小像素點。肉牛邊緣處由于深度值變化明顯、噪聲多,因此邊緣位置像素的深度密度值較低,而肉牛軀體部分由于深度值分布平滑,因此該位置深度密度值較高。

注:s為深度密度計算過程中K區域邊長。

3 試驗結果分析

圖8 平滑區域與邊緣區域深度密度表示與對比

如圖8a所示,在同一深度圖中截取2類區域,其中紅色區域(標注9)表示深度圖像中的深度平滑區域,粉色區域(標注45)表示深度圖像中深度邊緣區域。通過像素映射找到2類區域對應的深度密度值,對這兩個區域的深度密度進行分析。圖8展示了=7值條件下深度平滑區域的深度密度分布情況。其中圖8b表示深度圖像中平滑區域(圖8a中紅色區域)的深度密度值,該區域圖的深度密度值普遍分布在[0.8, 1]區間,這表明該區域所在的像素點與其周圍像素點的深度差非常小;而圖8c表示深度圖像中邊緣區域(圖8a中粉色區域),從圖中可見,該區域深度密度值在[0, 0.8]區間反復震蕩,這是由于深度圖邊緣區域深度值變化很大,同時Kinect采集的深度圖像在物體邊緣區域存在大量“黑色”噪點,因此邊緣的深度密度值會更接近于0邊緣區域也是產生噪聲的主要區域,因此深度密度變化劇烈。圖8d給出了平滑區域與邊緣區域深度密度值的比較結果,其中分別在每個區域選取15 000個像素點進行比較,其中紅色點表示平滑區域的深度密度值,藍色點表示邊緣區域深度密度值,從圖中可以明顯看到平滑區域像素點主要分布在[0.8,1]區間,而邊緣區域雖然有些像素點的深度密度值也能達到0.8,但那是由于在深度圖像中截取邊緣區域時附帶的平滑區域像素點造成的。

注:Ad表示深度密度圖像中的有邊緣信息的對象區域,Af為FCN-8s結果中的分割區域。

對于結果分析,本文選用4種通用的語義分割和場景解析的度量評價標準,用于評價像素精度和區域重合度,包括:統計像素準確率(pixel accuracy,pa)、類別平均準確率(mean accuracy,ma)、平均區域重合度(mean intersection over union,mIU)和頻率加權區域重合度(frequency weight intersection over union,fwIU)。4種評價標準的取值范圍在0到1之間,值越接近于1表示分割精度越高。具體定義如下:

為了避免對單一類別(肉牛)訓練網絡而造成的過擬合問題,本文將肉牛的訓練數據與NYUDv2數據集[32](40個類別)混合使用,其中NYUDv2是用Kinect設備采集并整理得到的一個公開RGB-D數據集合,該數據集中有1 449張RGB-D圖像,同時包含40個類的語義分割標簽。利用NYUD2v數據集,本文對FCN網絡的8倍上采樣語義分割結果(FCN-8s),以及RGBD圖像語義分割結果(D-FCN-8s)在4種語義分割度量評價標準下進行精度比較。具體結果如表1所示。

表1 在NYUDv2數據集上的語義分割比較

注:FCN-8s表示全卷積網絡通過8倍上采樣而獲得的語義分割結果。D-FCN-8s表示基于深度密度的全卷積網絡通過8倍上采樣而獲得的語義分割結果。NYUDv2+1表示在原NYUDv2數據集上添加1個新類別(肉牛)后形成的數據集(共41種類別)。NYUDv2-20+1和NYUDv2-10+1同上。

Note: FCN-8s denotes the semantics segmentation result of fully convolutional networks by ‘8×’ up-sampling. D-FCN-8s denotes the semantics segmentation results of fully convolutional networks based on depth density by ‘8×’ up-sampling. NYUDv2+1 represents the data set (41 categories) formed by adding a new category (cattle) to the original NYUDv2 data set. NYUDv2-20+1 and NYUDv2-10+1 are the same with NYUDv2-40.

經過對比發現,當數據集類別減少時(41類、21類、11類),FCN-8s和D-FCN-8s在分割精度上都有一定的提升,這是因為全卷積網絡的基礎分類網絡參數較多,而隨著數據集類別的減少,網絡訓練過程出現了輕微的過擬合趨勢。此外,使用RGBD圖像進行語義分割時,通過判斷深度圖像中每個像素點的深度密度值是否操作特定閾值,可以區分該像素點是否處于肉牛邊緣像素或肉牛軀體平滑區域,進而提高全卷積網絡對RGB圖像上采樣語義分割的像素分類精度。參照表1中D-FCN-8s和FCN-8s對應的統計像素準確率(pa)、類平均準確率(ma)、平均區域重合度(mIU)和頻率加權區域重合度(fwIU)的4組值,分別求得D-FCN-8s和FCN-8s在不同數據集(NYUDv2+1、NYUDv2-20+1和NYUDv2-10+1)下的精度差,最后可以求得平均精度差值(Average precision difference, APD),如表2所示,精度差值D-FCN-8s在統計像素準確率、類別平均準確率、平均區域重合度和頻率加權區域重合度4種指標上比FCN-8s分別提高了2.5%、2.3%、3.4%和2.7%(表2中最后一列)。

為了驗證該方法在FCN系列網絡中的有效性,本文對原FCN的模型進行了改良,參照了文獻[33]和文獻[34]中的方案,在FCN結構后面加入了全連接條件隨機場(conditional random fields, CRF)和馬爾科夫隨機場(Markov random fields, MRF),其中全連接條件隨機場能夠建立像素之間的全連接距離關系,而距離值與顏色和實際相對距離相關,這可以讓該網絡在語義分割過程中讓圖像盡量在邊界處分割。而馬爾科夫隨機場對原CRF中的二元勢函數進行了修改,加入了懲罰因子,能夠更加充分的運用局部上下文信息產生分割結果。表3中給出了4種分割方案在4種通用的語義分割度量評價標準下的比較情況,其中CRF-FCN-8s是加入全連接條件隨機場得到的語義分割結果,MRF-FCN-8s是加入馬爾科夫隨機場得到的語義分割結果。結果表明,即時對原FCN網絡進行改造,其各項指標也比深度密度對FCN-8s優化后的各項指標差,這是由于深度密度也采用了局部像素關聯的方式來對具體像素點進行深度區域分類,而CRF和MRF雖然也是采用了距離關聯方式,但是其關聯關系的精度要低于深度圖像中深度關聯的精度,因此采用深度密度方法會得到更好的分割結果。這表明深度密度可以用于優化全卷積神經網絡的語義分割結果,能夠提升語義分割精度。圖10分別給出FCN-8s以及為優化后的D-FCN-8s與真值的對比效果圖,其中FCN-8s的分割細節部分明顯不如D-FCN-8s,而利用深度密度得到的分割結果非常接近與真值圖。

表2 FCN-8s與D-FCN-8s在3類數據集上的平均精度差

注:平均精度差(APD)的計算公式為,APD(average precision difference) = ((NYUDv2+1)X+(NYUDv2-20+1)X+(NYUDv2-10+1)X)/3,其中X∈{pa, ma, mIU, fwIU}.

Note: Formula for calculating the average accuracy difference is as follows, APD (Average Precision Difference)=((NYUDv2+1)X+(NYUDv2-20+1)X+ (NYUDv2-10+1)X)/3, where X∈{pa, ma, mIU, fwIU}.

表3 FCN-8s、CRF-FCN-8s、MRF-FCN-8s和D-FCN-8s在NYUDv2+1數據集上的語義分割結果比較

注:CRF-FCN-8s是以FCN為基礎并加入全連接條件隨機場后得到的分割結果,MRF-FCN-8s是以FCN為基礎并加入馬爾科夫條件隨機場后得到的分割結果。

Note: CRF-FCN-8s is s segmentation result based on FCN and adding Conditional Random Fields (CRF). MRF-FCN-8s is a segmentation result based on FCN and adding Markov Random Field (MRF).

圖10 D-FCN-8s、FCN-8s與真值對比

5 結 論

1)在對全卷積網絡輸出的特征圖(熱圖)進行上采樣過程中,交替使用了雙線性插值方法和全尺寸反卷積方法,避免了直接采用全尺寸反卷積操作而造成的分割結果粗糙的問題。

3)基于像素密度值,可以對FCN-8s中肉牛細節部分(例如邊緣部位)進行優化,經過試驗結果分析,在3類數據集上(NYUDv2+1,NYUDv2-20+1,NYUDv2-10+1)進行分割驗證,與原始FCN-8s分割結果相比,D-FCN-8s在統計像素準確率提高2.5%,在類別平均準確率提升2.3%,在平均區域重合度提升3.4%,在頻率加權區域重合度提升2.7%。

4)本文在FCN的基礎上,分別加入了全連接條件隨機場和馬爾科夫隨機場,用于在對像素分類過程中增加像素局部上下文信息,提高FCN系列網絡的分割精度,通過NYUDv2+1數據集驗證發現D-FCN-8s結果仍優于這兩種網絡,因為深度密度是在深度圖像中使用了局部深度全局信息,而深度圖像的精度要高于全連接條件隨機場和馬爾科夫隨機場中的距離值,因此分割效果更好。

因此,上述結論證明通過計算和使用RGBD圖像中像素點的深度密度,可以優化全卷積網絡在肉牛細節部位的分割效果,提高全卷積網絡的語義分割精度。

[1] Zhu Nanyang, Liu Xu, Liu Ziqian, et al. Deep learning for smart agriculture: Concepts, tools, applications, and opportunities[J]. IJABE. 2018, 1(4): 32-44.

[2] David Stutz, Alexander Hermans, Bastian Leibe. Superpixels: An evaluation of the state-of-the-art[J]. Computer Vision and Image Understanding. 2018, 166: 1-27.

[3] Bell S, Zitnick C L, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition, Las Vega, 2016: 2874-2883.

[4] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2016, 313(5786): 504-507.

[5] 周云成,許童羽,鄭偉,等. 基于深度卷積神經網絡的番茄主要器官分類識別[J]. 農業工程學報,2017,33(15):219-226.

Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(15): 219-226. (in Chinese with English abstract)

[6] 田有文,程怡,王小奇,等. 基于高光譜成像的蘋果蟲傷缺陷與果梗/花萼識別方法[J]. 農業工程學報,2015,31(4):325-331.

Tian Youwen, Cheng Yi, Wang Xiaoqi, et al. Recognition method of insect damage and stem/calyx on apple based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(4): 325-331. (in Chinese with English abstract)

[7] 趙源深,貢亮,周斌,等. 番茄采摘機器人非顏色編碼化目標識別算法研究[J]. 農業機械學報,2016,47(7):1-7.

Zhao Yuanshen, Gong Liang, Zhou Bin, et al. Object recognition algorithm of tomato harvesting robot using non-color coding approach[J]. Transactions of the Chinese Society for Agricultural Engineering, 2016, 47(7): 1-7. (in Chinese with English abstract)

[8] 賈偉寬,趙德安,劉曉樣,等. 機器人采摘蘋果果實的K-means和GA-RBF-LMS神經網絡識別[J]. 農業工程學報,2015,31(18):175-183.

Jia Weikuan, Zhao Dean, Liu Xiaoyang, et al. Apple recognition based on K-means and GA-RBF-LMS neural network applicated in harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(18): 175-183. (in Chinese with English abstract)

[9] 楊國國,鮑一丹,劉子毅,等. 基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別[J]. 農業工程學報,2017,33(6):156-162.

Yang Guoguo, Bao Yidan, Liu Ziyi, et al. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(6): 156-162. (in Chinese with English abstract)

[10] 譚文學,趙春江,吳華瑞,等. 基于彈性動量深度學習的果體病例圖像識別[J]. 農業機械學報,2015,46(1):20-25.

Tan Wenxue, Zhao Chunjiang, Wu Huarui, et al. A deep learning network for recognizing fruit pathologic images based on flexible momentum[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 20-25. (in Chinese with English abstract)

[11] 王獻鋒,張善文,王震,等. 基于葉片圖像和環境信息的黃瓜病害識別方法[J]. 農業工程學報,2014,30(14):148-153.

Wang Xianfeng, Zhang Shanwen, Wang Zhen, et al. Recognition of cucumber diseases based on leaf image and environmental information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 148-153. (in Chinese with English abstract)

[12] 王新忠,韓旭,毛罕平. 基于吊蔓繩的溫室番茄主莖稈視覺識別[J]. 農業工程學報,2012,28(21):135-141.

Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135-241. (in Chinese with English abstract)

[13] 郭艾俠,熊俊濤,肖德琴,等. 融合Harris與SIFT算法的荔枝采摘點計算與立體匹配[J]. 農業機械學報,2015,46(12):11-17.

Guo Aixia, Xiong Juntao, Xiao Deqin, et al. Computation of picking point of litchi and its binocular stereo matching based on combined algorithms of Harris and SIFT[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(12): 11-17. (in Chinese with English abstract)

[14] 趙凱旋,何東鍵. 基于卷積神經網絡的奶牛個體身份識別方法[J]. 農業工程學報,2015,31(5):181-187.

Zhao Kaixuan, He Dongjian. Recognition of individual dairy cattle based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 181-187. (in Chinese with English abstract)

[15] 段延娥,李道亮,李振波,等. 基于計算機視覺的水產動物視覺特征測量研究綜述[J]. 農業工程學報,2015,31(15):1-11.

Duan Yan’e, Li Daoliang, Li Zhenbo, et al. Review on visual characteristic measurement research of aquatic animals based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(15): 1-11. (in Chinese with English abstract).

[16] 高云,郁厚安,雷明剛,等. 基于頭尾定位的群豬運動軌跡追蹤[J]. 農業工程學報,2017,33(2):220-226.

Gao Yun, Yu Houan, Lei Minggang, et al. Trajectory tracking for group housed pigs based on locations of head/tail[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(2): 220-226. (in Chinese with English abstract)

[17] 鄧寒冰,許童羽,周云成,等. 基于DRGB的運動中肉牛形體部位識別[J]. 農業工程學報,2018,34(5):166-175.

Deng Hanbing, Xu Tongyu, Zhou Yuncheng, et al. Body shape parts recognition of moving cattle based on DRGB[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(5): 166-175. (in Chinese with English abstract)

[18] 楊阿慶,薛月菊,黃華盛,等. 基于全卷積網絡的哺乳母豬圖像分割[J]. 農業工程學報,2017,33(23):219-225.

Yang Aqing, Xue Yueju, Huang Huasheng, et al. Lactating sow image segmentation based on fully convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(23): 219-225. (in Chinese with English abstract)

[19] 郭祥云,臺海江. 深度學習在大田種植中的應用及展望[J]. 中國農業大學學報,2019,24(1):119-129.

Guo Xiangyun, Tai Haijiang. Current situation and prospect of deep learning application in field planting[J]. Journal of China Agricultural University, 2019, 24(1): 119-129. (in Chinese with English abstract)

[20] 王丹丹,何東健. 基于R-FCN深度卷積神經網絡的機器人疏果前蘋果目標的識別[J]. 農業工程學報,2019,35(3):156-163.

Wang Dandan, He Dongjian. Recognition of apple targets before fruits thinning by robot based on R-FCN deep convolution neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 156-163. (in Chinese with English abstract)

[21] 劉立波,程曉龍,賴軍臣. 基于改進全卷積網絡的棉花冠層圖像分割方法[J]. 農業工程學報,2018,34(12):193-201.

Liu Libo, Cheng Xiaolong, Lai Junchen. Segmentation method for cotton canopy image based on improved fully convolutional network model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 193-201. (in Chinese with English abstract)

[22] 段凌鳳,熊雄,劉謙,等. 基于深度全卷積神經網絡的大田稻穗分割[J]. 農業工程學報,2018,34(12):202-209.

Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicle segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202-209. (in Chinese with English abstract)

[23] Evan Shelhamer, Jonathan Long, Trevor Darrell. Fully Convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[24] Ronghang Hu, Piotr Dollar, Kaiming He, et al. Learning to segment every thing[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018, 4233-4241.

[25] Karen Simonyan, Andrew Zisserman. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations, San Diego, 2014: 1-14.

[26] Deng Jia, Dong Wei, Socher Richard, et al. ImageNet: A large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, 2009: 248-255.

[27] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton. ImageNet classification with deep convolutional neural networks[J]. International Conference on Neural Information Processing System, 2012, 60(2): 1097-1105.

[28] Jia Deng, Wei Dong, Richard Socher, et al. ImageNet: A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision & Pattern Recognition, 2009: 248-255.

[29] Lin Tsungyu, Aruni RoyChowdhury, Subhransu Maji. Bilinear CNN models for fine-grained visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1309-1322.

[30] Zheng Shou, Jonathan Chan, Alireza Zareian, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1417-1426.

[31] Matthew D Zeiler, Rob Fergus. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision, Zurich, 2014: 818-833.

[32] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images[C]//In ECCV, 2012.7

[33] Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks[C]// 2015 IEEE International Conference on Computer Vision. 2015.

[34] Liu Ziwei, Li Xiaoxiao, Luo Ping, et al. Semantic image segmentation via deep parsing network[C]// IEEE International Conference on Computer Vision. 2015.

Optimization of cattle’s image semantics segmentation with fully convolutional networks based on RGB-D

Deng Hanbing1,2, Zhou Yuncheng1,2※, Xu Tongyu1,2, Miao Teng1,2,3, Xu Jing1,2

(1.110866,;2.110866,;3.100097,)

With the decreasing cost of image sensor equipment, full-time monitoring has been gradually realized in the process of cattle breeding. Especially, in the whole life of cattle, the monitoring and analysis for cattle’s behavior have become a research hotspot in the field of breeding. Acquiring a large amount of cattle image and video information, people are more concerned about how to process, analyze, understand and apply these data. How to segment dynamic objects from complex environment background is the precondition of cattle behavior analysis, and it is also the key of realizing long-distance, contactless and automatic detection for cattle behavior. The traditional machine vision image segmentation method is used to realize the clustering and extraction of pixels by artificially extracting image features. However, when the image background is complex, feature extraction will become very troublesome and even difficult to achieve. Deep Convolutional Neural Networks (DCNN) provides another solution, which enables computers to automatically learn and find the most descriptive and prominent features in each specific category of objects, and allows deep networks to discover potential patterns in various types of images. On the basis of massive labeled data, the accuracy of classification, segmentation, recognition and detection with convolutional neural network can be improved automatically through continuous training, and the labor cost is transferred from algorithm design to data acquisition, which reduces the difficulty of technology application. However, for cattle image segmentation, the complex breeding environment will be a problem. The color and texture of environmental information in the image will have an impact on the segmentation of cattle’s details. Especially when FCN uses deconvolution operation in the process of up-sampling, it is insensitive to the details of the image and does not take into account the class relationship between the pixels, which makes the segmentation result lack of spatial regularity and spatial consistency, so the segmentation effect will be very rough. In order to improve the accuracy of semantics segmentation for fully convolutional networks and segmentation effect of cattle image details, this paper proposes a method of fully convolutional networks semantic segmentation based on RGBD cattle image. We create a concept which named “depth density”. The value of depth density can quantify the probability about whether different pixels have the same category. According to the mapping relationship between RGB image and depth image on pixel level content, we optimize the semantic segmentation results of cattle’s image by FCN. The experimental results showed that, better than FCN-8s, the proposed method could improve the pixel accuracy, mean accuracy, mean intersection over union and frequency weight intersection over union by 2.5%, 2.3%, 3.4% and 2.7% respectively.

image processing; models; animals; semantic segmentation; RGB-D; fully convolutional networks; multimodal; cattle’s image

鄧寒冰,周云成,許童羽,苗 騰,徐 靜. 基于RGB-D的肉牛圖像全卷積網絡語義分割優化[J]. 農業工程學報,2019,35(18):151-160.doi:10.11975/j.issn.1002-6819.2019.18.019 http://www.tcsae.org

Deng Hanbing, Zhou Yuncheng, Xu Tongyu, Miao Teng, Xu Jing. Optimization of cattle’s image semantics segmentation with fully convolutional networks based on RGB-D[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 151-160. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.18.019 http://www.tcsae.org

2019-04-02

2019-08-20

國家自然科學基金資助項目(31601218,61673281,31601219);中國博士后科學基金(2018M631812);遼寧省自然基金面上項目(20180551102)

鄧寒冰,講師,博士,主要從事農業領域的機器學習與模式識別研究工作。Email:denghanbing@syau.edu.cn

周云成,副教授,博士,主要農業領域機器學習與模式識別研究工作。Email:zhouyc2002@syau.edu.cn

10.11975/j.issn.1002-6819.2019.18.019

S823.92; TP391.41

A

1002-6819(2019)-18-0151-10

猜你喜歡
語義深度區域
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国外欧美一区另类中文字幕| 99热这里只有精品在线播放| 亚洲精品国产成人7777| 欧美第九页| 中文成人在线| 国产一区二区丝袜高跟鞋| 国产精品丝袜在线| 国产精品yjizz视频网一二区| 男人天堂伊人网| 国产手机在线小视频免费观看| 尤物在线观看乱码| 国产精品夜夜嗨视频免费视频| 青青草原偷拍视频| 最新国产高清在线| 亚洲一级色| 伊人欧美在线| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 精品视频免费在线| 欧美成人影院亚洲综合图| 99视频全部免费| 亚洲视频免费在线| 国产午夜福利亚洲第一| 欧美成人手机在线观看网址| 国产精品蜜芽在线观看| 国产小视频a在线观看| 五月天综合婷婷| 日韩二区三区无| 热思思久久免费视频| 亚洲日韩精品伊甸| 99精品欧美一区| 国产一线在线| 日韩在线永久免费播放| 亚洲国产一成久久精品国产成人综合| 国产精品久久久久久搜索| 在线国产综合一区二区三区| 日韩在线欧美在线| 性欧美久久| 小说 亚洲 无码 精品| 波多野结衣一二三| 精品国产欧美精品v| 国产第一页免费浮力影院| 操美女免费网站| 九九热精品在线视频| 老司机午夜精品网站在线观看| 亚洲乱伦视频| 国产高清不卡视频| 宅男噜噜噜66国产在线观看| 亚洲高清在线天堂精品| 999国内精品视频免费| 不卡网亚洲无码| 国产农村妇女精品一二区| 亚洲欧美日韩成人高清在线一区| 亚洲精品国偷自产在线91正片| 亚洲视频二| 国产精品成人免费综合| 漂亮人妻被中出中文字幕久久| 国产精品部在线观看| 免费精品一区二区h| 波多野结衣无码视频在线观看| 国产综合在线观看视频| 国产自在线播放| 国产在线视频导航| 国产午夜无码片在线观看网站 | 91精品专区国产盗摄| 成人免费视频一区二区三区| 91九色国产在线| 精品在线免费播放| 亚洲天堂精品视频| 永久免费无码日韩视频| 在线不卡免费视频| 99久久精品国产自免费| 日本免费新一区视频| 五月天综合网亚洲综合天堂网| 亚洲日本精品一区二区| 国产99精品久久| 专干老肥熟女视频网站| 亚洲性日韩精品一区二区| 九色综合视频网| 最新亚洲人成网站在线观看| 亚洲欧美在线综合一区二区三区| 国产女人18水真多毛片18精品| 中文字幕在线观|