趙世達 王樹才,2 白 宇 郝廣釗 涂本帥
(1.華中農業大學工學院, 武漢 430070; 2.農業農村部長江中下游農業裝備重點實驗室, 武漢 430070)
羊肉是我國第四大肉類消費品,隨著人民飲食結構的調整,其需求量逐年增加。據統計,2019年我國羊肉總產量為488萬t,同比增長2.6%[1]。在羊肉加工過程中,羊骨架分割是獲得各食用部位的重要環節,與大眾食用習慣息息相關。但是,由于缺乏智能分割設備,羊肉屠宰加工企業大多采用倒掛式半自動加工工藝,特別是羊骨架分割作業全部依賴人工完成,存在分割效率低、作業環境惡劣等問題,制約了我國家畜屠宰加工業的發展[2-3]。計算機視覺技術具有高效率、低成本、適應性好及穩定可靠的優點,已廣泛應用于家畜養殖[4-5]、羊體尺測量[6]、肉質分級等[7-8]領域。采用計算機視覺技術可以準確、便捷地獲取羊骨架各部位的自然特征表達,但基于深度學習的計算機視覺算法的有效性依賴于數據集的容量,需要海量的樣本圖像數據作為大數據驅動,才能取得較好的識別效果,這限制了其在小規模樣本任務中的使用。因此,在保證圖像語義信息的前提下,擴充羊骨架圖像數據量、實現羊骨架圖像的實時分割,從而滿足生產線的實際需求,成為開發羊體分割智能機器人的關鍵。
近年來,生成對抗網絡(Generative adversarial network,GAN[9])為計算機視覺技術的發展提供了新方向,其基于“零和博弈”和對抗訓練的思想設計,可以有效實現高分辨率圖像生成[10-11]與圖像風格遷移[12],目前已被廣泛應用于醫學[13]、生物學[14]及農業領域[15]。文獻[16]基于深度卷積生成對抗網絡對植物圖像識別方法展開研究,為農業圖像數據不足問題提供了解決方案。文獻[17]使用GAN網絡生成蘑菇表型圖像,解決了蘑菇表型數據長尾分布、非均衡性的問題。文獻[18]基于生成對抗網絡的pix2pix架構對人類肝臟CT圖像進行風格遷移試驗,結果表明,仿真數據與原始數據的結構相似性為0.997 3。對于高分辨率的圖像生成,一些學者發明了眾多新型GAN網絡架構,例如C-GAN[19]、SinGAN[20]、BigGAN[21]、WGAN[22]等。如果采用高分辨率圖像生成網絡對羊骨架圖像數據進行模擬,生成保留原始語義信息的羊骨架圖像,則可以有效解決基于深度學習的計算機視覺方法對羊骨架圖像進行實時語義分割中的樣本不足問題。
羊骨架圖像中羊頸部、肋部、脊椎3部位識別實質上屬于圖像語義分割問題,得益于卷積神經網絡(Convolutional neural networks,CNN)對圖像深、淺層特征強大的學習能力,研究者將卷積神經網絡成功應用于各圖像語義分割任務中。文獻[4]采用卷積神經網絡實現了奶牛個體身份的無接觸精準識別,視頻段識別率高達93.3%。文獻[23]針對群養模式下豬只體易粘連、難以分割的問題,提出了一種基于卷積神經網絡的豬只圖像分割方法。文獻[24]通過Faster-RCNN對羊分娩場景下的初生羊羔進行了檢測。文獻[25]提出基于FCN哺乳母豬圖像分割算法,使豬舍背景下的哺乳豬只被快速、精準分割。在羊體圖像語義分割方面,目前相關研究較少。文獻[26-27]采用U型卷積神經網絡實現了羊肋排圖像的準確分割,并基于DeepLabV3+對羊骨架圖像語義分割展開研究,最終取得較高的分割準確率,但該方法存在單幅圖像處理耗時較長的問題。因此,考慮到羊骨架生產線對實時性的要求,實現羊骨架圖像的快速語義分割非常必要。
本文首先基于對抗式生成網絡對現有羊骨架圖像數據集開展研究,生成具有完整語義信息的羊骨架圖像,并通過DCGAN[28]、SinGAN、BigGAN 3種網絡對比,優選出最佳GAN網絡;然后,根據生成圖像和原始圖像建立組合數據集,設置不同亮度圖像來模擬不同光照下的羊骨架圖像,建立附加測試集;利用ICNet[29]網絡分割羊骨架圖像,獲取羊頸部、肋部、脊椎3部位的分割精度、MIoU和單幅圖像處理時間,與4種傳統語義分割方法進行對比試驗,并優化中分辨率分支權重,以期提高ICNet對羊骨架圖像語義分割精度。
試驗樣本選用經扯皮后去除頭部、腿部、腹部的成年波爾山羊,樣本圖像采集于內蒙古自治區美洋洋食品股份有限公司的羊胴體分割生產線。選用華谷動力科技公司生產的WP-UC600型CCD相機,搭配Z4S-LE-SV-1214H型歐姆龍鏡頭,設置相機距地面1.4 m,距懸掛狀態的羊胴體樣本0.8 m拍攝圖像,無特定背景與光源。為擴大樣本之間的差異性,以保證后期模型訓練的泛化能力,隨機采集6批次羊胴體,每批次包含200個樣本,共1 200幅尺寸為3 024像素×4 032像素羊胴體圖像。采集裝置示意圖如圖1所示。
1.2.1生成對抗網絡
生成對抗網絡是由GOODFELLOW等[30]于2014年基于零和博弈論提出的一種無監督學習算法框。GAN網絡一般由生成器和判別器兩部分組成,生成器盡可能學習真實樣本的數據分布,從而生成與真實數據逐漸相似的數據。判別器用以判定輸入數據是否為真實數據,其輸出一般是概率值,如概率值越大則表征輸入數據是真實數據的可能性越大,反之即為生成數據。GAN網絡在訓練過程中,生成器通過判別器的反饋機制不斷更新參數,使得生成數據愈發服從真實數據分布,達到“欺騙”判別器的目的,而判別器也基于判斷結果不斷優化,提升區分生成數據與真實數據的能力。二者如此反復對抗,當判別器無法判斷輸入數據為生成數據或真實數據時,則認為GAN網絡達到“納什均衡”[31]狀態,模型訓練達到最優。
GAN網絡結構如圖2所示。隨機噪聲(z)一般為高斯變量,且生成器G對其維度沒有限制。隨機噪聲輸入生成器后,生成器生成數據G(z)(生成圖像),進而輸入至判別器D,另外為保證生成器能夠依據來源于判別器D的反饋誤差進行參數更新,生成器必須可微。最后判別器D對真實數據(x,真實圖像)與生成數據G(z)做真假判定,并將誤差傳遞至生成器,生成器再根據誤差調整參數,目的在于使新生成“假”數據能夠被判別器判定為“真”,同時,判別器根據判定結果更新自身參數以提高判別數據“真、假”的能力。
GAN網絡不斷優化生成器與判別器的實質是將生成器極小化,判別器極大化,其目標函數為
min(G)max(D)V(D,G)=Ex-Pdata(x)[lgD(x)]+
EZ~PZ(Z)[lg(1-D(G(Z)))]
(1)
式中,D(x)表示當判別器的輸入數據為真實數據時,得到判斷結果為“真”的概率;D(G(Z))表示當輸入數據為生成數據G(Z)時,判別器判定為真實數據的概率;Pdata(x)表示真實數據分布;PZ(Z)表示生成數據分布;E為期望值;生成器目的在于使生成數據無限接近真實數據,即D(G(Z))趨近于1,相應地,V(D,G)減??;判別器使D(x)趨近于1,而D(G(Z))趨近于0,V(D,G)增大;max(D)V(D,G)表示判別器目標函數,使判別器預測概率的負對數期望取極大值;min(G)max(D)V(D,G)為生成器優化函數,使判別器的極大值最小化。
1.2.2羊骨架圖像生成網絡
圖像中目標的自然特征表達與圖像分辨率息息相關,高分辨率圖像較低分辨圖像能夠保留更全面的特征信息,且原始GAN網絡存在生成樣本缺乏多樣性、模型訓練容易塌陷、生成圖像品質差等缺點,因此,考慮到上述問題及羊骨架不同部位特征的差異性,采用生成高分辨圖像對抗網絡很有必要。本研究首先將原始圖像分辨率設定為512像素×512像素建立數據集,然后選用DCGAN、SinGAN、BigGAN 3種生成對抗網絡生成羊骨架圖像。
DCGAN將卷積神經網絡與GAN相結合,以提高生成圖像質量及生成樣本多樣性。DCGAN生成器G包含3個反卷積層(Deconvolution)和3個卷積層(Convolution),判別器D包含4個卷積層及1個全連接層。DCGAN網絡結構如圖3所示。
首先,尺寸為64×64×128的隨機噪聲矩陣輸入反卷積層;然后,輸出尺寸為128×128×128的特征張量至卷積層,卷積核尺寸為3×3,經批標準化(Batch normalization)和ReLU線性整流函數運算后輸入下一層;最終,通過最后一層卷積操作經Tanh激活函數得到尺寸為512×512×3的羊骨架生成圖像。判別器的輸入為生成圖像和原始圖像,目的在于對圖像的“真/假”進行判斷。輸入圖像經過4層卷積運算,卷積核尺寸為5×5,經標準化和LeakyReLU激活函數后輸出至全連接層,最后全連接層經Sigmoid函數輸出“1/0”。ReLU、Tanh和LeakyReLU激活函數表達式參照文獻[15]。


BigGAN網絡于2019年提出,其通過擴大批尺寸(Batchsize)及增加網絡參數量提升模型性能,并基于正交正則化與截斷技巧有效地提升了生成圖像質量及樣本多樣性,具備生成高像素、高品質圖像的優點。本研究基于羊骨架圖像數據集,通過調小BigGAN網絡的Batchsize和生成器G、判別器D學習率,使其能夠部署在普通圖形處理工作站上。
本研究根據以上3種羊骨架圖像生成對抗網絡的生成圖像品質對比分析結果,獲取最優生成網絡。
目前,應用于圖像語義分割的深度學習模型多種多樣,例如DeepLabV3、PSPNet、U-Net、SegNet、FCN等,上述模型在針對Imagenet數據集圖像分割大賽中均取得較高的準確率,但是分割耗時較長,不能保證實時性。因此,輕量級語義分割模型ENet應運而生,但ENet保證實時性的同時放棄了一定的準確率,分割精度較低。文獻[29]提出一種實時圖像語義分割模型ICNet,使模型兼顧實時性的同時保證了準確率。ICNet使用PSPNet的金字塔池化模塊融合多尺度上下文信息,并將網絡結構劃分為3個分支,分別為低分辨率、中分辨率和高分辨率,如圖5所示。其中低分辨率分支將中分辨率輸出的原圖尺寸1/16的特征圖進一步縮放至1/32,之后采用空洞卷積擴大感受野,最終以原圖尺寸1/32輸出特征圖,并且與中分辨率分支共享卷積參數與權重;中分辨率分支以原圖1/2的分辨率作為輸入,經卷積層后得到原圖尺寸1/16的特征圖,與低分辨率的輸出特征圖以CFF單元融合得到最終輸出;高分辨率分支以原圖作為輸入,經卷積層后得到原圖尺寸1/8的特征圖,再通過CFF單元與中分辨率的輸出特征圖融合,經多倍上采樣后將特征圖擴充至原圖尺寸。ICNet利用低分辨率完成語義分割,高分辨率細化分割結果的策略提高了模型分割精度,此外,其采用的級聯標簽指導各分支的訓練,加快了模型收斂與預測速度,提升了實時性。
ICNet在每個分支訓練中添加了損失權重,并對加權的Softmax交叉熵進行優化,其損失函數L可表示為
L=λ1L1+λ2L2+λ3L3
(2)
式中λ1、λ2、λ3——低、中、高分辨分支權重
L1、L2、L3——低、中、高分辨分支損失
通常情況下,如果高分辨率分支權重λ3設置為1,則中分辨率和低分辨率分支的權重λ2與λ1分別為0.4和0.16。
為量化分析ICNet模型針對羊胴體圖像數據集語義分割的性能,本文引入圖像語義分割任務中常用的像素精度PA(Pixel accuracy)和平均交并比MIoU(Mean intersection over union)作為模型分割性能的判斷標準,將模型的分割結果與人工標注圖像(真實標簽)進行對比分析。PA與MIoU計算式為
(3)
式中PA——像素精度
N——語義類別數,取4
nii——i類語義的真實像素數量
nij——i類語義被識別為j類的像素數量
(4)
式中MIoU——平均交并比
nji——j類語義被識別為i類的像素數量
上述度量標準中MIoU與模型的分割效果成正相關,因其簡潔、代表性強,常作為圖像語義分割模型性能評估的主要依據。
基于生成對抗網絡及ICNet的羊骨架圖像實時分割主要由3個步驟組成:①采集羊骨架圖像,并歸一化,建立羊骨架圖像原始數據集。②基于生成對抗網絡的羊骨架圖像生成,獲取最優模型。③針對“亮”、“暗”圖像判斷ICNet泛化能力;基于ICNet的羊骨架圖像實時分割,并進行對比分析,最后進行ICNet優化。具體流程如圖6所示。
本文試驗均基于Pytorch深度學習框架在DELL T5810型塔式圖形處理工作站上完成,硬件環境為Intel@core64至強W-2145 CPU 3.70 GHz, RAM為64 GB,GPU為NVIDIA P4000-8GB,計算機系統為Windows 10專業版。
2.2.1數據集
由于采集到的羊骨架圖像分辨率較高,所占內存較大,如果直接作為后續模型訓練的輸入會顯著增大模型的計算節點數,造成計算溢出,計算機無法承擔模型訓練任務。因此,將原始羊骨架圖像以比例不變性原則縮放至512像素×512像素,經人工篩選,去除失真圖像和增大目標與背景的對比度,最后選擇1 000幅羊骨架圖像作為原始數據集。數據集示例如圖7所示。
2.2.2生成對抗網絡模型訓練
生成對抗網絡模型訓練的實質在于以生成器G和判別器D反復對抗的方式更新網絡參數,利用反向傳播降低生成器和判別器的損失函數G_loss與D_loss,使得生成圖像接近原始圖像的數據分布。
本文基于羊骨架圖像原始數據集訓練DCGAN與BigGAN,隨機選取原始數據集的某單幅圖像訓練SinGAN。上述3種網絡訓練超參數設置如表1所示。

表1 3種網絡超參數設置Tab.1 Hyperparameter settings of three network
2.2.3羊骨架圖像生成結果與分析
圖8為DCGAN、SinGAN、BigGAN生成對抗網絡針對羊骨架圖像原始數據集訓練過程中G_loss與D_loss隨迭代次數的變化趨勢。由圖8a、8b可以看出,DCGAN網絡在訓練初期G_loss隨迭代次數迅速降低,當迭代3 000至17 400次時達到最低,隨后振蕩緩慢上升;其D_loss隨迭代次數變化趨勢與G_loss相似,在迭代初期迅速降低,然后振蕩緩慢下降。SinGAN網絡G_loss、D_loss變化情況如圖8c、8d所示,G_loss在迭代初期迅速下降,之后于迭代6 000次左右顯著上升隨即快速下降,然后緩慢降低最終平滑;D_loss呈現出大幅振蕩狀態,但總體小于G_loss。如圖8e、8f所示,BigGAN網絡G_loss在訓練開始階段以較大的幅值波動,然后趨于平穩,當迭代至15 600次附近時,迅速上升和下降,最終趨于穩定;D_loss變化趨勢與DCGAN網絡相似,都隨訓練進度以小幅振蕩形勢緩慢降低。通過3種網絡G_loss和D_loss的對比變化情況可以得出,針對羊骨架圖像數據集生成圖像,判別器較生成器均能以少量優勢取勝。
本文設置模型訓練過程中每迭代200次生成一批羊骨架圖像數據,3種網絡不同迭代次數生成的羊骨架圖像如圖9所示。
由圖9可以看出,DCGAN網絡在迭代13 400次時,生成的羊骨架圖像依據圖像上下文信息,已經可以區分羊頸部、肋部和脊椎3部位,但特征細節與真實圖像存在差距,其最終生成圖像圖9d品質優于圖9c;SinGAN網絡生成圖像與真實圖像相比特征差異明顯,且出現失真情況,表明在本試驗環境下,SinGAN網絡不適用于羊骨架圖像生成任務;如圖9l所示,隨迭代次數的增加,BigGAN網絡最終生成的羊骨架圖像中羊頸部、肋部、脊椎3部位語義信息保存完整,其顏色、紋理、輪廓特征明顯,并且較圖9d更為接近真實圖像,表明針對本試驗中羊骨架圖像數據集,BigGAN網絡生成羊骨架圖像性能優于DCGAN,因此選用BigGAN作為最終的羊骨架圖像生成網絡。
2.3.1圖像標注與數據集建立
本文羊骨架圖像實時語義分割模型訓練屬于有監督學習。采集的羊骨架圖像不包含標簽及語義信息,需要人工進行圖像標注,才能滿足模型訓練要求。基于BigGAN網絡生成的圖像與歸一化后的原始圖像組成羊骨架圖像組合數據集,其中,訓練集6 000幅,測試集1 500幅,驗證集200幅。另外,為驗證ICNet網絡泛化能力,隨機選取100幅同一節能燈光源條件下的羊骨架圖像,并將其RGB色彩空間轉換為HSV,設置1.5倍和0.8倍兩種亮度水平以模擬不同光照強度,最后再將“亮”、“暗”圖像的色彩空間轉換回RGB,建立不同亮度的羊骨架圖像附加測試集共計200幅,其中調亮、調暗圖像各100幅。之后2種數據集均采用Labelme圖像標注工具,參考Cityscapes數據集格式對羊頸部、肋部、脊椎3部位進行人工標注。
2.3.2基于遷移學習的ICNet模型訓練
遷移學習能夠保證模型在面對小樣本數據集時抑制過擬合現象,同時還可以加快模型收斂,提高泛化能力。因此,本文在ICNet模型訓練過程中加載了基于Cityscapes數據集的預訓練權重。采用Adam(Adaptive moment estimation)優化器進行梯度下降,設置初始學習率為0.001, Batchsize為4,迭代次數為20 000。另外,設定模型在訓練過程中自動保存最優模型,并將其作為羊骨架圖像語義分割的最終輸入模型。ICNet網絡損失函數值隨迭代次數的變化趨勢如圖10所示。由圖10可知,損失值在訓練初期迅速下降,當迭代次數為2 000左右時開始小幅度振蕩緩慢下降,直至迭代次數為16 000次后損失值基本收斂于0.032。
2.3.3ICNet對組合驗證集的分割與結果分析
基于訓練最優的ICNet模型展開測試,針對驗證集獲取羊體3部位的MIoU及準確率,以及模型的總體分割準確率和總體MIoU。另外,為了判斷模型是否具備良好的實時性,分別記錄模型處理單幅圖像時間,并求其均值。ICNet針對羊骨架圖像中脊椎、肋部、頸部3部位語義分割的準確率、MIoU及單幅圖像平均處理時間如表2所示,部分分割結果如圖11所示。

表2 基于ICNet的羊骨架圖像分割結果Tab.2 Segmentation results of sheep skeleton image based on ICNet
根據圖11和表2可知,羊骨架圖像中羊頸部、肋部、脊椎3部位被準確分割,各部位區分明顯,同時過分割與欠分割現象并不顯著。特別是特征復雜的羊脊椎邊緣識別明顯,這可能是ICNet的低分辨率分支卷積層數更深,多層的卷積運算保證了細節抽象特征的提取。另外,圖像背景中與羊骨架肋部顏色特征相似的羊骨架目標,并未對ICNet的分割結果造成干擾,其原因可能為僅去頭、凈膛后的羊胴體均保留了羊體四肢與帶皮頸部,且未呈現脊椎,因此在尺寸、外形輪廓、區域紋理上與羊骨架特征存在明顯差異。同時,ICNet的多次上采樣特征融合也有利于提高模型的識別精度和降低過分割。最終針對組合數據集的驗證集,ICNet模型總體準確率與總體MIoU分別達到97.36%、88.10%,單幅圖像平均處理時間為87 ms,表明ICNet能夠實現羊骨架圖像的準確語義分割,同時具備一定的實時性。
2.3.4不同亮度下羊骨架圖像語義分割結果
將基于組合圖像數據集訓練得到的最優ICNet模型針對不同亮度的羊骨架圖像附加測試集展開泛化能力試驗,其中部分分割結果如圖12所示。
根據圖12分割結果可以看出,羊骨架在“亮”、“暗”2種光照強度情況下,ICNet仍然可以實現其圖像中3部位的準確分割,且脊椎-肋部、肋部-羊頸部黏連區域邊緣區分明顯,區域完整,輪廓清晰。最終,對羊骨架圖像附加測試集中羊頸部、肋部、脊椎的分割精度與MIoU分別達到92.53%、82.86%,94.37%、84.99%,89.06%、73.95%,說明ICNet能夠以較高的精度克服因光源強度不同帶來的識別干擾,具備較強的泛化能力。
2.3.5與其他分割算法對比試驗
目前,隨著卷積神經網絡的發展,用于圖像語義分割的深度學習方法越來越多,但是,面對不同任務、不同方法的分割性能表現差異明顯。為進一步測試本文羊骨架圖像實時語義分割方法的優劣性,引入目前圖像語義分割任務中常用的U-Net、DeepLabV3、PSPNet和Fast-SCNN 4種圖像語義分割模型與ICNet進行對比試驗。上述4種模型的訓練參數與ICNet相同,均基于自動保存最優模型的策略進行訓練,之后針對驗證集展開測試。部分分割結果如圖13所示,圖中從上至下依次為樣本1~4。
由圖13可知,U-Net、DeepLabV3、ICNet、PSPNet均可以實現4個羊骨架樣本圖像中頸部、肋部、脊椎3部位的準確分割,并且各部位邊緣平滑,細節特征明顯,能夠滿足實際生產中對切割精度的要求。但Fast-SCNN針對樣本1和樣本3的圖像處理中出現過分割與欠分割現象,主要表現為將背景與肋部錯誤地分割為頸部區域,其原因可能是Fast-SCNN網絡深度較淺,同時采用淺層學習下采樣模塊用于多分支低層特征的提取,在羊骨架圖像數據規模有限的情況下,難以提取圖像中的深層抽象特征用于網絡學習,從而不利于后期的特征定位。而U-Net、DeepLabV3、PSPNet網絡深度較深,都采用編碼—解碼結構,使得模型不僅可以提取更豐富的語義特征,還可以更好地恢復物體的邊緣信息。另外,DeepLabV3的空洞空間卷積池化金字塔結構及ICNet和PSPNet的金字塔池化模塊使得模型具備獲取更多上下文信息及多尺度特征的能力,保證了分割準確率。U-Net、DeepLabV3、PSPNet、Fast-SCNN 4種模型總體準確率、MIoU及單幅圖像平均處理時間如表3所示。
由表2與表3可知,基于U-Net的羊骨架圖像語義分割模型分割準確率與MIoU最高,達到97.68%與88.56%,較DeepLabV3、ICNet、PSPNet、Fast-SCNN僅高0.11、0.22個百分點,0.32、0.46個百分點,0.65、0.71個百分點,1.22、4.96個百分點,說明5種模型在分割精度方面相差不大,綜合圖13的可視化分割結果,Fast-SCNN存在部分欠分割與過分割現象,因此只有U-Net、DeepLabV3、ICNet、PSPNet 4種模型可以滿足羊骨架圖像分割精度的要求。在分割實時性方面,U-Net、DeepLabV3、ICNet、PSPNet單幅圖像耗時分別為322、147、87、781 ms,ICNet用時最短,較U-Net、DeepLabV3、PSPNet分別縮短72.98%、40.82%、88.86%,說明ICNet可以兼顧較高的分割準確率和良好的實時性,能夠滿足羊骨架切割生產線的實際需求。

表3 4種模型分割結果Tab.3 Segmentation results of four segmentation models
由于羊骨架頸部、肋部、脊椎3部位的特征差異,判斷模型針對各部分的分割效果同樣重要,本文獲取了U-Net、DeepLabV3、ICNet、PSPNet、Fast-SCNN分別對羊骨架頸部、肋部、脊椎部位的分割精度與MIoU,如圖14、15所示。
由圖14、15可以看出,ICNet針對羊骨架3部位的分割準確率與MIoU均優于PSPNet和Fast-SCNN,且與U-Net和DeepLabV3相差不大。最終,ICNet對羊骨架圖像中羊頸部、肋部、脊椎分割精度為93.68%、96.37%、87.74%,MIoU為85.85%、90.64%、75.77%,能夠滿足生產線對羊體各部位分割精度的要求。另外,試驗結果表明,ICNet對圖像中羊頸部的分割能力較弱,其原因可能為羊頸部和羊肋部存在黏連,且黏連區域特征與頸部區域特征非常相似,但黏連區域屬于羊肋部,這種局部連接且特征明顯相同的情況影響了模型對羊頸部區域的準確分割。
2.3.6ICNet優化對比試驗
綜合表2、3與圖14可知,ICNet分割精度比U-Net、DeepLabV3低0.32、0.21個百分點,且在脊椎部分分割效果相對較差。其原因可能是脊椎由等距相間的椎骨組成,表型復雜,特征多樣,只有較高分辨率特征圖才能盡可能保留該特征用于網絡學習,而ICNet默認其高、中、低分辨率3分支權重分別為1、0.4和0.16,在羊骨架圖像語義分割任務中,該中分辨率分支權重較低,因此,通過調大中分辨率分支權重進行ICNet優化試驗。過高的中分辨率權重可能會降低網絡對高分辨率特征的敏感度,因而以0.01間隔擴大中分辨率權重至0.46,共計6組對比試驗,試驗結果如表4所示。

表4 ICNet優化對比試驗Tab.4 Optimizing ICNet comparative test
由表4可知,當中分辨率分支權重為0.42時,針對組合數據集ICNet的分割精度與分割脊椎部分的MIoU最高,達到97.62%和79.97%。另外,原U-Net、DeepLabV3、ICNet對脊椎部分的MIoU為80.67%、79.93%、75.77%,經對比,優化后的ICNet像素精度和脊椎分割MIoU與U-Net之間的差距分別縮小81.25%、85.71%,比DeepLabV3和原ICNet提高0.05、0.04個百分點,0.26、4.2個百分點。除此之外,隨著權值的不斷增大,網絡精度顯著下降,說明在本試驗任務中,保持高、低分辨率分支權重不變情況下,設置中分辨率分支權重為0.42時,針對羊骨架組合數據集ICNet分割效果能夠達到最優。
(1)采用BigGAN網絡生成的羊骨架圖像能夠有效保留羊頸部、肋部、脊椎3部位的語義信息,與原始圖像最為接近,優于DCGAN與SinGAN,能夠滿足基于計算機視覺技術的羊骨架圖像分割數據集要求。
(2)針對組合數據集,ICNet對羊骨架脊椎、肋部、頸部3部位的分割精度、MIoU分別為93.68%、96.37%、89.77%和85.85%、90.64%、75.77%,單幅圖像處理時間達到87 ms。對于不同亮度下羊骨架圖像附加測試集, ICNet依然能夠實現羊頸部、肋部、脊椎的準確分割,說明本文方法在羊骨架圖像語義分割任務中具有較高的分割精度、良好的實時性和一定的泛化能力。
(3)與U-Net、DeepLabV3、PSPNet、Fast-SCNN相比,ICNet較前3種方法分割精度相差不大,但單幅圖像處理時間分別縮短了72.98%、40.82%、88.86%,雖然Fast-SCNN單幅圖像處理時間縮短至49 ms,但MIoU較ICNet下降了4.5個百分點,說明本文方法綜合分割能力較優。另外,在本試驗環境中,微調ICNet中分辨率分支權重為0.42,能夠將分割精度較原ICNet提高0.26個百分點。