肖長詩 姜 陽 文元橋
(武漢理工大學航運學院1) 武漢 430063) (內河航運技術湖北省重點實驗室2) 武漢 430063)
在霧天、過曝等水上航行場景下通過可見光視覺采集到的圖像質量不佳,且受到陽光、波浪和陸地倒影的影響,通過傳統的圖像信息采集方法受干擾因素影響嚴重,無法實現無人艇的精準視覺感知.現階段,我國能實際使用的無人艇大多無法在惡劣航行場景下正常工作,需要提升無人艇對惡劣航行場景的語義理解能力.
目前,CNN[1]在語義分割任務上的效果最好.Wang等[2]提出了基于偏振信息與RGB圖像的多模態語義分割方法.Zhang等[3]提出基于深度學習的多模態道路場景語義分割網絡.Blanchon等[4]提出一種利用偏振技術進行戶外場景語義分割的方法.Xiang等[5]提出了EAFNet網絡用于道路場景的語義分割.Yang等[6]提出ERF-PSPNet網絡用于偏振差成像.Hu等[7]基于深度學習的水下偏振圖像恢復方法,實驗結果表明,偏振信息的引用有利于提升圖像質量.Kalra等[8]提出基于偏振技術的透明目標分割方法.Kristan等[9]提出基于視覺圖像的障礙物檢測模型.Yan等[10]提出了NLFNet網絡,該網絡適用于自動駕駛領域.Zhang等[11]提出了PFNet網絡.雖然現有的研究成果已獲得了較好的分割效果,但都集中于道路等結構較為簡單場景的分割,對于水上航行場景語義分割方法的研究較少.
文中基于偏振相機陣列的水上航行場景圖像語義分割方法,利用自主設計的偏振相機陣列圖像采集設備,采集具有偏振信息的水上航行場景圖像,構建基于偏振度圖像與深度學習的圖像語義分割模型,該模型能夠在惡劣航行場景下(霧天、過曝、弱交界線、耀斑等場景下)展現較好的分割效果.
文中設計實現偏振相機陣列圖像采集設備,該設備包含5個CSI相機組成的陣列(偏振方向為0°、45°、90°、135°及未前置偏振片),單個圖像采集設備由單個CSI相機及偏振片組成,偏振片通過自主設計的蓋板置于CSI相機前,將5個CSI相機通過自主設計的相機支架固定,與Jetson TX2相連.
利用偏振相機陣列同時獲取未前置偏振片以及偏振方向分別為0°、45°、90°、135°的水上航行場景圖像,采集的場景地包含武漢市長江航行水域及武漢東湖.由于偏振相機陣列圖像采集設備相機之間存在位置差,為了獲取更加準確的偏振度信息,需要進行圖像配準工作,按照圖1的流程獲取可供偏振語義網絡使用的未前置偏振片圖像及偏振度圖像.
圖1 偏振相機陣列算法流程圖
以未前置偏振片的水上航行場景圖像為參考圖像fmatch,以偏振方向為0°、45°、90°、135°的圖像為待配準圖像,則有:
fmatch(x,y)=H(f(K(x,y)))
(1)
(2)
式中:M為單應性矩陣.
依據式(1)、式(2)對待配準圖像進行變換,則對于待配準圖像中任意一點(x,y),有:
(3)
(4)
式中:x′為偏振方向為0°水上航行場景圖像進行圖像變換后的橫坐標;y′為經圖像變換后的縱坐標,最終得到圖像變換后的坐標點為(x′,y′).
我院重癥醫學科鮑曼不動桿菌耐藥性及分子流行病學研究…………………………………………………… 湯雪梅等(18):2520
重復上述操作,得到經圖像配準后的偏振方向為0°、45°、90°、135°的偏振圖像.由斯托克斯參量法[12]完成偏振度的計算,則有:
(5)
式中:I為光強;Q和U分別為偏振分量;V為圓偏振分量;I0°、I45°、I90°和I135°分別為光在0°、45°、90°、135°方向上的偏振光;Iright、Ileft分別為右旋圓偏振光強和左旋圓偏振光強.
由于在水上航行場景中,V分量成分很小,可忽略不計,則有:
(6)
(7)
依據圖1,按照式(6)合成偏振度圖像,然后將偏振度圖像與無偏振圖進行同步裁剪,可得裁剪后的無偏振圖及偏振度圖像.
通過自主設計的偏振相機陣列圖像采集設備采集水上航行場景圖像數據,拍攝有不同時間和區域的圖像,包括晴天、霧天、場景過曝、耀斑、弱交界線等多個場景,視覺場景豐富.數據采集完畢后,對其進行圖像配準及裁剪工作,得到同步裁剪后的無偏振圖像及偏振度圖像,對裁剪后的無偏振圖像進行標簽的制作,標簽制作結束后再進行最終的訓練.
文中采用Labelme對301組偏振圖像數據進行標注.偏振數據集中的像素點包含天空區域(sky)、水面區域(water)及非水非天區域(background).使用putpalatte函數對標簽圖像進行批量可視化,得到最終的標簽文件,像素值為0~255,不同區域對應的RGB值見表1.
表1 標簽對應RGB值
對301組標簽數據,按照訓練集、測試集9∶1的比例進行劃分,用于訓練的圖像為271組,用于測試的圖像為30組.圖2為自制數據集中的部分標注圖像.
圖2 自制數據集中部分標注圖像
由于定義的是單顯卡訓練,采集制作的偏振圖像尺寸偏大,為了保證偏振語義網絡的訓練效果,需要對圖像進行縮放操作,將數據集中的圖像尺寸統一處理成512×512.尺寸處理好后就需要將偏振數據集做數值歸一化操作,便于偏振語義網絡從輸入偏振圖像數據中學習偏振信息.
(8)
式中:channeli為每幅水上航行場景中通道i(R通道、G通道、B通道及DOP通道)的值.偏振相機陣列所采集的圖像各通道數值上限為255.
在每一個批次訓練前對偏振數據集做隨機亂序操作,使得偏振數據更加貼近無人艇自然航行場景下的樣本分布.
文中的偏振圖像數據集雖然已經達到了網絡訓練的規模,但整體規模不足,需對偏振數據集進行擴充,采用圖像旋轉、圖像翻轉等數據增強方法,生成新的數據樣本以擴充原有的偏振圖像數據,從規模上豐富偏振數據集,提升網絡的性能.
基于編解碼結構[13]構建了偏振語義分割網絡,將無偏振圖與DOP圖像共4通道的圖像(RGB+DOP)送入網絡,進行resize操作,得到分辨率為512×512的圖像,方便網絡更好地進行偏振特征的學習.對輸入的水上航行場景圖像下采樣4次,共下采樣16倍,相應的也會進行4次雙線性插值上采樣,將編碼器得到的高級偏振語義特征恢復到下采樣時的尺寸.模型結構中還包含跳躍連接,將不同尺度的特征進行融合,最終輸出語義分割結果,由于最終要實現天空區域、水面區域以及非水非天區域的場景分割,是一個三分類問題,故最終輸出類別數為3.偏振語義分割網絡子結構見圖3.
圖3 編解碼子結構圖
其具有跳躍連接結構,將不同尺寸的特征進行融合,可以避免梯度消失問題;采用編解碼結構,提高了編碼后的特征圖分辨率,保證輸入輸出分辨率的一致性,使無人艇的視覺感知結果更加符合人眼;采用3×3卷積,每一次卷積后都會用Batch Norm2d函數進行數據的歸一化,使得偏振數據在進行ReLU前不會因為數據過大而導致性能的不穩定.結果見表2.
表2 偏振語義分割網絡結構表
水上航行場景偏振語義分割網絡通過偏振數據集在GPU上使用PyTorch深度學習框架進行訓練,輸入為無偏振圖像與偏振度圖像,合成4通道數據,即512×512×4,具體參數設置見表3.
表3 偏振語義分割網絡參數
使用交叉熵損失函數和Dice損失函數的加和作為損失函數,則有:
(9)
(10)
Total_Loss=BCE+DiceLoss
(11)
在模型訓練期間,mIoU變化曲線見圖4a),PA值變化曲線見圖4b).
圖4 偏振語義網絡曲線圖
由圖4可知:隨著迭代次數的增加,偏振語義網絡的mIoU值及PA值迅速上升.mIoU值在40個Epoch左右完成收斂,后趨于平穩.偏振語義網絡PA值在40個Epoch左右完成收斂,后趨于平穩.網絡整體收斂性較快,具備較強的水上航行場景分割能力.
利用上述訓練好的網絡,進行惡劣航行場景圖像的分割效果測試,測試的結果為本文網絡的預測值,分割結果見圖5.
圖5 惡劣航行場景分割效果圖
由圖5可知:在霧天場景下,無偏振圖中人眼已經無法分清場景中的天空區域與水面區域,但是在偏振度圖像中,對岸建筑物與天空區域、水面區域呈現不同的偏振度數值,不同區域之間的分界線被凸顯,而在文中的網絡中,對天空區域、水面區域以及非水非天區域進行了一個較為精準的分割.在濃霧場景下,無偏振圖中可視距離非常短,無法辨認出場景中的天空區域與水面區域的界限,偏振度圖像中水天邊界線被凸顯,文中的網絡在此可視距離短的惡劣場景下也得到了較為精準的分割.在場景過曝的情況下,無偏振圖中由于曝光的影響,天空區域和水面區域分界線不明顯,天空區域與水面區域顏色趨于一致,偏振度圖像中分界線被凸顯,文中方法獲得了較為精準的分割效果,天空區域與水面區域分割界限明顯.在耀斑場景下,無偏振圖中水面上太陽光反射折射會影響圖像語義分割的結果,偏振度圖像中天空區域與非水非天區域分界明顯,文中方法直觀可見分割效果不受水面反光的影響,精準地分割出水面區域,得到了很好的分割效果.在水面多小目標的情況,文中方法也得到了很好的分割效果.在弱交界線的場景下,無偏振圖中天空區域和水面區域分界線不明顯,偏振度圖中不同區域的邊界信息被凸顯,文中方法通過融合了偏振度信息,將天空區域和水面區域進行了精準的分割.
采用自制的偏振數據集,數據集中包含無偏振場景圖與偏振度圖.無偏振對比實驗中僅使用了自制數據集中無偏振場景圖,沒有使用偏振度數據.同樣的,將301組水上航行場景偏振數據中的10%作為測試集(30組),另外90%作為訓練集(271組).
采用mIoU、PA和FWIoU對有偏振與無偏振數據進行性能對比,每個Epoch都會做一次測試,取100個Epoch里測試輸出的最高值.最優性能表見表4.
表4 無偏振與有偏振最優性能對比
實驗對比了使用偏振信息與未使用偏振信息的最優性能對比,有偏振最優性能比無偏振最優性能有一定提升.具體來看,主要評價指標mIou分數由0.887提高至0.892,PA分數由0.936提升至0.942,FWIoU分數由0.905提升至0.908.結果表明:使用偏振信息后的模型在提高分割效果方面數據更理想,偏振作為輔助信息,對水上航行場景的分割效果具有促進作用,能夠提升無人艇對惡劣航行場景的語義感知能力.
圖6為偏振語義分割網絡在訓練過程中的損失函數變化圖.
圖6 無偏振與有偏振測試損失函數變化圖
由圖6可知,隨著迭代次數的增加,網絡的測試損失和訓練損失值迅速下降至收斂.訓練損失整體比較平穩,而測試損失的波動性比較大,收斂速度也較快,文中網絡達到了很好的收斂性.結果說明偏振信息能夠作為輔助信息,提升網絡分割的性能.
將文中所提方法與K-Means、U-Net進行對比,從測試圖像中選擇了三對圖像(霧天、弱交界線、霧天小目標)進行測試,分割效果見圖7.
圖7 實驗結果對比圖
由圖7可知:文中方法在霧天、弱交界線、霧天小目標等惡劣航行場景下,均具有較好的分割效果.在霧天場景下,無偏振圖中由于霧天的干擾,水面區域與天空區域分界線不可見,K-Means算法分割效果較差,U-Net在天空區域與水面區域分界線的分割中,分割結果不理想,文中方法清晰地將對岸物體分割出,天空區域和水面區域的分界線被凸顯.在過曝場景下,文中方法分割效果非常好,天空區域和水面區域的分界線明顯,場景中的小目標也被清晰地分割出.在霧天小目標場景下,無偏振圖中由于霧天的影響,水天界限直觀不可見,場景中有許多小目標影響網絡的最終分割效果,K-Means算法分割效果不太理想,U-Net方法在霧天和小目標兩種限定因素下,水天界限分割不理想,且對于水面小目標的分割效果也不佳,文中方法很好地抑制了霧天對分割效果的影響,分割出了場景中的天空區域與水面區域,小目標分割較細致,不同區域分割精確.
采用綜合像素精度PAall來評價惡劣航行場景下不同方法的分割效果.
(12)
式中:最終的像素精度由R、G、B三個通道的像素精度共同決定,其結果見圖8.
圖8 場景應用效果對比(PAall)
由圖8可知:文中方法PAall對比K-Means算法及U-Net提升明顯,一定程度上表明文中方法的分割準確率比其余兩種方法的分割準確率高.
文中針對無人艇惡劣航行場景圖像語義感知研究中存在的問題,提出了一種基于偏振成像的水上航行場景圖像語義分割方法.利用自主設計的偏振相機陣列圖像采集設備采集了不同偏振方向的水上航行場景圖像;將不同偏振方向的圖像與未前置偏振片的圖像進行圖像配準,合成偏振度圖像,將偏振度圖像與未前置偏振片圖像進行同步裁剪,得到裁剪后的偏振度圖像與未前置偏振片的原圖像;制作了偏振數據集,基于偏振度圖像構建了偏振語義分割網絡,進行惡劣航行場景圖像的語義分割,并將實驗結果進行對比分析.結果表明,在惡劣航行場景下,分割效果良好.
目前制作采集的偏振數據集不夠大,還在持續地進行水上航行場景的采集工作,在未來數據量達到一定的規模后,精度將得以進一步提升,其分割效果也會更好.