










收稿日期:2022-02-11;修回日期:2022-04-12
基金項目:國家自然科學基金資助項目(61901158);河南省科技廳資助項目(202102210121,212102210500);開封市重大科技專項資助項目(20ZD014,2001016)
作者簡介:韓宗桓(1996-),男,河南新鄉人,碩士,主要研究方向為語義分割;劉名果(1984-),男(通信作者),河南鄭州人,副教授,碩導,博士,主要研究方向為深度學習與演化計算(liumingguo@henu.edu.cn);李珅(1982-),男,河南開封人,助理工程師,本科,主要研究方向為語義分割;陳立家(1979-),男,河南開封人,副教授,碩導,博士,主要研究方向為智能計算;田敏(1996-),女,山東濰坊人,碩士,主要研究方向為深度學習;蘭天翔(1994-),男,河南開封人,碩士,主要研究方向為語義分割;梁倩(1996-),女,河南洛陽人,碩士,主要研究方向為目標檢測.
摘 要:工業應用中,表面壓印字符圖像全監督語義分割將會給企業帶來高昂的數據集標注成本,針對該問題,提出了雙支路特征融合的域適應分割方法(dual-branch feature fusion domain adaptation,DbFFDA)。借鑒U-Net的跨層連接設計思路,提出了雙分支上采樣結構的殘差域適應分割網絡(residual adaptation network,Res-Adp);同時提出了融合特征輸入用于提升網絡分割性能,克服了字符缺失的問題;此外,提出了分割連續性損失函數LCon,抑制了分割圖像中噪點的產生。在石墨電極表面壓印字符無監督分割實驗中,所提方法MIoU值可達69.60%,實際分割效果已基本滿足字符識別需求,有望在特定工業場景中投入實際應用,為企業節省數據集標注成本。
關鍵詞:表面壓印字符; 域適應; 語義分割; 無監督訓練
中圖分類號:TP391.41"" 文獻標志碼:A
文章編號:1001-3695(2022)09-047-2861-06
doi:10.19734/j.issn.1001-3695.2022.02.0062
Double branch upsampling domain adaptive network for unsupervised segmentation
Han Zonghuan1, Liu Mingguo1, Li Shen2, Chen Lijia1, Tian Min1, Lan Tianxiang1, Liang Qian1
(1.School of Physics amp; Electronics, Henan University, Kaifeng Henan 475004, China; 2.Kaifeng Pingmei New Carbon Materials Technology Co. Ltd., Kaifeng Henan 475002, China)
Abstract:In industrial applications, fully supervised semantic segmentation of surface-imprinted character images will bring high dataset annotation costs to enterprises. To solve this problem, this paper proposed a dual-branch feature fusion domain adaptation (DbFFDA) method. Firstly, this method drew on the design idea of U-Net’s cross-layer connection, and proposed a residual adaptation network (Res-Adp) with a dual-branch upsampling structure. At the same time, this method proposed the fusion feature input to improve network segmentation performance and overcome the problem of missing characters. Furthermore, this method proposed a segmentation continuity loss function LCon, which suppressed the generation of noise in segmented images. In the unsupervised segmentation experiment of imprinted characters on the surface of graphite electrodes, the MIoU value of the proposed method can reach 69.60%. The actual segmentation effect has basically met the needs of character recognition, and it is expected to be put into practical applications in specific industrial scenarios, saving enterprises dataset labeling costs.
Key words:surface-imprint characters; domain adaptation; semantic segmentation; unsupervised training
0 引言
圖像語義分割是計算機視覺領域重要的研究方向,在自動駕駛、字符識別等領域具有廣泛的應用前景,其任務目標是將圖像中各像素點歸納解析為具有特定語義信息的類別。在工業應用中,因受光線、打印機質量影響,表面壓印字符圖像的分割難度較大,傳統算法很難對其進行精確的分割。自深度學習技術問世以來,眾多研究者在圖像語義分割領域進行了一系列探索,分割效果及精度不斷提升。2014年Long等人[1]提出的fully convolutional network(FCN)完全由卷積層構成,不包含全連接結構,為語義分割網絡的設計提供了新思路;2015年提出的U-Net[2]設計了一個編碼與解碼部分完全對稱的U型網絡結構,并引入了跨層連接融合網絡各層級間的信息,在醫學影像分割領域取得了巨大成功;2018年,Chen等人[3~6]提出了DeepLab系列網絡,其最重要的貢獻是提出了空洞空間池化金字塔(atrous spatial pooling pyramid,ASPP)模塊。卷積神經網絡(convolutional neural network,CNN)的出現極大地提升了復雜場景圖像語義分割的效果,具有傳統語義分割方法無可比擬的優點。
然而,上述各網絡均采用全監督的方式進行訓練,即需要手工標注的標簽作為訓練數據,帶來了巨大的手工標注成本。隨著域自適應無監督語義分割網絡的研究逐漸興起,這一問題有望得到解決。域適應任務的重點是優化對齊兩域數據的特征分布,提取兩域數據的共有特征對目標域數據進行預測。研究人員提出了各種域適應方法,其中大多數域適應方法均使用生成對抗網絡(generative adversarial network,GAN)[7]對抗學習進行域適應訓練。將分割網絡作為生成器,源域和目標域圖像送入分割網絡(生成器)得到的分割預測交替送入判別器中,分割網絡與判別器對抗訓練以對齊兩域特征的分布,實現域適應分割。Ganin等人[8]提出的domain-adversarial neural network(DANN)由特征提取模塊、分類模塊和域判別模塊組成。該網絡同時構造了圖像分類損失和域分類損失兩個損失函數,在訓練過程中既提升了網絡性能又對齊了兩域數據的分布,提升了對目標域圖像的分類能力。因使用單域判別器的對抗性域適應方法無法利用復雜的多模結構,Pei等人[9]提出的multi-adversarial domain adaptation(MADA)構造了多個判別器進行域適應訓練,多個域判別器可從各個維度對齊兩域數據的分布,提升域適應效果。Luo等人[10]提出的category-level adversarial network(CLAN)構造了類別級別的對抗網絡,旨在整體對齊一致性中強化局部語義一致性。Wang等人[11]提出的patch-based output space adversarial learning(pOSAL)設計了一個輕量且高效的分割網絡,并提出一種新的形態感知分割損失來指導網絡生成準確和平滑的分割預測;還提出了邊界和熵驅動的對抗學習(boundary and entropy-driven adversarial learning,BEAL) [12]域適應框架以改進模糊邊界區域上的分割性能,BEAL通過鼓勵目標域的邊界預測與源域相似以生成更準確的邊界。Zhu等人[13]提出的循環式生成對抗網絡(cycle-consistent generative adversarial network,CycleGAN)將兩個GAN級聯在一起,并引入了循環一致性損失函數,構造了一個源域圖像與目標域圖像的雙向風格遷移網絡,因此可生成接近目標域數據分布的模擬樣本協助訓練。Chen等人[14]對CycleGAN結構進行改進,在目標域到源域的生成器上添加了分割分支,從圖像和特征等兩個角度對齊源域圖像和目標域圖像的分布,在醫學MRI和CT圖像之間的域適應分割上取得了巨大成功。張勛暉等人[15]提出的域適應分割方法在分割網絡中引入了空洞空間池化金字塔(ASPP)提取各尺度的圖像特征以提升分割性能,并將分割預測的信息熵作用于對抗損失以減小域偏移。Liu等人[16]提出的source-free domain adaptation(SFDA)網絡提供了一個在源域數據集無法公開的應用場景中進行域適應訓練的方法,通過從源域模型中恢復和篩選源域數據,僅使用訓練完成的源域模型和目標域數據集即可實現域適應。Araslanov等人[17]提出的輕量化域適應分割方法針對現有網絡模型較為復雜、資源消耗大的缺點,擯棄了對抗訓練和風格遷移等常用的域適應方法,采用加噪、翻轉和縮放等數據增強技術確保跨域的圖像語義分割的一致性。Wang等人[18]提出的correlation-aware domain adaptation(CorDA)使用兩域通用的自監督深度估計的指導來彌合領域差距,該方法在目標深度估計的幫助下顯式學習任務特征相關性以改善預測效果。Saha等人[19]提出了一種編碼視覺任務關系的方法用于提升無監督域適應網絡的性能,提出的跨任務關系層(cross-task relation layer,CTRL)編碼了語義和深度預測之間的任務依賴關系。劉少鵬等人[20]提出了一種兩階段分割網絡CDR-GANs,各分割階段都包含語義分割網絡、生成器和判別器三部分,訓練過程中判別器指導語義分割網絡和生成器學習原圖和分割預測的聯合概率分布。Li等人[21]針對現有域適應算法使用共享的源域網絡學習跨域的特征表示限制了對未標記的目標域對象的泛化能力的問題,提出了一種可轉移語義增強(transferable semantic augmentation,TSA)方法,通過隱式生成關于目標域對象的源域特征來增強網絡的適應能力。
本文所提雙支路特征融合的域適應分割方法DbFFDA在網絡結構、圖像預處理和損失函數等方面對U-Net進行改進,在石墨電極壓印字符數據集上取得了較為理想的分割效果,基本滿足工業應用需求。DbFFDA創新之處包含以下三個方面:
a)提出一種雙分支上采樣結構的無監督語義分割網絡Res-Adp。在U-Net的跨層連接中加入了殘差模塊以搭建殘差支路用于兩域特征對齊;網絡上采樣過程中的各級特征分別通過殘差支路與卷積支路進行上采樣,殘差支路負責特征對齊,以使用域不變特征對圖像進行分割,卷積支路負責保留本域特征,以使用本域獨有的圖像特征對分割細節進行補充。
b)融合特征輸入。針對表面壓印字符圖像噪點多、字符邊緣極為重要的特點,將表面壓印字符灰度圖像、中值濾波圖像和邊緣檢測圖像作為網絡輸入的三個通道,融合送入網絡進行訓練。
c)構造分割連續性損失函數LCon約束分割網絡的訓練。根據分割圖像中各類對象內部連續的先驗知識提出了分割連續性損失函數LCon,通過約束源域分割圖像的生成間接提升目標域分割效果,抑制了字符中的空洞與背景中噪點的產生。
1 雙支路特征融合的域適應分割方法DbFFDA
1.1 域適應分割框架
域適應分割框架如圖1所示,分割網絡為本文所提雙分支上采樣網絡Res-Adp,為兩域數據所共享。IS為源域(模擬)數據,其標簽極易獲取,監督信息豐富,具有完備的標簽集LS;IT為目標域(真實)數據,無監督信息。
源域數據為計算機生成的模擬圖像,標簽無須手工標注,目標域數據為攝像機采集到的真實圖像,訓練數據無標注信息。
1)源域數據的全監督訓練
a)源域(模擬)圖像IS輸入分割網絡后得到源域預測PS,PS可與其標簽LS構造交叉熵損失函數,以全監督的方式訓練分割網絡Res-Adp。交叉熵損失函數公式為
LCE=-1N∑Ni=1[y(i)log(p(i))+(1-y(i))log(1-p(i))](1)
其中:p(i)為源域預測中的像素點;y(i)為源域標簽中的像素點。
b)目標域(真實)圖像IT輸入分割網絡后得到目標域預測PT,因目標域圖像IT無標簽,所以不可構造交叉熵損失函數進行分割訓練。
2)分割網絡(生成器)與判別器的對抗訓練
為了使得使用源域圖像訓練的分割網絡對目標域圖像也能進行精準的分割,需要對齊兩域數據的分布進行域適應訓練。將源域預測PS與目標域預測PT分別送入判別器,與分割網絡(生成器)進行對抗訓練。對抗性損失函數LGan如下:
LGan=ExS~Pdata(xS)[log D(S(xS))]+
ExT~Pdata(xT)[log(1-D(S(xT)))](2)
其中:xS及xT分別為源域與目標域圖像;S為分割網絡;D為判別器。
網絡整體損失函數L由三部分構成:
L=LGan+LCE+LCon(3)
其中:LGan為對抗性損失函數;LCE為交叉熵損失函數;LCon為本文所提分割連續性損失函數。
判別器的優化目標是鑒別出輸入的分割預測是源域預測PS還是目標域預測PT,分割網絡(生成器)的優化目標是使得判別器難以甄別分割預測的來源。訓練時,判別器訓練方向是對源域預測輸出全1矩陣,對目標域預測輸出全0矩陣,確定分割預測的類別。判別器對目標域預測的判別結果與同形的全0矩陣構造L2范數,對源域預測的判別結果與同形的全1矩陣構造L2范數,判別器優化減小兩損失函數之和。
分割網絡優化目標是使得目標域預測送入判別器后輸出全1矩陣,輸出接近源域預測的分割結果。判別器對目標域預測的判別結果與同形的全1矩陣構造L2范數,源域輸入圖像與其標簽構造非對抗性損失函數,分割網絡優化減小兩損失函數之和。非對抗性損失函數LCE和LCon負責訓練分割網絡的分割性能,對抗性損失函數LGan負責訓練分割網絡的域適應能力,在兩者的共同約束下,分割網絡在提升對源域(模擬)圖像分割性能的同時又對齊了兩域數據的分布,進而提升了對目標域(真實)圖像的分割性能,達到了對目標域(真實)圖像無監督分割的目標。
1.2 雙分支上采樣分割網絡Res-Adp
2015年提出的U-Net設計了一個編碼與解碼部分完全對稱的U形網絡結構,并引入了跨層連接融合網絡各層級間的信息,在醫學影像分割領域取得了巨大成功。U-Net結構如圖2所示,其最大的創新點是網絡對稱位置的跨層連接結構。由于上下采樣會不可避免地引起特征丟失,而該網絡可以同時利用各個層級的特征進行分割,提升網絡性能。殘差網絡(ResNet)[22]于2015年提出,解決了網絡深度過深時性能不再提升的問題。網絡某層特征圖通過兩層卷積層提取特征后與該層特征圖直接相加并激活即得殘差塊輸出。胡揚濤等人[23]提出的AR-UNet將殘差模塊引入U-Net中,避免了U-Net中的梯度消失以及圖像結構信息丟失等問題。U-Net對于全監督分割任務可以達到較好的分割效果。對于域適應分割任務,源域圖像進行全監督訓練,分割網絡與判別器共同進行對抗訓練。U-Net由于結構過于簡單,特征之間直接拼接,無法很好地對齊兩域特征。
Res-Adp網絡在U-Net編碼階段與解碼階段的跨層連接中引入了殘差塊對齊兩域特征。為了避免因對齊兩域特征而丟失本域特征的問題,設計了雙分支結構改善該問題。網絡上采樣過程中的各級特征分別通過殘差支路與卷積支路進行上采樣,殘差支路負責特征對齊,以使用域不變特征對圖像進行分割;卷積支路負責保留本域特征,以使用本域獨有的圖像特征對分割細節進行補充。
Res-Adp結構如圖3所示,在連接線上列出了操作的簡稱。特別地,圖中連接線上的C表示先執行連接線對應操作再與其他特征圖進行拼接,Ri-C表示先通過i個殘差塊再與其他特征圖進行拼接,US-C表示先上采樣再與其他特征圖進行拼接。特征圖旁的數字,逗號左邊的數值表示該特征圖邊長與網絡輸入圖像邊長的比值,逗號右邊的數值表示該層特征圖的通道數,如1/2,128表示該特征圖邊長為網絡輸入圖像的1/2,包含128個通道。
輸入圖像使用兩層卷積擴充通道數后進行4次下采樣到達網絡最深層級,按照下采樣過程中特征圖的尺度將網絡劃分為1~5層,分別記為Fi-A,1層為輸入圖像所在層,5層為網絡最深層。
下采樣到網絡最深層的特征圖F5-A卷積兩次后記為F5-B。從F5-A和F5-B分別引出一條支路,支路1經一個殘差塊對齊特征后上采樣到第4層級;與此同時,下采樣到第4層的特征圖F4-A通過兩個殘差塊后與支路1拼接,得到融合特征F4-F。支路2經兩層卷積后上采樣到第4層級,與F4-F通過兩個殘差塊后的特征圖拼接得到F4-B。此后特征圖逐步上采樣,對于上采樣過程中的各層級特征圖,均從Fi-B引出兩條支路。第一支路為殘差支路,用于對齊兩域特征;第二支路為上采樣支路,用于保留本域獨有特征。從F4-B引出兩條支路。支路1經兩個殘差塊對齊特征后上采樣到第3層級;與此同時,下采樣到第3層的特征圖F3-A通過三個殘差塊后與支路1拼接,得到融合特征F3-F。支路2經過兩層卷積后上采樣到第3層級,與F3-F通過3個殘差塊后的特征圖拼接得到F3-B。
同理,重復上述操作,依次得到F2-B、F1-B。隨著上采樣過程中網絡深度逐步變淺,對齊兩域特征所需殘差塊數量逐步增加,從第5層的一個殘差塊依次增加到第1層的五個殘差塊。第1層中,F1-B通過兩層卷積調整通道數量后映射為概率分布圖再求最大值索引即得網絡分割預測。
1.3 馬爾可夫判別器
DbFFDA的判別器為馬爾可夫判別器[24]。如圖4所示,分割預測輸入判別器進行四次下采樣后再進行一次卷積操作,即可輸出通道數為1的特征圖。判別器的優化方向是鑒別出輸入判別器的分割預測屬于源域預測還是目標域預測,分割網絡的優化方向是生成判別器無法分辨的分割預測。兩者相互博弈,不斷提升自身性能,以達到對齊兩域數據分布的目的。
1.4 融合特征輸入
在復雜多變的自然光線條件下,受打印機打印質量及圖像采集設備性能限制,表面壓印字符圖像具有明暗不均、噪點較多的特點。直接將原圖像送入網絡訓練會給分割圖像帶來大量二值噪點,嚴重影響分割圖像的純凈度。
將攝像機采集到的表面壓印字符彩色圖像轉換為灰度圖像作為網絡輸入數據的第1通道。選用中值濾波的方法去除原圖中的噪點,前景信息也最大程度地得到了保留,將中值濾波圖像作為網絡輸入數據的第2通道。表面壓印字符圖像中字符的邊緣是前景的關鍵信息,對字符的分割具有重要意義。使用索貝爾(Sobel)算子對中值濾波圖像進行邊緣提取,所得圖像作為網絡輸入數據的第3通道。
1.5 分割連續性損失函數LCon
因表面壓印字符圖像噪點較多,部分字符扭曲變形,故僅使用交叉熵函數作為非對抗性損失函數對分割網絡進行訓練,目標域分割圖像上出現了字符空洞與二值噪點。為解決該問題,受傳統計算機圖像處理算法啟發,提出分割連續性損失函數LCon。二值標簽圖中單個字符內部是連續的,背景亦連續,無二值噪點相互穿插,即前景與背景相對獨立。因此N通道標簽中各通道上值為1的點與值為0的點均應當是連續的,即某類與其他類相互獨立且內部連續。如圖6所示,除邊界點外,某點與其鄰域的點的值應當相同。
因網絡分割圖像由N通道特征圖映射為概率分布圖再求最大值索引得到,所以網絡輸出的N通道特征圖也應當具有與標簽相同的性質,即各點的激活值連續。N通道特征圖某通道上的某點A(i,j,k)應具有與其鄰域相近的激活值,因此可構造分割連續性損失函數LCon為
LCon=1N∑ck=1∑m-1j=1∑n-1i=1|A(i,j,k)-A(i-1,j,k)|+|A(i,j,k)-A(i+1,j,k)|+
|A(i,j,k)-A(i,j-1,k)|+|A(i,j,k)-A(i,j+1,k)|(4)
其中:A(i,j,k)代表第k通道上位于(i,j)處的點;A(i-1,j,k)、A(i+1,j,k)、A(i,j-1,k)、A(i,j+1,k)分別為該點的左、右、上、下鄰域。該函數的引入有效抑制了字符中空洞的產生。
2 實驗驗證及分析
2.1 實驗數據
域適應分割有效解決了語義分割數據集手工標注成本高昂的問題,具有廣闊的應用前景。在工業應用中,眾多應用場景需要使用語義分割算法對采集得到的圖像進行分割以進行后續處理。
在石墨電極生產這一工業場景中,為方便對生產過程中的石墨電極進行統計和管理,需要對石墨電極表面壓印字符進行識別。語義分割是識別前的重要步驟,而語義分割數據集像素級的標注將會給企業帶來巨大的生產成本。本文使用計算機生成源域數據、攝像機采集目標域數據,采用域適應分割方法有效地解決了這一問題,為企業節省了標注成本。
實驗數據集包含源域數據和目標域數據兩部分。源域(模擬)數據由計算機字庫字符截圖構成,無須手工標注,具有計算機生成的完備的標簽集,圖像中字符的字體、大小和空間位置均是隨機的。目標域數據由手機攝像頭采集某碳材料生產企業的石墨電極表面壓印字符圖像構成,如圖7所示。實驗數據集示例圖像如圖8所示。源域數據(計算機字庫字符)包含600張圖像,目標域數據(石墨電極表面壓印字符)包含550張圖像,其中440張圖像為訓練數據,110張圖像為測試數據。數據集所有圖像的尺寸均為512×128。
2.2 評價指標
使用像素精度(pixel accuracy,PA)、平均像素精度(mean pixel accuracy,MPA)、精準率(precision)、召回率(recall)和平均交并比(mean intersection over union,MIoU)五種評價指標對網絡性能進行評估。PA為分類正確的像素點數與總像素點數之比;MPA為各類目標分類正確的像素點數與該類總像素點數之比的均值;precision為預測為正例的像素點中實際為正例的比例;recall為正確預測的正例比例;交并比IoU為預測圖像與標簽圖像中某一類物體交集所含像素點數與并集所含像素點數之比,平均交并比MIoU是指各類交并比的均值。五種評價指標公式如下:
PA=TP+TNTP+FN+TN+FP(5)
MPA=meanTP+TNTP+FN+TN+FP(6)
precision=TPTP+FP(7)
recall=TPTP+FN(8)
MIoU=meanA∩BA∪B(9)
其中:真正例TP為實際為正、預測為正的像素點;真負例TN為實際為負、預測為負的像素點;假正例FP為實際為負、預測為正的像素點;假負例FN為實際為正、預測為負的像素點。
2.3 實驗參數設置
實驗依托TensorFlow 1.15平臺構建神經網絡,Python版本為3.6.5。實驗平臺配置如下:CPU為Intel E7-4830 v4,內存容量為48 GB,GPU為Tesla K40C。
訓練策略如下:在每一輪次訓練中,從源域600張計算機字庫字符圖像中隨機抽取440張圖像及對應標簽與目標域訓練集440張石墨電極表面壓印字符圖像構成當前輪次訓練數據。訓練過程中對于每一批次的源域數據,使用隨機放縮及加噪的方法增加樣本多樣性,提升分割效果。生成器學習率設為1E-5,判別器學習率設為4E-6,使用Adam優化器進行優化。每迭代一輪保存一次網絡模型,共迭代100輪。使用保存的網絡模型對測試集進行測試,記錄各輪模型測試結果。
2.4 實驗結果與分析
2.4.1 對比實驗結果與分析
實驗分為CLAN[10]、pOSAL[11]、BEAL[12]、DbFFDA四組,對比了DbFFDA與現有算法的性能表現。
MIoU是語義分割領域使用最廣泛的性能評價指標,選用MIoU作為主評價指標,找出各實驗組的MIoU最大值對應訓練輪次,將該輪評價指標數據作為實驗結果。分割效果對比如圖9所示,分割細節對比如圖10所示。DbFFDA與現有算法定量評價對比如表1所示。
根據圖9、10和表1數據可以看出:a)CLAN組分割所得圖像中字符缺失嚴重,且存在大量塊狀噪點,無法進行后續識別,MIoU僅為56.22%;b)pOSAL組分割所得圖像中字符較為完整,但仍存在大量塊狀噪點,MIoU可達66.83%;c)BEAL組塊狀噪點較pOSAL組具有一定程度的減少,但字符仍存在一定程度的缺失,MIoU可達68.46%;d)DbFFDA組分割所得圖像中字符基本無缺失,邊緣光滑無毛刺,塊狀噪點最少。MIoU可達69.60%,基本滿足工業應用中表面壓印字符后續識別需求。
2.4.2 消融實驗結果與分析
消融實驗分為U-Net(全監督)[2]、U-Net(無監督)[2]、Res-Adp(創新點1)、Res-Adp+融合特征輸入(創新點1+2)、Res-Adp+融合特征輸入+LCon(DbFFDA,創新點1+2+3)五組。對比了DbFFDA與全監督U-Net網絡的性能差距,并實驗證實了提出的各創新點的效果。找出各實驗組的MIoU最大值對應訓練輪次,將該輪評價指標數據作為實驗結果。分割效果對比如圖11所示,分割細節對比如圖12所示。消融實驗定量評價對比如表2所示。
根據圖11、12及表2數據可以看出:a)無監督U-Net組分割所得圖像存在字符缺失、噪點較多等問題,Res-Adp組(創新點1)由于采用了雙分支上采樣結構,在對齊兩域特征的同時又較為完整地保留了本域特征,極大程度地改善了這一問題,分割得到的字符連續無缺失,MIoU較U-Net(無監督)組提升了1.52%;b)Res-Adp+融合特征輸入組(創新點1+2)由于輸入網絡的數據中增加了中值濾波圖像與Sobel算子邊緣檢測圖像,抑制了原圖中的噪點,增強了字符的邊緣信息,分割所得字符邊緣較為光滑,抑制了毛刺現象的產生,且噪點較Res-Adp組(創新點1)也有一定程度的減少,使得MIoU較Res-Adp組提升了0.43%;c)Res-Adp+融合特征輸入+LCon組(DbFFDA,創新點1+2+3)分割所得圖像中字符連續無缺失,邊緣光滑無毛刺,且背景中噪點最少,由于分割連續性損失函數LCon的引入,進一步抑制了背景中的噪點與字符中空洞的產生,分割效果最佳,MIoU可達69.60%。
DbFFDA與全監督U-Net網絡在客觀評價指標方面仍存在一定差距,但實際分割效果已能基本滿足字符識別需要,有望投入實際的工業應用中。
3 結束語
針對工業應用中表面壓印字符圖像對應標簽獲取困難、手工標注成本高昂的問題,本文提出一種雙支路特征融合的域適應分割方法DbFFDA。首先,借鑒U-Net的跨層連接設計思路提出一種雙分支上采樣分割網絡Res-Adp,同時,將灰度圖像、中值濾波圖像與邊緣檢測圖像融合作為網絡輸入數據,抑制了原圖中的噪點,增強了字符的邊緣信息;此外,因標簽中各類對象內部連續,分割網絡輸出特征圖應當具有相同的性質,本文據此提出分割連續性損失函數LCon,該函數通過約束源域分割圖像的生成間接提升目標域圖像的分割效果,進一步抑制了字符中空洞與背景噪點的產生。DbFFDA分割所得圖像中字符完整、邊緣光滑、噪點較少,MIoU可達69.60%,基本滿足工業應用中表面壓印字符后續識別需求。
針對部分圖像因光照不均引起的分割預測中噪點過多的問題,將在后續工作中嘗試對判別器結構進行改進,使其更好地約束生成器的優化,抑制分割預測中噪點的產生,提升分割效果。
參考文獻:
[1]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC:IEEE Computer Society,2015:3431-3440.
[2]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.
[3]Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL].(2016-06-07).https://arxiv.org/pdf/1412.7062.pdf.
[4]Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic ima-ge segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[5]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL].(2017-12-05).https://arxiv.org/pdf/1706.05587.pdf.
[6]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:833-851.
[7]Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144.
[8]Ganin Y, Lempitsky V S. Unsupervised domain adaptation by backpropagation[C]//Proc of the 32nd International Conference on Machine Learning.2015:1180-1189.
[9]Pei Zhongyi, Cao Zhangjie, Long Mingsheng, et al. Multi-adversarial domain adaptation[C]//Proc of the 32nd Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:3934-3941.
[10]Luo Yawei, Zheng Liang, Guan Tao, et al. Taking a closer look at domain shift:category-level adversaries for semantics consistent domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2507-2516.
[11]Wang Shujun, Yu Lequan, Yang Xin, et al. Patch-based output space adversarial learning for joint optic disc and cup segmentation[J].IEEE Trans on Medical Imaging,2019,38(11):2485-2495.
[12]Wang Shujun, Yu Lequan, Li Kang, et al. Boundary and entropy-driven adversarial learning for fundus image segmentation[C]//Proc of the 22nd International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2019:102-110.
[13]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2242-2251.
[14]Chen Cheng, Dou Qi, Chen Hao, et al. Unsupervised bidirectional cross-modality adaptation via deeply synergistic image and feature alignment for medical image segmentation[J].IEEE Trans on Medical Imaging,2020,39(7):2494-2505.
[15]張勛暉,周勇,趙佳琦,等.基于熵增強的無監督域適應遙感圖像語義分割[J].計算機應用研究,2021,38(9):2852-2856.(Zhang Xunhui, Zhou Yong, Zhao Jiaqi, et al. Entropy enhanced unsupervised domain adaptive remote sensing image semantic segmentation[J].Application Research of Computers,2021,38(9):2852-2856.)
[16]Liu Yuang, Zhang Wei, Wang Jun. Source-free domain adaptation for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:1215-1224.
[17]Araslanov N, Roth S. Self-supervised augmentation consistency for adapting semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:15384-15394.
[18]Wang Qin, Dai Dengxin, Hoyer L, et al. Domain adaptive semantic segmentation with self-supervised depth estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:8515-8525.
[19]Saha S, Obukhov A, Paudel D P, et al. Learning to relate depth and semantics for unsupervised domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscata-way,NJ:IEEE Press,2021:8197-8207.
[20]劉少鵬,洪佳明,梁杰鵬,等.面向醫學圖像分割的半監督條件生成對抗網絡[J].軟件學報,2020,31(8):2588-2602.(Liu Shao-peng, Hong Jiaming, Liang Jiepeng, et al. Medical image segmentation using semi-supervised conditional generative adversarial nets[J].Journal of Software,2020,31(8):2588-2602.)
[21]Li Shuang, Xie Mixue, Gong Kaixiong, et al. Transferable semantic augmentation for domain adaptation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11516-11525.
[22]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[23]胡揚濤,裴洋,林川,等.空洞殘差U型網絡用于視網膜血管分割[J].計算機工程與應用,2021,57(7):185-191.(Hu Yangtao, Pei Yang, Lin Chuan, et al. Atrous residual U-Net for retinal vessel segmentation[J].Computer Engineering and Applications,2021,57(7):185-191.)
[24]Isola P, Zhu Junyan, Zhou Tinghui, et al. Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:1125-1134.