999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種用于甲骨字符提取的雙分支融合網(wǎng)絡(luò)

2022-04-08 13:01:28劉國英陳雙浩焦清局
關(guān)鍵詞:特征模型

劉國英,陳雙浩,焦清局

(1.安陽師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,河南 安陽 455000;2.鄭州大學(xué)信息工程學(xué)院,河南 鄭州 450001)

甲骨拓片,作為甲骨文字的重要載體,由于某些歷史原因,長久掩埋在地下的廢墟中,因此,在甲骨拓片表面不可避免地存在一定的退化,例如:噪聲、裂痕等,如圖1所示.這些不同程度的退化嚴(yán)重干擾了甲骨文字的可視性及可讀性,對后續(xù)甲骨文字檢測與識(shí)別等視覺任務(wù)帶來極大的阻礙.考慮到甲骨字符是甲骨學(xué)研究的第一手資料,從甲骨拓片圖像中自動(dòng)提取甲骨字符將有助于甲骨學(xué)研究的開展,并對甲骨文活化與利用產(chǎn)生重大幫助.

圖1 甲骨拓片圖像局部特征展示Fig.1 Local feature display of oracle rubbing image

由于甲骨拓片圖像表面存在著嚴(yán)重的退化、污染問題,自動(dòng)化提取拓片圖像中的甲骨字符是一項(xiàng)極具挑戰(zhàn)性的任務(wù),其具體面對的問題有:1) 甲骨拓片表面包含大量不規(guī)則的噪聲,這些噪聲密集的分布在拓片圖像表面,不僅干擾字符特征的識(shí)別,還容易增加字符提取模型過擬合風(fēng)險(xiǎn). 2) 甲骨拓片表面存在各種樣式的裂痕干擾,這些裂痕具有不同的尺度和形狀并且在外觀上和甲骨字符十分相似,嚴(yán)重干擾甲骨字符的識(shí)別.3) 甲骨字符在拓片圖像中的位置信息、幾何先驗(yàn)等是未知的,為字符特征的判別及約束字符在空間上的完整性上,帶來了極大的阻礙.

甲骨學(xué)是一個(gè)極少數(shù)人參與的冷門學(xué)科,在圖像處理領(lǐng)域,少數(shù)的方法被用于解決和拓片圖像相關(guān)的計(jì)算機(jī)視覺問題.如:Liu等[1]基于甲骨字符的數(shù)據(jù)特征對描點(diǎn)框的大小、寬高比進(jìn)行重新設(shè)計(jì),并提出空間金字塔塊結(jié)構(gòu)以穩(wěn)定特征和緩解噪聲干擾.Meng等[2]將SSD300(single shot multibox detector 300)[3]擴(kuò)展到SSD1024,構(gòu)建了單階段的甲骨字符檢測模型.王浩彬[4]搭建了基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional networks,R-FCN)[5]的甲骨字符檢測框架,并提出一個(gè)甲骨字符識(shí)別輔助檢測算法,幫助檢測模型減少對容易誤檢的甲骨裂痕的誤判.Liu等[6]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)強(qiáng)有力的圖像特征描述能力,設(shè)計(jì)了基于CNN的甲骨字符識(shí)別算法.Li[7]通過提取甲骨字符的行特征,用于甲骨字符的識(shí)別.然而,這些方法大多數(shù)側(cè)重于預(yù)測甲骨字符在拓片圖像中的位置或?qū)蝹€(gè)甲骨字符進(jìn)行識(shí)別,幾乎不存在專門的方法用于提取拓片圖像中的甲骨字符.

近幾年來,隨著深度學(xué)習(xí)在諸多視覺領(lǐng)域的成功應(yīng)用,出現(xiàn)了一些在理論上能夠直接或間接用于提取拓片圖像中甲骨字符的方法.這些方法大致分為兩大類:基于圖像生成的方法和基于圖像分割的方法.圖像生成的方法(如Pix2Pix[8])將甲骨字符的提取視為一個(gè)圖像到圖像的轉(zhuǎn)換任務(wù),通過訓(xùn)練一個(gè)端到端的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)拓片圖像與相應(yīng)字符圖像間的映射.基于圖像分割的方法(如U-Net[9]、SegNet[10])將甲骨字符提取視為像素分類任務(wù),通過對拓片圖像進(jìn)行逐像素分類,預(yù)測出字符在拓片圖像中的所在區(qū)域.然而,在實(shí)驗(yàn)中,上述方法提取的甲骨字符的效果往往存在一定的問題.相比于基于生成的方法,基于分割的方法對背景和字符特征有較好的區(qū)分,但得到的字符圖像往往比較粗糙,存在字符筆畫粘連、模糊等問題,如圖2(b)和(c)實(shí)線框所示;而相較于基于分割的方法,基于生成的方法具有較強(qiáng)的結(jié)構(gòu)信息描述能力,生成的甲骨字符在局部筆畫細(xì)節(jié)上更為清晰,但往往會(huì)受背景噪聲和裂痕的干擾,如圖2(b)和(c)虛線框所示.

圖2 基于分割和生成方法的甲骨字符提取結(jié)果Fig.2 Character extraction results based on segmentation and generation methods

為充分利用基于分割方法的背景噪聲去除能力和基于生成方法的結(jié)構(gòu)信息描述能力,本文將兩種方法相結(jié)合,構(gòu)建了一個(gè)甲骨字符提取的雙分支融合網(wǎng)絡(luò)(dual-branch fusion network for extracting Oracle characters,EOCNet)模型.EOCNet將甲骨字符提取任務(wù)視為圖像到圖像的轉(zhuǎn)換任務(wù),以生成網(wǎng)絡(luò)為模型的基礎(chǔ)架構(gòu),將分割網(wǎng)絡(luò)嵌入編碼器網(wǎng)絡(luò)以消除拓片背景噪聲的影響,以期建立更為準(zhǔn)確的拓片圖像與對應(yīng)甲骨字符圖像間的映射關(guān)系.具體地:1) 為了緩解拓片圖像中背景噪聲和甲骨裂痕的干擾,EOCNet的生成網(wǎng)絡(luò)包含一個(gè)嵌入學(xué)習(xí)分支以實(shí)現(xiàn)特征嵌入空間中甲骨背景和甲骨字符的可判別特征的學(xué)習(xí);2) 為適應(yīng)拓片圖像中甲骨字符大小的變化并生成清晰完整的甲骨字符圖像,EOCNet將殘差模塊和多尺度特征通道連接,在生成網(wǎng)絡(luò)中構(gòu)建了一個(gè)字符生成分支;3) 為了在降低甲骨噪聲和甲骨裂痕干擾的同時(shí)保證字符在空間結(jié)構(gòu)上的完整性,生成網(wǎng)絡(luò)利用空間注意力模塊對兩個(gè)分支的結(jié)果進(jìn)行融合;4) 為保證生成的甲骨字符圖像整體完整且細(xì)節(jié)清晰,EOCNet采用與文獻(xiàn)[11-12]類似的生成結(jié)果判別方法,基于全局判別器和局部判別器來評估生成的甲骨字符圖像的一致性.

1 EOCNet的構(gòu)建

本研究構(gòu)建的EOCNet由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)構(gòu)成(圖3).

1.1 生成網(wǎng)絡(luò)

生成網(wǎng)絡(luò)包含兩個(gè)共享特征編碼的子分支:字符生成分支和嵌入學(xué)習(xí)分支(圖3).字符生成分支學(xué)習(xí)拓片圖像到對應(yīng)字符圖像之間的映射;嵌入學(xué)習(xí)分支學(xué)習(xí)拓片背景和字符的可判別特征嵌入.在訓(xùn)練過程中,兩個(gè)分支并行執(zhí)行,相互補(bǔ)充,相互適應(yīng).

1.1.1 嵌入學(xué)習(xí)分支

嵌入學(xué)習(xí)分支以原始的甲骨拓片圖像IO作為輸入,經(jīng)過前向傳播,最終產(chǎn)生一個(gè)嵌入特征圖IE和字符區(qū)域得分圖AC.在網(wǎng)絡(luò)結(jié)構(gòu)上,嵌入分支由5個(gè)卷積塊組成的編碼器和一個(gè)多尺度特征融合模塊(2個(gè)3×3卷積+并行的2個(gè)3×3卷積)構(gòu)成.訓(xùn)練過程中,編碼器首先對原始拓片圖片輸入進(jìn)行特征編碼,以獲取多個(gè)尺度的特征圖.緊接著對來自于卷積_1、卷積_3、卷積_5的特征圖依次經(jīng)過上采樣、通道連接等操作后送入多尺度特征融合模塊進(jìn)行上下文融合,最終得到的嵌入特征圖IE和字符區(qū)域得分圖AC.

1.1.2 字符生成分支

圖3 EOCNet的整體結(jié)構(gòu)Fig.3 The overall structure of the EOCNet

1.2 判別網(wǎng)絡(luò)

判別網(wǎng)絡(luò)采用兩個(gè)子判別網(wǎng)絡(luò),分別從全局和局部角度對生成的字符圖像進(jìn)行質(zhì)量評估,其中,全局判別網(wǎng)絡(luò)注重字符圖像總體狀況,檢查其是否引入了額外的噪聲、裂痕等干擾.局部判別網(wǎng)絡(luò)注重字符圖像的局部細(xì)節(jié),檢查是否存在筆畫殘缺.特別地,為了便于局部判別網(wǎng)絡(luò)注重生成圖像的局部筆畫細(xì)節(jié),生成的字符圖像輸入網(wǎng)絡(luò)之前,需要進(jìn)行區(qū)域裁剪操作.默認(rèn)情況下,本文算法將生成的字符圖像裁剪為若干個(gè)等大小的局部塊,并計(jì)算其與對應(yīng)真實(shí)標(biāo)記的差異,選擇一些誤差大的局部塊作為輸入,以便于網(wǎng)絡(luò)感知更多困難的局部樣例.其次,全局判別網(wǎng)絡(luò)和局部判別網(wǎng)絡(luò)具有相似的網(wǎng)絡(luò)設(shè)計(jì),均采用PatchGAN(patch generative adversarial network)[13]網(wǎng)絡(luò)結(jié)構(gòu),通過預(yù)測N×N大小的置信矩陣用于評估更加細(xì)致的局部細(xì)節(jié).不同的是,全局判別網(wǎng)絡(luò)更深,卷積核視野更大,而局部判別網(wǎng)絡(luò)相對更淺,卷積視野更小,全局和局部判別器具體的結(jié)構(gòu)和參數(shù)設(shè)置如表1所示.

表1 全局和局部判別網(wǎng)絡(luò)Tab.1 The global and local networks

2 可判別嵌入特征學(xué)習(xí)

為緩解拓片圖像中噪聲、裂痕的干擾,嵌入學(xué)習(xí)分支將甲骨背景和甲骨字符視為不同的類別實(shí)例,鼓勵(lì)相同類別的嵌入特征朝著特定的特征中心靠攏,以學(xué)習(xí)它們的可判別嵌入特征.

近來,少數(shù)其他領(lǐng)域(目標(biāo)分類、目標(biāo)檢測)的方法采用聚類的思想在嵌入空間學(xué)習(xí)可判別嵌入特征,并取得一定的效果.例如DeepCluster[14]對分類網(wǎng)絡(luò)的預(yù)測進(jìn)行聚類,并利用聚類結(jié)果更新深度卷積網(wǎng)絡(luò)參數(shù),用于無監(jiān)督視覺特征學(xué)習(xí).Tian等[15]將任意形狀的場景文本視為不同的實(shí)例,并鼓勵(lì)屬于相同實(shí)例的像素特征朝著相同的特征中心靠近,反之遠(yuǎn)離.然而,這些方法往往針對特定的應(yīng)用場景,僅僅考慮嵌入特征是否可分,忽視了目標(biāo)實(shí)例的視覺特征屬性,因此不能直接應(yīng)用到字符提取任務(wù).

本文通過提高背景特征和字符特征的“類內(nèi)一致性”以實(shí)現(xiàn)可判別特征學(xué)習(xí)并兼顧實(shí)例特征的視覺屬性.首先,利用分割網(wǎng)絡(luò)對拓片圖像進(jìn)行逐像素分類,分別學(xué)習(xí)甲骨背景和甲骨字符對應(yīng)的視覺特征.然后,自適應(yīng)學(xué)習(xí)它們對應(yīng)的特征中心,并鼓勵(lì)屬于同一類的視覺特征在嵌入空間朝著相應(yīng)的特征中心靠近.本文中采用CenterLoss[16]的中心特征學(xué)習(xí)策略,通過模型迭代優(yōu)化的方式自動(dòng)學(xué)習(xí)對應(yīng)的視覺特征的中心.具體的語義分割損失Lentropy和中心損失Lcenter表達(dá)如下:

(1)

(2)

3 拓片圖像與字符圖像間的映射學(xué)習(xí)

本文將甲骨字符提取視為一種圖像到圖像的轉(zhuǎn)換任務(wù).和大多數(shù)圖像到圖像轉(zhuǎn)換模型一樣,字符生成分支,通過訓(xùn)練一個(gè)編碼和解碼網(wǎng)絡(luò)來學(xué)習(xí)拓片圖像與對應(yīng)字符圖像之間的映射.在學(xué)習(xí)過程中,甲骨字符在拓片圖像中的位置信息是未知的,在生成網(wǎng)絡(luò)的末尾,字符生成分支使用嵌入學(xué)習(xí)分支中的字符區(qū)域預(yù)測,用以突出融合特征圖中的字符區(qū)域.最后,為了約束生成的甲骨字符在空間結(jié)構(gòu)上的完整性,使用對抗生成網(wǎng)絡(luò)(generative adversarial network,GAN)[17]作為結(jié)構(gòu)模型,用以融入字符的空間結(jié)構(gòu)先驗(yàn).與一些圖像修補(bǔ)方法一樣,使用全局和局部判別器評估生成的字符圖像全局和局部特征的一致性.在訓(xùn)練過程中,本文使用LSGAN(least squares GAN)[18](相比于CGAN(conditional GAN)[19], LSGAN在訓(xùn)練過程中更加穩(wěn)定,收斂速度更快).設(shè)生成網(wǎng)絡(luò)為G,全局和局部判別網(wǎng)絡(luò)分別為DG和DL,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的對抗損失函數(shù)為:

Lglobal(G,DG)=EIC~Pdata(IC)[(DG(IC)-1)2]+

EIO~Pdata(IO)[(DG(G(IO)))2],

(3)

Llocal(G,DL)=EIC~Pdata(IC)[(DL(T(IC))-1)2]+

EIO~Pdata(IO)[(DL(T(G(IO))))2],

(4)

Ladv(G,DG,DL,IO,IC)=Lglobal+Llocal,

(5)

其中,E表示數(shù)學(xué)期望,Pdata表示訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)分布,IO表示原始的拓片圖像輸入,T表示裁剪和連接操作.

此外,為了約束生生成的字符圖像在像素值上更接近真實(shí)值,在生成網(wǎng)絡(luò)的末尾使用了L1損失,其具體的表達(dá)如下:

(6)

訓(xùn)練過程中,本字符提取模型同時(shí)接受多個(gè)損失函數(shù)的共同約束,具體表達(dá)如下:

Ltotal=λadvLadv+λenLentropy+λcenLcenter+λ1L1,

(7)

其中:λadv、λen、λcen、λ1分別表示Ladv、Lentropy、Lcenter、L1的權(quán)重系數(shù),在實(shí)驗(yàn)中分別為3,1,0.003,3;Ladv和L1作用于重建的字符圖像,約束其與真實(shí)圖像的數(shù)據(jù)分布和像素特征保持一致;Lcenter作用于嵌入特征圖IE促使生成網(wǎng)絡(luò)學(xué)習(xí)甲骨背景和字符的可判別特征;Lentropy作用于AC約束學(xué)習(xí)粗糙的文字區(qū)域,用于指導(dǎo)空間注意模塊有向性融合.

4 實(shí)驗(yàn)結(jié)果及分析

4.1 甲骨拓片圖像數(shù)據(jù)集

目前為止,在甲骨學(xué)研究領(lǐng)域幾乎不存在公開可達(dá)的像素水平的甲骨文數(shù)據(jù)集,因此本研究使用的像素級甲骨文數(shù)據(jù)集來自于本課題組的手工構(gòu)建.數(shù)據(jù)集中的甲骨拓片來源于安陽師范學(xué)院甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室公開的甲骨文檢測數(shù)據(jù)集,該數(shù)據(jù)集主要由甲骨拓片和對應(yīng)的字符水平位置標(biāo)記組成,但不包含像素級標(biāo)記信息.本研究中,人工從甲骨文檢測數(shù)據(jù)集中挑選了一定量具有代表性且退化嚴(yán)重的拓片圖像進(jìn)行訓(xùn)練和驗(yàn)證.

具體來說,本研究采用的甲骨拓片圖像數(shù)據(jù)集包含了405對訓(xùn)練樣例(甲骨拓片圖像和對應(yīng)的甲骨字符圖像)、35對驗(yàn)證樣例和300張測試樣例.

為了確保模型能夠?qū)W習(xí)準(zhǔn)確的特征表示,根據(jù)上述的拓片圖像訓(xùn)練樣例,對樣本進(jìn)行簡單擴(kuò)充.擴(kuò)充主要涉及以下操作:

1) 線性變換:縮放、裁剪、平移、操作;

2) 仿射變換:隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、變形操作;

3) 顏色變換:模糊、對比度提升、高斯濾波等操作;

4) 拓片圖像與字符圖像重新組合.首先,利用工具軟件從拓片圖像中裁剪甲骨字符,構(gòu)成甲骨字符字典; 然后,選取若干張背景復(fù)雜的拓片圖像并移除其中的甲骨字符,得到候選甲骨背景;最后根據(jù)字符字典和甲骨背景進(jìn)行重新組合,具體過程如圖4所示.

最終,得到了(405 + 2 825)對訓(xùn)練樣例、(35+165)對驗(yàn)證樣例、(300+200)測試樣例的一個(gè)混合甲骨拓片數(shù)據(jù)集.

4.2 模型評估指標(biāo)

本文從兩個(gè)角度對提出的字符提取模型的性能進(jìn)行評估:圖像生成角度和圖像分割角度.

1) 從圖像生成角度,使用峰值信噪比(PSNR,RPSN)和結(jié)構(gòu)相似性(SSIM,SSIM)指標(biāo)來測量預(yù)測值和真實(shí)值之間的差距.PSNR和SSIM是一種常見的評估圖像生成質(zhì)量的客觀標(biāo)準(zhǔn).PSNR和SSIM的值越高,表明生成的字符圖像質(zhì)量越高,越接近真實(shí)值.PSNR的計(jì)算如下:

(8)

G(i,j)‖2,

(9)

其中,EMS為生成圖像與對應(yīng)真實(shí)圖像的均方誤差,CMAX表示圖像RGB顏色的最大值.SSIM的計(jì)算式如下:

(10)

2) 從圖像分割的角度,由于大多數(shù)甲骨字符的像素值(歸一化后)趨向于1(字符邊緣或者一些特殊字符除外),可近似地將生成的字符圖像視為一種特殊的圖像分割(二分類).和圖像分割模型的評估相似,使用平均交并比(mIoU,RmIoU)和單個(gè)字符類別的交并比(IoU(char),RIoU)分別測量生成的字符圖像與真實(shí)值之間的相關(guān)程度以及局部字符與對應(yīng)真實(shí)值的相關(guān)程度.其中,RmIoU或RIoU的值越高,說明像素被正確分類的比例就越高,生成的字符圖像接近真實(shí)值的概率就越大.此外,由于生成的甲骨字符圖像的非字符區(qū)域像素值接近于0,但不為0,對于字符圖像的RIoU計(jì)算可能存在一定的誤差.為了獲得更加準(zhǔn)確的RIoU值,在RIoU計(jì)算之前,需要對生成的字符圖像進(jìn)行閾值選擇處理.具體的閾值根據(jù)經(jīng)驗(yàn)設(shè)定,本實(shí)驗(yàn)中,該閾值設(shè)置為0.2,RIoU的計(jì)算式如下:

RIoU=NTP/(NTP+NFP+NFN),

(11)

其中,NTP、NFP、NFN表示分類結(jié)果為真正、假正、假負(fù)的像素個(gè)數(shù).

此外,為驗(yàn)證模型抑制裂痕干擾的能力,本文實(shí)驗(yàn)對生成的字符圖像上的裂痕數(shù)量進(jìn)行了統(tǒng)計(jì).對于生成的字符圖像,假設(shè)其僅僅由背景噪聲、甲骨字符和裂痕構(gòu)成,其中的背景噪聲相對稀少,可通過簡單的形態(tài)學(xué)開運(yùn)算進(jìn)行濾除,而裂痕干擾則可以使用對應(yīng)的字符真實(shí)值選取,最后求解裂痕干擾中的連通分量并統(tǒng)計(jì)其個(gè)數(shù).具體包括以下5個(gè)步驟:

(12)

2) 使用形態(tài)學(xué)開運(yùn)算對粗糙的裂痕背景進(jìn)行膨脹和腐蝕操作,去除其中的背景噪聲,得到純凈的裂痕.

3) 計(jì)算純凈裂痕中的連通分量,并去除關(guān)于背景的連通分量.

4) 遍歷每個(gè)連通分量,并移除小于30個(gè)像素大小的連通區(qū)域.

5) 對現(xiàn)有的連通分量進(jìn)行統(tǒng)計(jì),得到每一張字符圖像上的裂痕總數(shù).

4.3 與其他主流模型的比較

4.3.1 與其他主流圖像生成模型的比較

本小節(jié)將EOCNet與主流的圖像到圖像的轉(zhuǎn)換模型(Pix2Pix[8],CycleGAN[20],BicycleGAN[21])進(jìn)行比較.為公平起見,直接使用了這些模型的官方代碼和默認(rèn)的超參數(shù)設(shè)置.相應(yīng)的定量評估、定性評估以及裂痕統(tǒng)計(jì)結(jié)果如圖5、表2和3所示.

如圖5所示,主流的圖像到圖像的轉(zhuǎn)換模型一定程度上也可以提取拓片圖像中的字符信息,并能保留清晰的局部細(xì)節(jié).然而,對于一些尺度較小、不太顯著的字符有可能被忽略(如圖5第1行所示).其次,在生成的字符圖像上引入大量和字符特征比較相似的噪聲或裂痕干擾(如圖5第2和4行所示).相反,由EOCNet生成的字符圖像幾乎將拓片上的字符信息完全保留,并沒有引入過多的噪聲和裂痕干擾(如圖5(e)所示).因此主觀上看,EOCNet能夠生成更高質(zhì)量的甲骨字符圖像.

圖5 甲骨拓片圖像和主流的圖像生成模型的字符提取結(jié)果Fig.5 Oracle bone rubbing image and character extraction results of state-of-art image generation models

表2 生成圖像裂痕個(gè)數(shù)統(tǒng)計(jì)Tab.2 Statistical results of crack number in generate image

本實(shí)驗(yàn)中,隨機(jī)從190條驗(yàn)證集記錄中抽取50條作為統(tǒng)計(jì)樣本,統(tǒng)計(jì)不同模型得到的生成圖像中存在的裂痕數(shù)量,統(tǒng)計(jì)的結(jié)果如表2所示.其中類型a表示不同的生成模型輸出的字符圖像中裂痕連通分量的個(gè)數(shù),整體上這3個(gè)模型的輸出中都引入了較多的裂痕,其中Pix2Pix模型引入的最少,但也高達(dá)272個(gè).類型c表示EOCNet的統(tǒng)計(jì)結(jié)果,僅僅包含18個(gè),遠(yuǎn)低于其他3個(gè)模型,這表明,相比于主流的圖像到圖像的轉(zhuǎn)換模型,EOCNet對裂痕干擾的抑制是有效的.

表3展示了不同的生成模型輸出的字符圖像在PSNR和SSIM指標(biāo)上的測量結(jié)果.很顯然,EOCNet在這兩個(gè)指標(biāo)上均是最佳的,并大幅超越次優(yōu)結(jié)果Pix2Pix(PSNR和SSIM指標(biāo)分別提高了5.27 dB 和5.93個(gè)百分點(diǎn)).這表明,相比于主流的圖像到圖像轉(zhuǎn)換模型,EOCNet生成的字符圖像中包含更少的噪聲,且捕獲了更多的字符局部細(xì)節(jié).

表3 和主流生成模型的量化比較結(jié)果Tab.3 The quantitative results comparison to the state-of-art generation models

圖6 甲骨拓片圖像和主流的圖像分割模型的字符提取結(jié)果Fig.6 Oracle bone rubbing image and character extraction results of state-of-art image segmentation models

綜上所述,無論是在裂痕引入量上,還是PSNR和SSIM指標(biāo)上,EOCNet均取得較優(yōu)的效果,因此上述的主觀結(jié)論是正確的,相比于主流的圖像到圖像轉(zhuǎn)換模型,EOCNet能夠生成更加清晰、更加完整的字符圖像.

4.3.2 與主流圖像分割模型的比較

大多數(shù)甲骨字符特征的像素值(歸一化后)趨向于1,可近似地將生成的字符圖像視為一種特殊的圖像分割(二分類).因此,本小節(jié)將EOCNet與主流的圖像分割模型(全卷積網(wǎng)絡(luò)16(fully convolution network 16,FCN16)[22]、ERFNet(efficient residual factorized ConvNet)[23]、U-Net[9]、SegNet[10])進(jìn)行比較.考慮到拓片圖像中字符像素和背景像素在比例上存在嚴(yán)重的失衡,不利于分類問題訓(xùn)練得到最優(yōu)參數(shù),在模型訓(xùn)練期間,默認(rèn)為每個(gè)分割模型使用相同的類別平衡策略,以獲得更佳的字符分割效果.類別平衡策略的具體表示如下:

(13)

其中,W(c)代表不同類別實(shí)例的權(quán)重系數(shù),Nc和N分別代表類別c的像素個(gè)數(shù)和拓片圖像中總的像素個(gè)數(shù).

圖6展示了EOCNet和分割模型的字符提取效果.從視覺上看,分割模型幾乎將所有的字符區(qū)域都預(yù)測出來,并且引入了較少的噪聲或裂痕干擾.然而,通過分割的方式得到的字符圖像,在字符的局部細(xì)節(jié)上往往比較模糊、粗糙,甚至存在部分筆畫粘連的問題(如圖6(b)~(d)列所示).其次,由于分割的方法僅僅預(yù)測出字符在拓片圖像上的區(qū)域信息,并沒有對字符特征進(jìn)行重建,一些字符筆畫存在與真實(shí)字符風(fēng)格不一致的問題(如圖6第二行所示).相反,EOCNet對拓片圖像進(jìn)行重建,生成的字符圖像在結(jié)構(gòu)上更為清晰、風(fēng)格更為統(tǒng)一(如圖6(e)所示).

表2(b)展示了不同分割模型輸出的字符圖像中裂痕連通分量的個(gè)數(shù),其中SegNet、U-Net引入了相對較少的裂痕,遠(yuǎn)低于表2類型a中的圖像生成模型.但相對于EOCNet模型,仍有一定的差距,這也表明,即使相較于主流的分割模型,本文的模型仍然具有抑制裂痕干擾的優(yōu)勢.

表4展示了不同分割模型與EOCNet mIoU、IoU(char)的比較.結(jié)果顯示,EOCNet在mIoU和IoU(char)指標(biāo)上次于最優(yōu)的SegNet,但僅僅存在0.53和0.22個(gè)百分點(diǎn)的差距.這表明EOCNet在交并比指標(biāo)上與主流的分割模型差距甚微.鑒于生成模型在計(jì)算IoU(char)過程中使用閾值字符區(qū)域掩膜時(shí)會(huì)存在一定誤差,可以認(rèn)為:EOCNet在具備主流的分割性能的同時(shí),能夠生成更加清晰、真實(shí)的甲骨字符.

表4 和主流的分割模型的量化比較結(jié)果Tab.4 The quantitative results comparison to the state-of-art segmentation models

4.4 消融實(shí)驗(yàn)

4.4.1 可判別損失函數(shù)

EOCNet聯(lián)合交叉熵?fù)p失Lentropy和中心損失Lcenter共同約束嵌入學(xué)習(xí)分支的甲骨背景和甲骨字符的可判別嵌入特征學(xué)習(xí).為驗(yàn)證該聯(lián)合損失的有效性,將其與單獨(dú)的使用交叉熵?fù)p失Lentropy、區(qū)別損失(DiscLoss[24],LDisc,基本思想類似于聚類:在嵌入空間強(qiáng)迫同簇的特征朝向相同的中心靠攏,反之相反)進(jìn)行對比.在實(shí)驗(yàn)設(shè)置上,除了損失函數(shù)的不同之外,整個(gè)甲骨字符生成模型的結(jié)構(gòu)及超參數(shù)設(shè)置均是相同的.表5展示了在不同損失函數(shù)下的評估結(jié)果.

從表5中可以看出,區(qū)別損失LDisc在各項(xiàng)指標(biāo)上都是最差的.其原因可能是在鼓勵(lì)同簇特征向中心靠攏過程中,丟失了某些視覺屬性(例如:極端情況下,嵌入特征朝零向量方向靠近).相比于區(qū)別損失,交叉熵?fù)p失Lentropy的表現(xiàn)更優(yōu)(指標(biāo)mIoU、IoU和SSIM分別提升了0.63,1.18和0.43個(gè)百分點(diǎn),PSNR增加0.51 dB).最關(guān)鍵的是,在聯(lián)合損失(Lentropy+Lcenter)的監(jiān)督下,甲骨字符提取模型的表現(xiàn)最佳,在各項(xiàng)指標(biāo)均為最優(yōu).這表明聯(lián)合交叉熵?fù)p失和中心損失能夠更有利于字符可判別嵌入特征的學(xué)習(xí)和甲骨字符圖像的生成.

表5 不同可判別損失的比較結(jié)果Tab.5 The comparison results of different discriminative losses

4.4.2 嵌入學(xué)習(xí)分支

為緩解拓片圖像中噪聲、裂痕對字符提取的影響,EOCNet引入了額外的嵌入學(xué)習(xí)分支.為了驗(yàn)證嵌入學(xué)習(xí)分支的有效性,將嵌入學(xué)習(xí)分支從字符提取模型中移除.對比模型CGL和模型ECGL的各項(xiàng)指標(biāo)(表6)可以發(fā)現(xiàn):移除嵌入學(xué)習(xí)分支后,mIoU、IoU(char)、PSNR和SSIM出現(xiàn)明顯下降,這充分表明嵌入學(xué)習(xí)分支的存在對甲骨字符提取模型的提取效果有顯著的提升.

表6 字符生成模型不同模塊組合的評估結(jié)果Tab.6 Evaluation results of different module combinations in character generation model

4.4.3 空間注意模塊

給出一張甲骨拓片圖像,甲骨字符提取模型的目標(biāo)是生成對應(yīng)的甲骨字符圖像.該過程中,甲骨字符在拓片圖像中的位置信息是未知的.為此,在生成網(wǎng)絡(luò)的末尾,引入了空間注意力模塊.該模塊利用來自于嵌入學(xué)習(xí)分支中的字符區(qū)域信息,指導(dǎo)字符生成分支注重特征圖的字符區(qū)域.為了證明使用空間注意力模塊的有效性,本實(shí)驗(yàn)對甲骨字符提取模型中的空間注意力模塊進(jìn)行移除得到模型ECGL,移除后的評估結(jié)果如表6所示.通過對比較可以看出,移除字符空間注意力模塊后,字符提取模型的性能出現(xiàn)小幅下降.相比于使用空間注意力模塊,模型ECGL在mIoU、IoU和SSIM指標(biāo)上,分別降低了0.37,0.68和0.73個(gè)百分點(diǎn),PSNR降低0.72 dB.這在一定程度上表明,在生成網(wǎng)絡(luò)的末尾使用空間注意力模塊對字符提取模型的性能是有益的.

4.4.4 局部判別器

甲骨字符形狀多樣、結(jié)構(gòu)復(fù)雜且隨機(jī)的分布在拓片上的任意位置.為約束生成的字符在空間結(jié)構(gòu)上的完整性,使用額外的局部判別器評估字符特征的局部一致性.為驗(yàn)證局部判別器空間約束的有效性,在訓(xùn)練期間,將局部判別器移除,得到模型ECGA.對比模型ECGA和模型ECGLA的結(jié)果可以看出,移除局部判別器后,字符提取模型的性能出現(xiàn)一定的下降.相比于使用局部判別器,移除后模型在mIoU、IoU和SSIM指標(biāo)上分別降低了0.44,0.82和0.17個(gè)百分點(diǎn),PSNR降低0.31 dB.這意味著,使用局部判別器約束字符的局部細(xì)節(jié)的完整性是有效的.

5 結(jié) 論

一直以來,拓片圖像中復(fù)雜的噪聲和各種各樣的裂痕干擾,是解決甲骨文相關(guān)視覺任務(wù)的重要阻礙.本文的研究結(jié)果表明:在嵌入空間學(xué)習(xí)拓片圖像的可判別特征,是一種更為簡單且有效的方式.該方式不僅可以有效避免直接對拓片圖像中復(fù)雜的噪聲、裂痕等干擾進(jìn)行處理,而且更有利于端到端方法的實(shí)現(xiàn).

本文基于深度學(xué)習(xí)技術(shù),構(gòu)建了一個(gè)專門的甲骨字符提取模型EOCNet,能夠自動(dòng)提取拓片圖像中的字符信息,并生成甲骨字符圖像.這對后續(xù)加速甲骨文的研究及推廣具有重大意義.像其他深度學(xué)習(xí)方法一樣,訓(xùn)練字符提取網(wǎng)絡(luò)需要依賴大量的監(jiān)督訓(xùn)練數(shù)據(jù).由于甲骨拓片數(shù)據(jù)自身的特殊性,獲取大量的拓片圖像以及相應(yīng)的監(jiān)督數(shù)據(jù)十分困難.因此,下一步,本課題組將針對小樣本條件下的甲骨字符的提取以及識(shí)別等相關(guān)任務(wù)進(jìn)行深入的探究.

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲区视频在线观看| 久久性视频| 免费在线成人网| 欧美一级专区免费大片| 亚洲高清在线播放| 99激情网| 国产欧美日韩另类| 超碰精品无码一区二区| AV片亚洲国产男人的天堂| 亚洲欧美成人在线视频| 孕妇高潮太爽了在线观看免费| 99re66精品视频在线观看| 在线免费无码视频| 97无码免费人妻超级碰碰碰| 一级毛片在线播放免费观看| 国产丝袜无码精品| 亚洲女人在线| 欧美成人综合视频| 亚洲日韩高清在线亚洲专区| 欧洲亚洲一区| 国产亚洲欧美另类一区二区| 精品伊人久久大香线蕉网站| 91最新精品视频发布页| 91视频免费观看网站| 大香网伊人久久综合网2020| 欧美啪啪视频免码| 亚洲一区二区三区国产精品| 午夜限制老子影院888| 亚洲第一色视频| 欧美激情成人网| 日韩精品亚洲人旧成在线| 狠狠色狠狠色综合久久第一次| 制服丝袜一区二区三区在线| 国产无人区一区二区三区| 国内精自线i品一区202| AV片亚洲国产男人的天堂| 国产浮力第一页永久地址| 亚洲无码日韩一区| 国产精品内射视频| 好吊色妇女免费视频免费| 亚洲三级a| 91久久偷偷做嫩草影院| 亚洲伊人电影| 国产在线八区| 日韩精品无码免费专网站| 中文字幕人妻av一区二区| 欧美日韩国产精品va| 欧美在线一二区| 天天色综网| 亚洲无码一区在线观看| 亚洲第一黄色网址| 成人国产一区二区三区| 97视频在线精品国自产拍| 国产在线小视频| 人妻一区二区三区无码精品一区| 免费啪啪网址| 97在线视频免费观看| 亚洲综合极品香蕉久久网| 国产免费观看av大片的网站| 在线观看欧美国产| 夜夜拍夜夜爽| 亚洲AV人人澡人人双人| 国产精品免费入口视频| 国产一级二级三级毛片| 日韩第一页在线| 91小视频在线| 亚洲欧洲日韩综合| 亚洲精品国产精品乱码不卞| 精品国产网站| 四虎在线高清无码| 国产精品极品美女自在线| 91久久天天躁狠狠躁夜夜| 国产精品无码AV中文| 中文字幕人妻av一区二区| 精品国产免费观看一区| 成人av专区精品无码国产| 国产日韩精品欧美一区喷| 久草性视频| 99爱在线| 国产乱子伦视频在线播放| 国产麻豆精品久久一二三| 99久久99视频|