圖像語義分割技術(shù)在英文手寫字體切分上的應(yīng)用*

2021-01-19 11:00:30魏元喜王海波

計算機與數(shù)字工程 2020年12期

魏元喜陳霞王海波

（1.北京郵電大學人文學院北京 100876）（2.山東山大鷗瑪軟件股份有限公司濟南 250101）

1 引言

研究非受限情況下的手寫字體的切分具有重要現(xiàn)實意義。字符切分和字符識別密不可分，準確而高效的字符切分能極大地幫助字符的準確識別，字符切分是字符識別的重要實踐基礎(chǔ)。

字符切分有著廣闊的應(yīng)用前景，特別是隨著互聯(lián)網(wǎng)和多媒體技術(shù)的快速發(fā)展，很多行業(yè)都迫切需要能夠從大量的圖像或視頻資料中找到所需的文字信息。其中，在教育領(lǐng)域的智能判卷是其重要應(yīng)用方向之一。本文研究將圖像語義分割技術(shù)應(yīng)用在英文試卷手寫單詞切分上，將答卷圖像分割為單個單詞圖像，便于識別算法進行字符識別及圖文轉(zhuǎn)寫。

手寫字的切分與識別是一個非常復(fù)雜的過程。傳統(tǒng)的字符切分主要是基于像素或區(qū)域的連通性特點進行處理。例如：投影算法［1］、滴水算法［2］、連通區(qū)域算法等，這類算法具有高效、快速等特點，在打印字體切分上有著廣泛的應(yīng)用。

對于字符切分，近幾年還有一類方法是基于字符的文本的圖像特性，對圖像進行形態(tài)學預(yù)處理，從而基于某種機制來尋找字符切分點。文獻［3］提出了一種新的核心區(qū)域的概念，用于對這些困難的傾斜手寫單詞進行切分。文獻［4］提出了一種利用語言的基本結(jié)構(gòu)特征對手寫文本進行獨立字符切分方法。文獻［5］提出一種基于距離的切分（DBS）方法對句子、單詞和字符分別進行切分。文獻［6］提出了一種基于迭代的手寫字符垂直投影和滴水切分方法。文獻［7］提出了一種將遞歸的字符的切分算法，這種算法使用一種確定圖像遞歸筆跡相交切點來劃分單詞。上述這類方法處理速度快，效率高。但是與傳統(tǒng)的字符切分方法沒有本質(zhì)區(qū)別，難以解決復(fù)雜模式下的適應(yīng)性問題。

隨著機器學習算法的快速發(fā)展，研究者開始將目光轉(zhuǎn)向于應(yīng)用計算機視覺方法將應(yīng)用在復(fù)雜環(huán)境下的文字檢測與切分。一方面是基于矩形框的檢測方法：文獻［8］利用ResNet50對不規(guī)則曲線對自然場景圖像中文本行進行檢測和切分。文獻［9～10］利用深度學習Faster-RCNN等目標檢測技術(shù)，檢測出文本圖像的粗略的分割點，再利用通過連接合并，來實現(xiàn)文本行的檢測。另一方面是基于圖像語義切分的方法，文獻［11］提出了一種基于全卷積網(wǎng)絡(luò)（FCN）的歷史手寫文檔像素分類方法。文獻［12］構(gòu)建全卷積網(wǎng)絡(luò)（FCN）對單行中英文混合圖像進行語義分割來完成字符的切分。

本文研究基于圖像語義分割的方法來實現(xiàn)英文寫作答卷的單詞切分，提出了應(yīng)用于手寫字體單詞的語義分割網(wǎng)絡(luò)TextNet；提出了基于語義分割技術(shù)的英文手寫字體單詞的切分框架并在數(shù)據(jù)集TextDB上進行了實驗探索與分析。本文主要貢獻如下：

1）本文首次將深度語義分割技術(shù)應(yīng)用在多行、稠密的英文手寫體的單詞切分中，并提出了應(yīng)用深度語義分割技術(shù)進行手寫字體切分的基本框架和流程。通過在ENet［13］、ERFNet［15］以及本文提出的TextNet三個輕量級的語義分割網(wǎng)絡(luò)上的實驗中證明了在相對較高的IoU閾值（0.7）的條件下，切分準確率高出投影算法［1］10%以上。

2）根據(jù)本文所涉及的應(yīng)用場景，本文設(shè)計的輕量級TextNet用于分割像素，進而達到切分單詞的目的。本文所設(shè)計的網(wǎng)絡(luò)能更有效地獲取英文單詞圖像的輪廓信息，在模型參數(shù)量（Parameters）和浮點運算量（FLOPs）上達到了輕量級水平，相比較經(jīng)典的輕量級框架ENet［13］、ERFNet［15］等能獲得的更高的單詞切分的性能。

2 相關(guān)研究

英文試題的答卷特別是作文答卷，其圖像呈現(xiàn)出一定的復(fù)雜性。具體來說，有以下幾個方面特點。

1）目標單詞的密集性。一般來說，目標單詞會鋪滿整個試卷圖像的答題區(qū)域。目標單詞的尺寸相對圖像較小，且不規(guī)則，呈現(xiàn)出密集性特點。在切分過程中容易出現(xiàn)目標單詞遺漏等問題。

2）書寫風格的多樣和非受限性。每張文本圖的寫作風格具有一定的差異，即便是同一張文本圖像目標單詞的上下左右間隔都存在較大的不確定性。

3）字體的涂抹和單詞跨行書寫。在答卷圖像中出現(xiàn)的字體涂抹和單詞跨行書寫，在一定程度上會影響切分的準確性。

4）模式類別的單一性。根據(jù)切分任務(wù)，將圖像區(qū)域分為單詞區(qū)域（正類別）和非單詞區(qū)域（負類別）兩類，本文研究的目標單詞只存在于單詞區(qū)域中。而不同的單詞和寫作風格都存在豐富的多樣性，因此正類別的類內(nèi)差異較大，這對單詞切分模型的魯棒性提出較高的要求。

基于上述英文答卷圖像的自身特點，本文對基于深度學習的語義分割網(wǎng)絡(luò)進行研究與設(shè)計。在語義分割任務(wù)中，既需要較高的分辨率又需要相對較大的感受野，在實踐中發(fā)現(xiàn)，擁有較大感受野的特征圖的空間分辨率不高；較高的空間分辨率又難以獲取足夠的感受野。本文的研究目標是在這兩個方面找到均衡，來完成語義分割任務(wù)。本文用ASPP［18］單元來獲取圖像豐富的感受野特征，用語義網(wǎng)絡(luò)的注意力機制和特征融合對不同的特征圖進行疊加學習，從而實現(xiàn)對分辨率和感受野在計算量上進行折中，以達到高效語義分割的目的。

2.1 卷積單元設(shè)計

圖像下采樣是為了獲得更大的視野信息，本文在網(wǎng)絡(luò)的下采樣單元運用了混合的最大池化層（MaxPooling）和卷積層方法。Inception-v3［14］提出了分解大卷積核的思想，將大卷積核分解為尺寸不同的小卷積核分別進行卷積，再進行混合，從而降低了計算復(fù)雜度。ENet［13］在網(wǎng)絡(luò)輸入端運用了該方法，用混合兩種步長分別為2的最大池化層（MaxPooling）和卷積層的來進行下采樣。該方法在ERFNet［15］得到了進一步推廣，將其應(yīng)用在編碼（Encode）環(huán)節(jié)的所有下采樣單元。

在編碼（Encode）環(huán)節(jié)引用了帶有殘差［16］單元的“Non-bottleneck-1D［15］”模塊。該模塊運用了Non-bottleneck的卷積方法來避免由于增加瓶頸（bottleneck）設(shè)計的殘差單元的深度而帶來梯度消失，而帶來的降低準確率問題。與此同時，該模塊以較小的計算量為代價來高效地提取圖像特征。具體結(jié)構(gòu)如圖1所示。

圖1 殘差單元

從圖1可以看出，該模塊分別用1*3和3*1的卷積核進行交叉卷積，根據(jù)需要也可以在編碼的不同特征圖上使用一定比率的空洞卷積［17］來豐富特征圖的視野。

在網(wǎng)絡(luò)中，本文引入了DeepLabv3［18］的ASPP（Atrous Spatial Pyramid Pooling）模塊。ASPP是在文獻［17］中提出的，它包含了四個平行的擁有不同比率（Atrous Rate）的空洞卷積層。ASSP能夠在特征圖上用任意不同尺度的采樣，從而提高采樣的效率。DeepLabv3［18］對ASPP進行了改進，在ASPP中增加了批量歸一化（Batch Normalization）操作。

2.2 注意力機制與特征融合

本文在網(wǎng)絡(luò)中設(shè)置了注意力機制和特征融合單元，引入了BiSeNet［19］的ARM（Attention Refinement Module）單元和FFM（Feature Fusion Module）單元進行設(shè)計。

注意力機制主要是獲取圖像的全局的上下文信息。如圖2（b）所示，ARM首先通過全局平均池化將輸入的尺寸轉(zhuǎn)換成1*1，將其作為注意力向量來指導(dǎo)網(wǎng)絡(luò)進行特征學習。在該路徑上增加了批量歸一化和Sigmoid激活來對注意力進行強化。

圖2 特征融合與注意力機制

特征融合的目的是將兩個不同的特征圖合并成一個特征圖，從而達到將兩個不同路徑上獲取的特征進行融合的目的。FFM單元沒有直接將兩個特征圖進行簡單相加，而是首先進行維度合并，再進行卷積操作，本文在這一過程中沒有使用BiSeNet［19］中的Batch Normalization，而直接進行分路后合并。具體結(jié)構(gòu)如圖2（a）所示。

3 網(wǎng)絡(luò)設(shè)計

根據(jù)相關(guān)研究的內(nèi)容，本文對切分英文手寫字單詞的語義分割網(wǎng)絡(luò)進行設(shè)計。首先，本文對輸入圖像進行下采樣來完成特征編碼器的設(shè)計。在編碼器中，本文使用ERFNet［15］的下采樣設(shè)計作為網(wǎng)絡(luò)的下采樣單元。每個下采樣單元后面又跟隨若干個帶有殘差［16］單元的Non-bottleneck-1D［15］模塊來進行特征提取。其次，本文對低分辨率的特征圖設(shè)計了解碼器。在解碼器中，本文加入了Bi SeNet［19］的注意力機制（ARM）和特征融合單元（FFM）。本文將注意力機制（ARM）加入到Encoder的頂端，用以指導(dǎo)網(wǎng)絡(luò)學習全局特征。

為了獲取圖像目標的位置信息，本文將編碼器（Encoder）第二個下采樣后的Non-bottleneck-1D［15］輸出特征矩陣進行了ASPP［18］操作。

具體網(wǎng)絡(luò)總體結(jié)構(gòu)如圖3所示。

圖3 語義分割網(wǎng)絡(luò)（TextNet）結(jié)構(gòu)

4 單詞切分框架

本文將切分流程分為兩個階段，分別為語義分割階段和矩形框生成階段。在語義分割階段，本文訓練語義分割網(wǎng)絡(luò)對英文手寫體圖像進行像素分割，獲得二值語義圖像（0為背景，256為字體區(qū)域）。在矩形框生成階段，本文將生成的二值語義圖像進行邊緣檢測，獲得字體區(qū)域的輪廓信息的蒙版圖像。在輸出階段將蒙版圖像和原始圖像相加，實現(xiàn)英文手寫字體單詞切分的目的。具體流程如圖4所示。

圖4 手寫體英文單詞切分框架

從上述設(shè)計中可以看出，手寫字體單詞的準確切分，在極大程度上是依賴于像素的語義分割所產(chǎn)生的單個單詞的像素輪廓信息。這就要求語義分割能夠獲在單詞的周圍獲取更加豐富的語義信息。因此我們在網(wǎng)絡(luò)設(shè)計過程中，加入了ASPP［18］操作，能夠保證在一定分辨率水平下獲取更加豐富的像素上下文語義信息。

5 實驗設(shè)計與分析

5.1 數(shù)據(jù)集

本課題組根據(jù)實踐需要隨機挑選1061張英文作文答卷圖像進行標記用于訓練和測試（為了方便表述，本文稱該圖像集為TextDB）。相對自然場景文字圖像而言，作文答卷圖像上的文字具有稠密性特點。為此本文根據(jù)每張圖的單詞數(shù)目統(tǒng)計出單詞分布直方圖，如圖5所示。

圖5 單詞分布直方圖

在圖5中，橫軸表示為圖像上固定單詞數(shù)目出現(xiàn)的頻率；縱軸表示為每張圖像出現(xiàn)的單詞數(shù)目；曲線表示為單詞出現(xiàn)頻率的高斯函數(shù)擬合曲線。從直方圖上可以看出，數(shù)據(jù)集的圖像的單詞數(shù)目呈現(xiàn)高斯分布特性。

在實驗中本文采用5折交叉驗證的方法來進行，將1061張英文手寫字體圖像隨機分為5組做每次隨機選其中一組作為測試集，其余組作為訓練集；一共做5次實驗，觀察每次測試的準確值pi將其平均值作為實驗結(jié)果p：

5.2 評價指標

在實驗中本文將圖像區(qū)域分為正類別（單詞區(qū)域）和負類別（非單詞區(qū)域）兩類，但在實際中需要關(guān)注正類別的預(yù)測準確性，因此本文將正類別的評估作為主要參考對象。

首先，評估了模型的像素分割性能。本文計算了模型的像素分割的平均交并比（mIoU），正類別的精確率（Prec），正類別召回率（Rec），平均像素精度（MPA）等指標。在公式中設(shè)定TP為真正，F(xiàn)P為假正，TN為真負，F(xiàn)N為假負。具體公式如下所示：

此外，本文還評估了模型的單詞切分性能。本文用實際矩形框與預(yù)測矩形框的交并比作為預(yù)測閾值，因為在實際應(yīng)用中，單詞切分對交并比的精度要求較高，因此本文在評估中運用了較高的閾值（0.7）。本文計算了正類預(yù)測的精確率（Prec），召回率（Rec），如式（4）和式（5）所示，與此同時本文還計算了切分的F1-Score值（F1），如式（6）所示：

5.3 實驗及分析

由于圖像中的手寫字體相對于圖像尺寸偏小，單個單詞所在像素數(shù)量較少。為了保證足夠的分辨率，增加字體切分的準確率，我們將輸入圖像的寬和高設(shè)置為640×640的RGB三通道，即3×640×640。基于此，我們計算了浮點運算量（FLOPs），同時，為了評估我們所設(shè)計模型規(guī)模，本文還對比了模型的參數(shù)量（Parameters），如表1所示。

表1 輕量級深度網(wǎng)絡(luò)模型參數(shù)規(guī)模和計算量

表1中，計量單位M和B分別為Million和Billion的縮寫意為百萬和十億。TextNet的參數(shù)量介于ENet［13］和ERFNet［15］之間，在浮點運算量（FLOPs）的規(guī)模上，也具有一定優(yōu)勢。一般情況而言，網(wǎng)絡(luò)的規(guī)模和計算量和準確性成正相關(guān)關(guān)系。但在很多情況下，受到硬件計算資源的限制，我們的工作在計算量和準確性達到了一定的平衡，語義分割網(wǎng)絡(luò)達到了輕量級水平，滿足了應(yīng)用實踐的需要。

在實驗中本文選取了ENet［13］ERFNet［15］作為參照組，并分別計算了正類別精確率（Prec）、正類別召回率（Rec）、平均像素精度（MPA）、平均交并比（mIoU）等性能指標。具體結(jié)果如表2所示。

表2 英文手寫字圖像語義分割實驗結(jié)果

從表1中發(fā)現(xiàn)，ERFNet［15］的語義分割性能略高于ENet［13］和本文提出的TextNet網(wǎng)絡(luò)，這說明從像素分類的角度上來說ERFNet［15］的性能更優(yōu)于其他兩種網(wǎng)絡(luò)模型。就正類別精確率上來看，三種網(wǎng)絡(luò)都達到了92%以上的精度，這說明采用語義分割技術(shù)能夠?qū)崿F(xiàn)對英文手寫字單詞進行有效的切分。

最后，本文對英文手寫字體的切分效果進行了實驗。在實驗中本文設(shè)置了5個參照組，增加了投影算法、投影和滴水算法的組合等傳統(tǒng)算法。具體的實驗結(jié)果如表3所示。

表3 英文手寫字切分實驗結(jié)果

從實驗的結(jié)果可以看出采用基于深度神經(jīng)網(wǎng)絡(luò)的意義分割方法對英文手寫字體切分的性能遠遠優(yōu)于傳統(tǒng)的切分方法。相比較2019年［6］提出種基于迭代的手寫字符垂直投影和滴水切分方法高出了5.1個百分點，在相同條件下，本文的工作達到了目前的state-of-the-art（SOTA）方法。

本文設(shè)計的Text Net網(wǎng)絡(luò)相對于傳統(tǒng)切分方法，能夠有效地對英文手寫單詞進行切分。就英文手寫字體的語義分割與單詞切分的關(guān)系上來看，相對于ENet［13］和ERFNet［15］在語義分割性能相當?shù)幕A(chǔ)上，本文提出的TextNet在英文手寫體單詞的切分上相對更為有效。

從本文第4節(jié)中設(shè)計的單詞切分框架可知，單詞的切分是依賴于像素分割后所呈現(xiàn)出來的單詞輪廓，由于我們在網(wǎng)絡(luò)設(shè)計中增加了ASPP［18］操作，使得我們所設(shè)計的TextNet的像素分割性能包括平均交并比（mIoU），正類別的精確率（Prec），正類別召回率（Rec），平均像素精度（MPA）略低于ERFNet［15］的情況下，能獲得比ERFNet［15］更高的單詞切分性能。

6 結(jié)語

本文研究并實踐了語義分割技術(shù)在英文手寫字體上的應(yīng)用，提出了用于切分英文單詞的語義網(wǎng)絡(luò)TextNet。實驗證明在較高IoU閾值（0.7）的條件下，采用基于深度神經(jīng)網(wǎng)絡(luò)的語義分割方法的英文手寫字體切分的性能遠遠優(yōu)于傳統(tǒng)的切分方法，這說明采用語義分割技術(shù)對手寫單詞的切分精度更高，因此該方法具有一定的實用性。

但是本文存在一定的局限性，首先數(shù)據(jù)集Text DB的數(shù)目有限，難以驗證切分模型的泛化性能。其次本文還沒有在更加廣泛的語義分割模型上進行實驗分析。未來我們將標記更多的手寫字體圖像和更廣泛的語義分割網(wǎng)絡(luò)在本文的英文手寫字體切分框架上進行實驗來探索更加高效的手寫字體切分技術(shù)。