999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像語義分割技術(shù)在英文手寫字體切分上的應(yīng)用*

2021-01-19 11:00:30魏元喜王海波
計算機與數(shù)字工程 2020年12期
關(guān)鍵詞:語義英文單詞

魏元喜 陳 霞 王海波

(1.北京郵電大學人文學院 北京 100876)(2.山東山大鷗瑪軟件股份有限公司 濟南 250101)

1 引言

研究非受限情況下的手寫字體的切分具有重要現(xiàn)實意義。字符切分和字符識別密不可分,準確而高效的字符切分能極大地幫助字符的準確識別,字符切分是字符識別的重要實踐基礎(chǔ)。

字符切分有著廣闊的應(yīng)用前景,特別是隨著互聯(lián)網(wǎng)和多媒體技術(shù)的快速發(fā)展,很多行業(yè)都迫切需要能夠從大量的圖像或視頻資料中找到所需的文字信息。其中,在教育領(lǐng)域的智能判卷是其重要應(yīng)用方向之一。本文研究將圖像語義分割技術(shù)應(yīng)用在英文試卷手寫單詞切分上,將答卷圖像分割為單個單詞圖像,便于識別算法進行字符識別及圖文轉(zhuǎn)寫。

手寫字的切分與識別是一個非常復(fù)雜的過程。傳統(tǒng)的字符切分主要是基于像素或區(qū)域的連通性特點進行處理。例如:投影算法[1]、滴水算法[2]、連通區(qū)域算法等,這類算法具有高效、快速等特點,在打印字體切分上有著廣泛的應(yīng)用。

對于字符切分,近幾年還有一類方法是基于字符的文本的圖像特性,對圖像進行形態(tài)學預(yù)處理,從而基于某種機制來尋找字符切分點。文獻[3]提出了一種新的核心區(qū)域的概念,用于對這些困難的傾斜手寫單詞進行切分。文獻[4]提出了一種利用語言的基本結(jié)構(gòu)特征對手寫文本進行獨立字符切分方法。文獻[5]提出一種基于距離的切分(DBS)方法對句子、單詞和字符分別進行切分。文獻[6]提出了一種基于迭代的手寫字符垂直投影和滴水切分方法。文獻[7]提出了一種將遞歸的字符的切分算法,這種算法使用一種確定圖像遞歸筆跡相交切點來劃分單詞。上述這類方法處理速度快,效率高。但是與傳統(tǒng)的字符切分方法沒有本質(zhì)區(qū)別,難以解決復(fù)雜模式下的適應(yīng)性問題。

隨著機器學習算法的快速發(fā)展,研究者開始將目光轉(zhuǎn)向于應(yīng)用計算機視覺方法將應(yīng)用在復(fù)雜環(huán)境下的文字檢測與切分。一方面是基于矩形框的檢測方法:文獻[8]利用ResNet50對不規(guī)則曲線對自然場景圖像中文本行進行檢測和切分。文獻[9~10]利用深度學習Faster-RCNN等目標檢測技術(shù),檢測出文本圖像的粗略的分割點,再利用通過連接合并,來實現(xiàn)文本行的檢測。另一方面是基于圖像語義切分的方法,文獻[11]提出了一種基于全卷積網(wǎng)絡(luò)(FCN)的歷史手寫文檔像素分類方法。文獻[12]構(gòu)建全卷積網(wǎng)絡(luò)(FCN)對單行中英文混合圖像進行語義分割來完成字符的切分。

本文研究基于圖像語義分割的方法來實現(xiàn)英文寫作答卷的單詞切分,提出了應(yīng)用于手寫字體單詞的語義分割網(wǎng)絡(luò)TextNet;提出了基于語義分割技術(shù)的英文手寫字體單詞的切分框架并在數(shù)據(jù)集TextDB上進行了實驗探索與分析。本文主要貢獻如下:

1)本文首次將深度語義分割技術(shù)應(yīng)用在多行、稠密的英文手寫體的單詞切分中,并提出了應(yīng)用深度語義分割技術(shù)進行手寫字體切分的基本框架和流程。通過在ENet[13]、ERFNet[15]以及本文提出的TextNet三個輕量級的語義分割網(wǎng)絡(luò)上的實驗中證明了在相對較高的IoU閾值(0.7)的條件下,切分準確率高出投影算法[1]10%以上。

2)根據(jù)本文所涉及的應(yīng)用場景,本文設(shè)計的輕量級TextNet用于分割像素,進而達到切分單詞的目的。本文所設(shè)計的網(wǎng)絡(luò)能更有效地獲取英文單詞圖像的輪廓信息,在模型參數(shù)量(Parameters)和浮點運算量(FLOPs)上達到了輕量級水平,相比較經(jīng)典的輕量級框架ENet[13]、ERFNet[15]等能獲得的更高的單詞切分的性能。

2 相關(guān)研究

英文試題的答卷特別是作文答卷,其圖像呈現(xiàn)出一定的復(fù)雜性。具體來說,有以下幾個方面特點。

1)目標單詞的密集性。一般來說,目標單詞會鋪滿整個試卷圖像的答題區(qū)域。目標單詞的尺寸相對圖像較小,且不規(guī)則,呈現(xiàn)出密集性特點。在切分過程中容易出現(xiàn)目標單詞遺漏等問題。

2)書寫風格的多樣和非受限性。每張文本圖的寫作風格具有一定的差異,即便是同一張文本圖像目標單詞的上下左右間隔都存在較大的不確定性。

3)字體的涂抹和單詞跨行書寫。在答卷圖像中出現(xiàn)的字體涂抹和單詞跨行書寫,在一定程度上會影響切分的準確性。

4)模式類別的單一性。根據(jù)切分任務(wù),將圖像區(qū)域分為單詞區(qū)域(正類別)和非單詞區(qū)域(負類別)兩類,本文研究的目標單詞只存在于單詞區(qū)域中。而不同的單詞和寫作風格都存在豐富的多樣性,因此正類別的類內(nèi)差異較大,這對單詞切分模型的魯棒性提出較高的要求。

基于上述英文答卷圖像的自身特點,本文對基于深度學習的語義分割網(wǎng)絡(luò)進行研究與設(shè)計。在語義分割任務(wù)中,既需要較高的分辨率又需要相對較大的感受野,在實踐中發(fā)現(xiàn),擁有較大感受野的特征圖的空間分辨率不高;較高的空間分辨率又難以獲取足夠的感受野。本文的研究目標是在這兩個方面找到均衡,來完成語義分割任務(wù)。本文用ASPP[18]單元來獲取圖像豐富的感受野特征,用語義網(wǎng)絡(luò)的注意力機制和特征融合對不同的特征圖進行疊加學習,從而實現(xiàn)對分辨率和感受野在計算量上進行折中,以達到高效語義分割的目的。

2.1 卷積單元設(shè)計

圖像下采樣是為了獲得更大的視野信息,本文在網(wǎng)絡(luò)的下采樣單元運用了混合的最大池化層(MaxPooling)和卷積層方法。Inception-v3[14]提出了分解大卷積核的思想,將大卷積核分解為尺寸不同的小卷積核分別進行卷積,再進行混合,從而降低了計算復(fù)雜度。ENet[13]在網(wǎng)絡(luò)輸入端運用了該方法,用混合兩種步長分別為2的最大池化層(MaxPooling)和卷積層的來進行下采樣。該方法在ERFNet[15]得到了進一步推廣,將其應(yīng)用在編碼(Encode)環(huán)節(jié)的所有下采樣單元。

在編碼(Encode)環(huán)節(jié)引用了帶有殘差[16]單元的“Non-bottleneck-1D[15]”模塊。該模塊運用了Non-bottleneck的卷積方法來避免由于增加瓶頸(bottleneck)設(shè)計的殘差單元的深度而帶來梯度消失,而帶來的降低準確率問題。與此同時,該模塊以較小的計算量為代價來高效地提取圖像特征。具體結(jié)構(gòu)如圖1所示。

圖1 殘差單元

從圖1可以看出,該模塊分別用1*3和3*1的卷積核進行交叉卷積,根據(jù)需要也可以在編碼的不同特征圖上使用一定比率的空洞卷積[17]來豐富特征圖的視野。

在網(wǎng)絡(luò)中,本文引入了DeepLabv3[18]的ASPP(Atrous Spatial Pyramid Pooling)模塊。ASPP是在文獻[17]中提出的,它包含了四個平行的擁有不同比率(Atrous Rate)的空洞卷積層。ASSP能夠在特征圖上用任意不同尺度的采樣,從而提高采樣的效率。DeepLabv3[18]對ASPP進行了改進,在ASPP中增加了批量歸一化(Batch Normalization)操作。

2.2 注意力機制與特征融合

本文在網(wǎng)絡(luò)中設(shè)置了注意力機制和特征融合單元,引入了BiSeNet[19]的ARM(Attention Refinement Module)單元和FFM(Feature Fusion Module)單元進行設(shè)計。

注意力機制主要是獲取圖像的全局的上下文信息。如圖2(b)所示,ARM首先通過全局平均池化將輸入的尺寸轉(zhuǎn)換成1*1,將其作為注意力向量來指導(dǎo)網(wǎng)絡(luò)進行特征學習。在該路徑上增加了批量歸一化和Sigmoid激活來對注意力進行強化。

圖2 特征融合與注意力機制

特征融合的目的是將兩個不同的特征圖合并成一個特征圖,從而達到將兩個不同路徑上獲取的特征進行融合的目的。FFM單元沒有直接將兩個特征圖進行簡單相加,而是首先進行維度合并,再進行卷積操作,本文在這一過程中沒有使用BiSeNet[19]中的Batch Normalization,而直接進行分路后合并。具體結(jié)構(gòu)如圖2(a)所示。

3 網(wǎng)絡(luò)設(shè)計

根據(jù)相關(guān)研究的內(nèi)容,本文對切分英文手寫字單詞的語義分割網(wǎng)絡(luò)進行設(shè)計。首先,本文對輸入圖像進行下采樣來完成特征編碼器的設(shè)計。在編碼器中,本文使用ERFNet[15]的下采樣設(shè)計作為網(wǎng)絡(luò)的下采樣單元。每個下采樣單元后面又跟隨若干個帶有殘差[16]單元的Non-bottleneck-1D[15]模塊來進行特征提取。其次,本文對低分辨率的特征圖設(shè)計了解碼器。在解碼器中,本文加入了Bi SeNet[19]的注意力機制(ARM)和特征融合單元(FFM)。本文將注意力機制(ARM)加入到Encoder的頂端,用以指導(dǎo)網(wǎng)絡(luò)學習全局特征。

為了獲取圖像目標的位置信息,本文將編碼器(Encoder)第二個下采樣后的Non-bottleneck-1D[15]輸出特征矩陣進行了ASPP[18]操作。

具體網(wǎng)絡(luò)總體結(jié)構(gòu)如圖3所示。

圖3 語義分割網(wǎng)絡(luò)(TextNet)結(jié)構(gòu)

4 單詞切分框架

本文將切分流程分為兩個階段,分別為語義分割階段和矩形框生成階段。在語義分割階段,本文訓練語義分割網(wǎng)絡(luò)對英文手寫體圖像進行像素分割,獲得二值語義圖像(0為背景,256為字體區(qū)域)。在矩形框生成階段,本文將生成的二值語義圖像進行邊緣檢測,獲得字體區(qū)域的輪廓信息的蒙版圖像。在輸出階段將蒙版圖像和原始圖像相加,實現(xiàn)英文手寫字體單詞切分的目的。具體流程如圖4所示。

圖4 手寫體英文單詞切分框架

從上述設(shè)計中可以看出,手寫字體單詞的準確切分,在極大程度上是依賴于像素的語義分割所產(chǎn)生的單個單詞的像素輪廓信息。這就要求語義分割能夠獲在單詞的周圍獲取更加豐富的語義信息。因此我們在網(wǎng)絡(luò)設(shè)計過程中,加入了ASPP[18]操作,能夠保證在一定分辨率水平下獲取更加豐富的像素上下文語義信息。

5 實驗設(shè)計與分析

5.1 數(shù)據(jù)集

本課題組根據(jù)實踐需要隨機挑選1061張英文作文答卷圖像進行標記用于訓練和測試(為了方便表述,本文稱該圖像集為TextDB)。相對自然場景文字圖像而言,作文答卷圖像上的文字具有稠密性特點。為此本文根據(jù)每張圖的單詞數(shù)目統(tǒng)計出單詞分布直方圖,如圖5所示。

圖5 單詞分布直方圖

在圖5中,橫軸表示為圖像上固定單詞數(shù)目出現(xiàn)的頻率;縱軸表示為每張圖像出現(xiàn)的單詞數(shù)目;曲線表示為單詞出現(xiàn)頻率的高斯函數(shù)擬合曲線。從直方圖上可以看出,數(shù)據(jù)集的圖像的單詞數(shù)目呈現(xiàn)高斯分布特性。

在實驗中本文采用5折交叉驗證的方法來進行,將1061張英文手寫字體圖像隨機分為5組做每次隨機選其中一組作為測試集,其余組作為訓練集;一共做5次實驗,觀察每次測試的準確值pi將其平均值作為實驗結(jié)果p:

5.2 評價指標

在實驗中本文將圖像區(qū)域分為正類別(單詞區(qū)域)和負類別(非單詞區(qū)域)兩類,但在實際中需要關(guān)注正類別的預(yù)測準確性,因此本文將正類別的評估作為主要參考對象。

首先,評估了模型的像素分割性能。本文計算了模型的像素分割的平均交并比(mIoU),正類別的精確率(Prec),正類別召回率(Rec),平均像素精度(MPA)等指標。在公式中設(shè)定TP為真正,F(xiàn)P為假正,TN為真負,F(xiàn)N為假負。具體公式如下所示:

此外,本文還評估了模型的單詞切分性能。本文用實際矩形框與預(yù)測矩形框的交并比作為預(yù)測閾值,因為在實際應(yīng)用中,單詞切分對交并比的精度要求較高,因此本文在評估中運用了較高的閾值(0.7)。本文計算了正類預(yù)測的精確率(Prec),召回率(Rec),如式(4)和式(5)所示,與此同時本文還計算了切分的F1-Score值(F1),如式(6)所示:

5.3 實驗及分析

由于圖像中的手寫字體相對于圖像尺寸偏小,單個單詞所在像素數(shù)量較少。為了保證足夠的分辨率,增加字體切分的準確率,我們將輸入圖像的寬和高設(shè)置為640×640的RGB三通道,即3×640×640。基于此,我們計算了浮點運算量(FLOPs),同時,為了評估我們所設(shè)計模型規(guī)模,本文還對比了模型的參數(shù)量(Parameters),如表1所示。

表1 輕量級深度網(wǎng)絡(luò)模型參數(shù)規(guī)模和計算量

表1中,計量單位M和B分別為Million和Billion的縮寫意為百萬和十億。TextNet的參數(shù)量介于ENet[13]和ERFNet[15]之 間,在 浮 點 運 算 量(FLOPs)的規(guī)模上,也具有一定優(yōu)勢。一般情況而言,網(wǎng)絡(luò)的規(guī)模和計算量和準確性成正相關(guān)關(guān)系。但在很多情況下,受到硬件計算資源的限制,我們的工作在計算量和準確性達到了一定的平衡,語義分割網(wǎng)絡(luò)達到了輕量級水平,滿足了應(yīng)用實踐的需要。

在實驗中本文選取了ENet[13]ERFNet[15]作為參照組,并分別計算了正類別精確率(Prec)、正類別召回率(Rec)、平均像素精度(MPA)、平均交并比(mIoU)等性能指標。具體結(jié)果如表2所示。

表2 英文手寫字圖像語義分割實驗結(jié)果

從表1中發(fā)現(xiàn),ERFNet[15]的語義分割性能略高于ENet[13]和本文提出的TextNet網(wǎng)絡(luò),這說明從像素分類的角度上來說ERFNet[15]的性能更優(yōu)于其他兩種網(wǎng)絡(luò)模型。就正類別精確率上來看,三種網(wǎng)絡(luò)都達到了92%以上的精度,這說明采用語義分割技術(shù)能夠?qū)崿F(xiàn)對英文手寫字單詞進行有效的切分。

最后,本文對英文手寫字體的切分效果進行了實驗。在實驗中本文設(shè)置了5個參照組,增加了投影算法、投影和滴水算法的組合等傳統(tǒng)算法。具體的實驗結(jié)果如表3所示。

表3 英文手寫字切分實驗結(jié)果

從實驗的結(jié)果可以看出采用基于深度神經(jīng)網(wǎng)絡(luò)的意義分割方法對英文手寫字體切分的性能遠遠優(yōu)于傳統(tǒng)的切分方法。相比較2019年[6]提出種基于迭代的手寫字符垂直投影和滴水切分方法高出了5.1個百分點,在相同條件下,本文的工作達到了目前的state-of-the-art(SOTA)方法。

本文設(shè)計的Text Net網(wǎng)絡(luò)相對于傳統(tǒng)切分方法,能夠有效地對英文手寫單詞進行切分。就英文手寫字體的語義分割與單詞切分的關(guān)系上來看,相對于ENet[13]和ERFNet[15]在語義分割性能相當?shù)幕A(chǔ)上,本文提出的TextNet在英文手寫體單詞的切分上相對更為有效。

從本文第4節(jié)中設(shè)計的單詞切分框架可知,單詞的切分是依賴于像素分割后所呈現(xiàn)出來的單詞輪廓,由于我們在網(wǎng)絡(luò)設(shè)計中增加了ASPP[18]操作,使得我們所設(shè)計的TextNet的像素分割性能包括平均交并比(mIoU),正類別的精確率(Prec),正類別召回率(Rec),平均像素精度(MPA)略低于ERFNet[15]的情況下,能獲得比ERFNet[15]更高的單詞切分性能。

6 結(jié)語

本文研究并實踐了語義分割技術(shù)在英文手寫字體上的應(yīng)用,提出了用于切分英文單詞的語義網(wǎng)絡(luò)TextNet。實驗證明在較高IoU閾值(0.7)的條件下,采用基于深度神經(jīng)網(wǎng)絡(luò)的語義分割方法的英文手寫字體切分的性能遠遠優(yōu)于傳統(tǒng)的切分方法,這說明采用語義分割技術(shù)對手寫單詞的切分精度更高,因此該方法具有一定的實用性。

但是本文存在一定的局限性,首先數(shù)據(jù)集Text DB的數(shù)目有限,難以驗證切分模型的泛化性能。其次本文還沒有在更加廣泛的語義分割模型上進行實驗分析。未來我們將標記更多的手寫字體圖像和更廣泛的語義分割網(wǎng)絡(luò)在本文的英文手寫字體切分框架上進行實驗來探索更加高效的手寫字體切分技術(shù)。

猜你喜歡
語義英文單詞
語言與語義
單詞連一連
看圖填單詞
英文摘要
鄱陽湖學刊(2016年6期)2017-01-16 13:05:41
英文摘要
英文摘要
財經(jīng)(2016年19期)2016-08-11 08:17:03
英文摘要
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 亚洲欧美成人| 久久窝窝国产精品午夜看片| 欧美a在线| 亚洲成人手机在线| 天天综合色网| 亚洲男人在线| 欧美另类第一页| 亚洲精品视频免费| 国产h视频免费观看| 在线观看欧美国产| 成人福利一区二区视频在线| 精品国产中文一级毛片在线看| 久久伊人操| 国产91视频观看| 亚洲综合狠狠| 精品福利视频导航| 精品三级网站| 国产三区二区| 欧美成人看片一区二区三区 | 国产JIZzJIzz视频全部免费| 国产高清免费午夜在线视频| 精品国产成人三级在线观看| 色哟哟国产成人精品| 久久不卡精品| 亚洲一级毛片免费看| 91久久精品国产| 欧美亚洲一区二区三区在线| 天天摸夜夜操| 国产精品自在在线午夜| 成年看免费观看视频拍拍| 亚洲免费人成影院| 精品91视频| 久久黄色小视频| 性欧美在线| 一本视频精品中文字幕| 国产精品白浆在线播放| 国产美女91视频| 二级特黄绝大片免费视频大片| 色悠久久久久久久综合网伊人| 欧美a级完整在线观看| 国产精品任我爽爆在线播放6080 | 国产人碰人摸人爱免费视频 | 伊人91在线| 在线国产你懂的| 日韩欧美国产区| 国产视频自拍一区| 欧美成人二区| 伊人精品视频免费在线| 国产99视频免费精品是看6| 呦女精品网站| 免费网站成人亚洲| 欧美成人二区| 亚洲高清中文字幕在线看不卡| 亚洲精品无码久久毛片波多野吉| 免费一极毛片| A级毛片无码久久精品免费| 中文字幕亚洲无线码一区女同| 国产女同自拍视频| 国产网友愉拍精品| aaa国产一级毛片| 精品福利视频网| 免费在线一区| 亚洲无码高清一区| 超清无码一区二区三区| 99草精品视频| 伊人欧美在线| 69av在线| 91亚洲国产视频| 免费午夜无码18禁无码影院| 五月激激激综合网色播免费| 亚洲色图综合在线| 日韩欧美综合在线制服| 91美女视频在线| yy6080理论大片一级久久| 国产精品无码久久久久AV| 黄色在线不卡| 亚洲三级色| 亚洲综合网在线观看| 在线观看国产精品日本不卡网| 在线精品视频成人网| 四虎在线观看视频高清无码 | 2021国产v亚洲v天堂无码|