999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不定長數(shù)據(jù)中識別模糊文本的數(shù)據(jù)加載方法

2023-05-29 10:20:14苗小愛
軟件導(dǎo)刊 2023年5期
關(guān)鍵詞:背景文本效果

苗小愛

(青島酒店管理職業(yè)技術(shù)學(xué)院,山東 青島 266100)

0 引言

隨著CRNN[1]的誕生,文本識別相關(guān)應(yīng)用越來越多,當(dāng)前很多研究者在CRNN 模型基礎(chǔ)上,針對損失函數(shù)[14]、學(xué)習(xí)率下降方法[15]、數(shù)據(jù)加載方法[16],以及骨干網(wǎng)絡(luò)[17]選擇、優(yōu)化[18]方法選擇等做了很多調(diào)整,模型效果不斷變好。但是在處理特定場景下的數(shù)據(jù)集時,由于無法使用固定寬、高的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)量有限且圖片中需要識別的文本過于模糊,背景也復(fù)雜多樣(見圖1),因此常常無法通過改變骨干網(wǎng)絡(luò)、損失函數(shù)和優(yōu)化方法以有效提高CRNN 識別準(zhǔn)確率。

復(fù)雜背景下模糊文本圖片實例如圖1 所示,圖1(a)和圖1(b)有3 個字,圖1(c)有4 個字(在現(xiàn)實數(shù)據(jù)集中數(shù)據(jù)文字?jǐn)?shù)量從1 到15 不等),而且“收貨方”文本被印章覆蓋,“合同號”文本缺少筆畫,“存貨名稱”則十分模糊,數(shù)據(jù)集中圖片的寬高比從1~12(經(jīng)處理后)不等。因此,為得到更好的訓(xùn)練效果和模型,需修改數(shù)據(jù)集加載部分。

圖2 是在背景填充后作灰度化處理后進(jìn)行放縮的效果,可以看出,使用近似背景填充幾乎分辨不出填充部分。圖3 是進(jìn)行補(bǔ)0 的填充放縮操作,可以發(fā)現(xiàn),填充部分像素值與文本相近,與背景相差較大。圖4 是直接放縮效果,可以看出,放縮后的圖片文本變形,不利于訓(xùn)練計算。由此可知,圖2(本文提出的數(shù)據(jù)加載方法)模型計算最好。

Fig.1 Example of blurred text picture under complex background圖1 復(fù)雜背景下模糊文本圖片實例

Fig.2 Scaled rendering of grayscale after approximate background filling圖2 近似背景填充后灰度化放縮效果

Fig.3 Scaled rendering of grayscale after filling with 0圖3 補(bǔ)0填充后灰度化放縮效果

Fig.4 Directly zoom the rendering after grayscale圖4 灰度化后直接放縮效果

基于CRNN 的模型經(jīng)常使用兩種常見的數(shù)據(jù)加載方法:①直接對圖片進(jìn)行指定比例的放縮,依靠骨干網(wǎng)絡(luò)強(qiáng)大的擬合能力映射到指定文本,但是由于同一文本在不同維度下放縮后的圖像發(fā)生形變,模型最終效果相對較差;②將圖片進(jìn)行減均值的標(biāo)準(zhǔn)化操作后填充0,使圖片在相同的放縮比例下進(jìn)行操作,這樣訓(xùn)練時模型會將填充部分作為負(fù)樣本,但是填充的數(shù)據(jù)十分突兀,對負(fù)樣本的像素值十分接近需要時的文本,導(dǎo)致部分負(fù)樣本向正樣本傾斜。這種填充方式在文本文數(shù)據(jù)大小相差不是很大時效果很好,但數(shù)據(jù)相差較大時就會產(chǎn)生較差的效果。在本文數(shù)據(jù)中,由于短文本過多,且一些合同中協(xié)議部分文本較長,需訓(xùn)練一個可以識別長文本又能很好處理短文本的模型。因此,本文在數(shù)據(jù)加載過程中進(jìn)行修改如下:

修改加載數(shù)據(jù)的放縮比例,平衡正負(fù)樣本。對短樣本使用近似背景填充后放縮到指定寬高比例,對接近指定寬高比(設(shè)置超參數(shù)進(jìn)行指定)的樣本進(jìn)行放縮時不進(jìn)行背景填充。在進(jìn)行推理時,直接進(jìn)行識別便可以得到很好的效果。最后,通過實驗對比發(fā)現(xiàn),本文設(shè)計的數(shù)據(jù)加載方法相比常用的數(shù)據(jù)加載方法有更高的識別準(zhǔn)確率和更快的訓(xùn)練收斂速度。

本文主要貢獻(xiàn)有兩個:①通過構(gòu)建近似背景填充的方式進(jìn)行數(shù)據(jù)加載,提高模型識別準(zhǔn)確率并提高訓(xùn)練收斂速度;②設(shè)定不填充比例加強(qiáng)文本圖像的多樣性(還原真實場景下的文本形狀變化)以輔助模型識別準(zhǔn)確率提升。

1 國內(nèi)外研究現(xiàn)狀

目前,國內(nèi)文本識別領(lǐng)域中效果最好、速度最快的是百度的PPOCR[2]項目,通過閱讀PPOCRv2 的源碼發(fā)現(xiàn)它在數(shù)據(jù)加載時默認(rèn)使用將圖片進(jìn)行標(biāo)準(zhǔn)化后填充0 的數(shù)據(jù)加載方式。目前,文本識別方法主要分為兩種類型。一種是語義上下文無關(guān)方法,其中以CRNN 最為典型,它是結(jié)合CNN 和RNN 的網(wǎng)絡(luò)主體,用CTC[3]解碼器計算損失構(gòu)建的文本識別模型。Xie 等[4]提出匯聚交叉熵(aggregation crosentropy,ACE)損失,優(yōu)化了每個字符在時間維度上的統(tǒng)計頻率,提高了識別效率。另一種是上下文感知方法,主要有效果突出的SRN[13]模型,該模型利用并行Transformer[5]和CNN 結(jié)合的方式作為主體,使用FPN[6]進(jìn)一步提取特征,在兼顧檢測速度的同時獲得很好的識別效果。ASTER[7]同樣針對Attention 模型進(jìn)行優(yōu)化,并提高了模型識別效果。上述模型在進(jìn)行研究和建模過程中均會廣泛使用到標(biāo)準(zhǔn)化后填充0 的數(shù)據(jù)加載方式或者直接放縮的數(shù)據(jù)加載方式。在處理模糊文本時,直接使用現(xiàn)有的模型和產(chǎn)品效果均不佳,因此本文提出針對模糊文本、復(fù)雜背景的近似背景填充數(shù)據(jù)加載方法。

OCR 識別主要包括文本檢測和文本識別。在檢測出文本行或文本區(qū)域后截取文本區(qū)域數(shù)據(jù),識別文本特征,進(jìn)而識別出文本內(nèi)容。目前流行的檢測模型有DBNet[8]、PAN[9]、craft[10]等,檢測出的文本一般有傾斜或者彎曲等多種形態(tài)。針對本文場景,主要檢測單據(jù)文本,并識別文本行數(shù)據(jù),但由于低像素值的問題導(dǎo)致文本識別難度變大。因此,本文設(shè)計一種更好的數(shù)據(jù)加載方式,在均衡正負(fù)樣本的同時,能夠突出有效的文本數(shù)據(jù),從而極大減小文本檢測難度,提高文本檢測準(zhǔn)確率。

2 算法設(shè)計

2.1 正負(fù)樣本均衡

在構(gòu)建近似背景填充時,首先計算在不同寬高比時正、負(fù)樣本的比例。因現(xiàn)實場景中存在長文本,模型的輸出大小不能太小,故選取了寬高比為4~12 比例范圍。本文數(shù)據(jù)集中數(shù)據(jù)的正負(fù)樣本占比如表1所示。

Table 1 Proportion of positive samples表1 正樣本占比

正負(fù)樣本占比是正樣本(文本所在部分)占據(jù)圖像的比例,負(fù)樣本(無文本部分)占據(jù)圖像的比例。由表1 可知,在寬高比為9 時,數(shù)據(jù)集的正、負(fù)比例分布最為均勻,近似為1∶1,因此固定放縮的寬高比例為9。此外,為證明正負(fù)樣本均衡能使識別模型取得更好的效果,在下文進(jìn)行實驗對比(結(jié)果見圖6)。

2.2 不填充比例設(shè)置

不填充比例設(shè)置是指當(dāng)某些圖像原始的寬高比在指定寬高比(本文為9)附近時,將圖片直接放縮到指定的寬高比不會影響圖中文字的質(zhì)量,使圖像中文本明顯變形,避免相同文本特征大小不同而出現(xiàn)偏差的問題。因此,這部分?jǐn)?shù)據(jù)可以直接進(jìn)行放縮以豐富正樣本空間,進(jìn)而加強(qiáng)特征提取。

通過觀察不同指定寬高比下,圖片放縮不會影響文本質(zhì)量,選取合適的不填充比例。經(jīng)過實驗表明,當(dāng)指定寬高比為9 時,原始寬高比為7、8、11、12 的圖片放縮到9 之后都不會產(chǎn)生肉眼可見的變形,經(jīng)計算得出,選擇向下不填充比例為7.8,向上不填充比例為11。

為證明設(shè)置不填充比例效果,本文在直接放縮對比實驗的基礎(chǔ)上,添加向下不填充比例為7、7.2、7.5、8 的對比實驗以證明本文指定的不填充比例效果。根據(jù)數(shù)據(jù)的獨特性,在指定寬高比減一到指定寬高比減二之間進(jìn)行選擇,若數(shù)據(jù)指定寬高比較大,則可適當(dāng)擴(kuò)大不填充比例設(shè)置范圍。

2.3 近似背景填充

采用近似背景填充是為避免使用一個突兀的背景填充圖像。雖然用一個全0 或全255 的像素值進(jìn)行背景填充能達(dá)到構(gòu)建負(fù)樣本的目的,但會產(chǎn)生兩個問題:①樣本本身會存在少量負(fù)樣本,若使用統(tǒng)一為0/255 進(jìn)行填充則會在計算時忽略真實負(fù)樣本的特征;②由于文本本身背景與負(fù)樣本是近似或相同,若全為0/255 填充背景則會導(dǎo)致文本背景分離效果差。

針對上述問題,本文構(gòu)建一個近似背景填充的方法,步驟如下:①將原圖像按照指定高度,原始寬高比放縮;②獲取當(dāng)前圖片中前16 個像素(從左上角開始)組成的正方形區(qū)域中像素值最大的像素(所需檢測的文本顏色較深,像素值較小,因而取最大值為背景填充);③計算放縮后圖片的寬度與指定寬度的差,當(dāng)原始圖片寬度小于指定寬度時則進(jìn)行背景填充,將步驟②獲取到的像素填充到指定寬度。算法設(shè)計如下:

算法1 近似背景填充

其中,r表示指定寬高比,selectFromTop16 表示從前16個像素的正方形區(qū)域中獲取填充像素值,max 表示獲取最大的像素值,resize 表示對圖片進(jìn)行放縮,filling 表示對圖片使用指定像素值進(jìn)行填充。將在下文實驗證明,本文設(shè)計的近似背景填充收斂速度更快、識別準(zhǔn)確率更高。

2.4 模型構(gòu)建

設(shè)計好數(shù)據(jù)加載方法后,構(gòu)建識別模型進(jìn)行效果驗證。本文實驗選用CRNN 模型,識別準(zhǔn)確率和訓(xùn)練收斂速度都在CRNN 模型上通過對比分析得到。本文沒有使用較為復(fù)雜的ResNet18[19]或更復(fù)雜的ResNet31、ResNet50 等骨干網(wǎng)絡(luò),使用CRNN 原文中建議的VGG16[11]。VGG16網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)較少、復(fù)雜度較低、訓(xùn)練較快,便于實驗對比。模型設(shè)計步驟如下:

(1)構(gòu)建配置文件。配置所使用的骨干網(wǎng)絡(luò)層,指定模型使用的寬和高,指定數(shù)據(jù)加載方式,配置學(xué)習(xí)率以及學(xué)習(xí)率的調(diào)整方法,指定優(yōu)化函數(shù)對損失函數(shù)進(jìn)行優(yōu)化,最后配置超參數(shù)。

(2)數(shù)據(jù)處理與加載。數(shù)據(jù)處理與加載是模型計算之前的必要步驟,由于收集到的數(shù)據(jù)不規(guī)范且不利于模型計算,因此需要進(jìn)行一定的圖像處理后再將其加載到內(nèi)存中進(jìn)行計算。首先將數(shù)據(jù)進(jìn)行指定比例的放縮,這里采用本文提出的近似背景填充方法;然后對圖像進(jìn)行減均值和除以255 的操作,將圖形標(biāo)準(zhǔn)化到一定范圍內(nèi),便于網(wǎng)絡(luò)計算;最后根據(jù)文本圖像特點進(jìn)行灰度化處理,將處理后的數(shù)據(jù)加載到計算機(jī)內(nèi)存中。

(3)模型設(shè)計。構(gòu)建好配置文件并做好數(shù)據(jù)處理與加載之后,對模型進(jìn)行設(shè)計,用設(shè)計出的模型對數(shù)據(jù)進(jìn)行計算,訓(xùn)練出能夠進(jìn)行文本識別的模型參數(shù),CRNN 模型的主要架構(gòu)包括VGG16 和BiLSTM[20]。VGG16 是一個16 層的CNN 網(wǎng)絡(luò)模型,能夠提取深度圖像特征映射,對圖像中的文本進(jìn)行有效的向量表示,然后根據(jù)文本的語言特征使用循環(huán)神經(jīng)網(wǎng)絡(luò)中的BiLSTM 進(jìn)行下一步計算。本文構(gòu)建了一個兩層的BiLSTM,根據(jù)文本的時序特征預(yù)測每一個文本字符。

(4)CTCLoss 損失。由于本文使用的數(shù)據(jù)是一個不定長的圖像文本數(shù)據(jù)集,因此需要在計算過程中對文本進(jìn)行自動對齊,以防止識別出的文本出現(xiàn)多一個字符或少一個字符的情況,CTC 算法采用動態(tài)規(guī)劃方法對文本圖像進(jìn)行有效的對齊操作。計算出的CTCLoss 就是文本識別的損失,得到損失函數(shù)后使用Adam 算法進(jìn)行梯度下降以優(yōu)化權(quán)重矩陣[12]。

在訓(xùn)練過程中根據(jù)超參數(shù)中的批次大小加載數(shù)據(jù),執(zhí)行上述步驟(1)—步驟(4),在指定的epochs 內(nèi)進(jìn)行一次又一次的網(wǎng)絡(luò)訓(xùn)練,并在訓(xùn)練中保存最優(yōu)結(jié)果,算法設(shè)計如下:

算法2模型構(gòu)建算法

Model_Weight 是最終計算的模型參數(shù),也稱為文本識別模型,ABF 表示算法1,即近似背景填充算法,means表示圖象均值,dataLoader 表示數(shù)據(jù)加載器,images.next()表示獲取下一個批次的圖像數(shù)據(jù)。

3 實驗比較

將本文的近似背景填充方法與填充0 的方法以及不填充只放縮的方法進(jìn)行比較,評價標(biāo)準(zhǔn)是校驗準(zhǔn)確率和訓(xùn)練收斂速度。在數(shù)據(jù)集上保證相同的實驗設(shè)置,通過實驗證明了本文所設(shè)計方法的有效性。

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集有兩種:①自行收集的單據(jù)數(shù)據(jù),由于數(shù)據(jù)未經(jīng)過其他形式的清洗,因而存在清晰模糊數(shù)據(jù)并存、背景復(fù)雜多樣、像素值跨度大等問題,使得收集的樣本數(shù)據(jù)十分復(fù)雜;②百度收集并處理的360k 數(shù)據(jù)集,數(shù)據(jù)樣式多,但數(shù)據(jù)樣式規(guī)整。本文針對中文數(shù)據(jù)進(jìn)行建模,主要收集中文文本數(shù)據(jù)集。

本文收集拍照的單據(jù)、pdf 合同圖像數(shù)據(jù),pdf 樣式的合同易于計算分析,文字為黑色、背景為白色,特征明顯,易于區(qū)分。主要分析單據(jù)數(shù)據(jù),按照背景劃分為3 種:①如圖1(c)所示模糊的灰色背景;②如圖1(a)所示藍(lán)色的存單;③如圖1(b)所示帶有紅印覆蓋的單據(jù)。此外,如圖1(a)約100 份單據(jù)中幾乎每張單據(jù)都會存在文本部分缺失的情況,如圖1(b)約100 多張單據(jù)中部分文本會被紅蓋住影響識別。剩余100 余張數(shù)據(jù)中都是文字模糊與背景像素接近的情況,在這類數(shù)據(jù)中也存在部分文本清晰的圖像數(shù)據(jù)。由于已經(jīng)訓(xùn)練好文本檢測模型,因此使用設(shè)計好的文本檢測模型截取數(shù)據(jù)集。在收集好數(shù)據(jù)集之后,將數(shù)據(jù)按照80%的訓(xùn)練集和20%的測試集進(jìn)行劃分。最后訓(xùn)練集有文本圖片2 176 張,測試集有480 張,在百度360k 的預(yù)訓(xùn)練模型上進(jìn)行微調(diào)。

本文針對手機(jī)拍照上傳的模糊圖像(尤其像素較低的手機(jī)),因此數(shù)據(jù)場景有限,但是為證明模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的有效性,本文還使用了百度整理的360k 中文數(shù)據(jù)集進(jìn)行實驗分析。其訓(xùn)練數(shù)據(jù)集有80%,測試數(shù)據(jù)集有20%,都是從各種書本上截取的文本數(shù)據(jù),經(jīng)過百度技術(shù)人員的處理,所有圖片數(shù)據(jù)寬高分別為280 和32,每個圖片10個文本。

3.2 實驗設(shè)置

本文的識別模型為CRNN,骨干網(wǎng)絡(luò)是VGG16[11],訓(xùn)練輪次為5 000 次,批次大小為32,初始學(xué)習(xí)率為0.000 1,優(yōu)化方法為Adam[12](其中betas 為(0.9,0.999)),學(xué)習(xí)率下降方法為按步下降[21],每500 輪下降為上一輪的80%。為保證實驗對比的公平性,在所有實驗中采用相同的設(shè)置。

3.3 實驗結(jié)果與比較

首先構(gòu)建基于VGG16 骨干網(wǎng)絡(luò)和BiLSTM 的CRNN 模型并進(jìn)行訓(xùn)練,在訓(xùn)練過程中分別使用3 種數(shù)據(jù)集加載方法計算模型識別準(zhǔn)確率和訓(xùn)練收斂速度,并進(jìn)行比較。實驗設(shè)置如下:①CRNN 模型使用數(shù)據(jù)標(biāo)準(zhǔn)化填充0 的數(shù)據(jù)加載方式;②CRNN 模型[1]使用不填充的直接放縮數(shù)據(jù)加載方式;③PPOCR 模型[2]使用數(shù)據(jù)標(biāo)準(zhǔn)化填充0 的數(shù)據(jù)加載方式;④CRNN 模型使用近似背景填充的數(shù)據(jù)集加載方式。

本文每訓(xùn)練500輪記錄一次實驗準(zhǔn)確率以進(jìn)行準(zhǔn)確率和收斂速度比較。實驗結(jié)果如圖5所示。

在本文數(shù)據(jù)集上,如圖5(a)所示,使用背景填充的數(shù)據(jù)加載方式不論是訓(xùn)練準(zhǔn)確度還是收斂速度都快于使用0填充的數(shù)據(jù)加載方式以及不進(jìn)行填充的數(shù)據(jù)放縮加載方式。圖5 中訓(xùn)練輪數(shù)乘以10 是真實訓(xùn)練輪數(shù),準(zhǔn)確率是百分比。從圖5(a)中可知,基于背景填充的方法在5 000 輪之前就已達(dá)到收斂,其準(zhǔn)確率為85.89%,基于填充0 的數(shù)據(jù)加載方法的CRNN 模型在第8 000 輪之前收斂準(zhǔn)確率為84.22%,基于不填充直接放縮的CRNN 模型在10 000 輪之前收斂準(zhǔn)確率為83.15%。實驗結(jié)果表明,均衡正負(fù)樣本后的數(shù)據(jù)加載方式不僅能夠更好地表現(xiàn)數(shù)據(jù)特征、有更高的準(zhǔn)確率,還能加快模型收斂速度。在百度360k 數(shù)據(jù)集上,如圖5(b)所示,所有設(shè)置與圖5(a)相同,表明使用本文數(shù)據(jù)加載方式準(zhǔn)確率高達(dá)99.37%,取得與PPOCR 極為相近的效果。但是,仍然比其他數(shù)據(jù)加載方式訓(xùn)練模型效果高,這表明在標(biāo)準(zhǔn)數(shù)據(jù)集上,面對大量清晰的文本圖片,本文模型仍然具有魯棒性。

3.4 不同正負(fù)樣本比例效果比較

本文設(shè)計的數(shù)據(jù)加載方式主要面向中文、模糊文本、復(fù)雜背景情況下的不定長文本數(shù)據(jù)識別,以下實驗結(jié)果是在收集的單據(jù)、合同數(shù)據(jù)集上進(jìn)行比較分析得到。

在證明近似背景填的數(shù)據(jù)加載方法均衡正負(fù)樣本后能夠提高模型識別準(zhǔn)確率后,正負(fù)樣本比例即填充背景后數(shù)據(jù)寬高比的選擇極為重要。本文選擇的是9(正負(fù)樣本比例為1∶1),為證明寬高比為9 時模型效果最佳,本文分別選擇寬高比為7、8、10、11、12 時的近似背景填充方法進(jìn)行比較。這里仍進(jìn)行5 000 次實驗,每500 次記錄一次準(zhǔn)確率。

如圖6 所示,寬高比為9 時,正負(fù)樣本比例1∶1,此時最為均衡,實驗效果最好,模型收斂速度也最快。寬高比為8和10 時識別準(zhǔn)確率分別達(dá)83.69%和83.57%,效果與寬高比為9 時最相近,寬高比再變大或者變小時準(zhǔn)確率效果相對較差。實驗證明,正負(fù)樣本最為均衡時(寬高比為9)模型識別準(zhǔn)確率最高。因此,固定寬高比大小設(shè)置為9,正負(fù)樣本均衡為1∶1時在實驗和理論上效果最好。

3.5 不填充比例效果比較

Fig.5 CRNN accuracy comparison圖5 CRNN準(zhǔn)確度對比

Fig.6 Approximate background filling effect under different aspect ratios圖6 不同寬高比下近似背景填充效果

設(shè)置不填充比例的原因有兩個:①盡量保證初始的正樣本數(shù)量,減少因為近似填充帶來的數(shù)據(jù)誤差;②由于較小比例差距的放縮不會使文字發(fā)生明顯形變,并且這種放縮屬于現(xiàn)實中存在的正常文本樣式,也會使數(shù)據(jù)集包含更多的文字樣本。但是不同程度的不填充比例,會得到不同程度的放縮樣本,因此針對不同的數(shù)據(jù)集可能會有不同的效果,對于不同的寬高比、不同的不填充比例也會有影響。因此,本文針對復(fù)雜背景下的不定長模糊文本數(shù)據(jù)進(jìn)行實驗,針對不同的不填充比例進(jìn)行比較,實驗結(jié)果如圖7所示。

Fig.7 Comparison of the realization effects of different unfilled ratios圖7 不同不填充比例的實現(xiàn)效果比較

由于本文設(shè)定的寬高比為9,以上下比例范圍2 作為不填充比例,這里以不填充比例為7、7.2、7.5、8 的實驗進(jìn)行比較。同樣地,訓(xùn)練5 000 輪,每500 輪記錄一次結(jié)果。如圖7 所示,在填充比例為7.8 時最快達(dá)到最高識別準(zhǔn)確率,在放縮比為7 時則效果最差,因為不填充比例離固定寬高比越大,則識別準(zhǔn)確度越低。在7.2 和7.5 時效果最為接近,再繼續(xù)訓(xùn)練得到的結(jié)果與不填充比7.8 的實驗結(jié)果極為相近。當(dāng)不填充比為8 時由于引入的原始數(shù)據(jù)量減少導(dǎo)致最后結(jié)果變差,因此本文針對收集的數(shù)據(jù)選取不填充比例在(7,8)之間,選定為7.8。

3.6 有效性分析

(1)近似背景填充有效性分析。本文設(shè)計的數(shù)據(jù)加載方式旨在解決模糊文本的識別問題,因為文本相對模糊甚至于部分文本與背景像素值相近,若直接進(jìn)行黑邊和白邊的填充會導(dǎo)致網(wǎng)絡(luò)計算時特征計算不準(zhǔn)確,造成識別時出現(xiàn)誤識別和多識別的問題。本文采用的近似背景填充方法是根據(jù)對數(shù)據(jù)的大量觀察、分析提出的設(shè)計思路,根據(jù)觀察發(fā)現(xiàn)文本圖像4 個角附近的背景信息最為明顯,因此在取到寬和高各為4 個像素點的左上邊緣區(qū)域時,像素中值最大的一個像素點必定是真實背景中存在的像素點。將該像素點作為背景填充,在訓(xùn)練和推理時對圖片進(jìn)行放縮后進(jìn)入網(wǎng)絡(luò)模型計算,以此保證網(wǎng)絡(luò)分析每個像素點時不會因為填充0/255 等與文本像素值十分相近而與背景像素值相差較遠(yuǎn)的問題導(dǎo)致誤識別和多識別問題的發(fā)生。

(2)正負(fù)樣本比例設(shè)定有效性分析。本文從經(jīng)驗和實際情況出發(fā),將正負(fù)樣本比例設(shè)定為近似1∶1。首先從經(jīng)驗出發(fā),從表1 可以觀察到,在設(shè)定不同寬高比時正負(fù)樣本比例不同,圖3 利用實驗證明,在設(shè)定寬高比為9,正負(fù)樣本比例近似1∶1 的情況下模型效果最好。從理論出發(fā),研究者們早期進(jìn)行圖像分類時也會保證不同類圖像的數(shù)量,從早期的貓狗數(shù)據(jù)集開始,假設(shè)以狗為正樣本,貓為負(fù)樣本,則兩種圖像數(shù)據(jù)的比例為1∶1,再到ImageNet 等多類數(shù)據(jù)集,都是保持各類圖像數(shù)量相等。當(dāng)出現(xiàn)正負(fù)樣本不均衡時,科學(xué)家們也會采用數(shù)據(jù)增強(qiáng)、采樣或較少數(shù)據(jù)的方式進(jìn)行樣本均衡。因此,本文樣本均衡設(shè)計也符合數(shù)據(jù)集收集和和處理的理論依據(jù)。

3.7 模型實際使用效果分析

本文是在真實應(yīng)用的模型構(gòu)建中提出的數(shù)據(jù)加載方法,因此以真實場景下的單據(jù)合同識別作為依據(jù)。由于是手機(jī)拍照,因而數(shù)據(jù)仍然存在模糊問題,目前已經(jīng)在測試環(huán)境下進(jìn)行測試。為驗證3 種數(shù)據(jù)加載方式的計算效果,在測試環(huán)境下用SpringBoot 后端進(jìn)行字段識別準(zhǔn)確率統(tǒng)計,根據(jù)識別的字段和糾錯的字段計算出每張圖片的識別準(zhǔn)確率然后取均值,獲得一段時間內(nèi)的計算準(zhǔn)確率。

本文在測試環(huán)境下使用100張未參與訓(xùn)練的新單據(jù)和合同數(shù)據(jù)進(jìn)行測試,經(jīng)過系統(tǒng)取數(shù)發(fā)現(xiàn),使用直接放縮的數(shù)據(jù)加載方式獲得平均為86.78%的實際準(zhǔn)確率,使用0 填充的數(shù)據(jù)加載方式獲得平均為88.89%的實際準(zhǔn)確率,使用本文設(shè)計的近似背景填充的數(shù)據(jù)加載方式獲得平均為94.44%的實際準(zhǔn)確率。

4 結(jié)語

通過實驗比較發(fā)現(xiàn),在使用CRNN 識別復(fù)雜背景、模糊文本的不定長數(shù)據(jù)集時,可使用近似背景填充的方法提高識別準(zhǔn)確率并加快訓(xùn)練收斂速度。相較于對圖像數(shù)據(jù)標(biāo)準(zhǔn)化后填充0 或者直接放縮這兩種方式,本文取背景像素點進(jìn)行近似背景填充的方法效果要好。結(jié)合不填充比例的輔助計算,目前本文模型在自己收集的數(shù)據(jù)集上效果比其他數(shù)據(jù)加載方式要好,甚至優(yōu)于PPOCR 的效果,在百度360k 標(biāo)準(zhǔn)數(shù)據(jù)集上,也取得不遜于PPOCR 的效果。在面臨一些復(fù)雜的不定長數(shù)據(jù)集訓(xùn)練時,可以使用這種背景填充的數(shù)據(jù)加載方式以均衡正負(fù)樣本,從而提高識別準(zhǔn)確率并加快訓(xùn)練收斂速度。

目前,本文使用的數(shù)據(jù)加載方式只是在語義上下文無關(guān)方法的CRNN 模型上進(jìn)行實驗,之后將用于一些語義上下文相關(guān)關(guān)方法(如SRN)進(jìn)行實驗。此外,針對OCR 系統(tǒng)優(yōu)化,將通過為模糊文本構(gòu)建高分辨率圖像的方式優(yōu)化數(shù)據(jù)集,并開展模糊文本的進(jìn)一步特征提取工作。

猜你喜歡
背景文本效果
“新四化”背景下汽車NVH的發(fā)展趨勢
按摩效果確有理論依據(jù)
《論持久戰(zhàn)》的寫作背景
在808DA上文本顯示的改善
迅速制造慢門虛化效果
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
晚清外語翻譯人才培養(yǎng)的背景
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 自偷自拍三级全三级视频 | 亚洲女同一区二区| 国产精品lululu在线观看| 青青青视频蜜桃一区二区| 波多野结衣无码AV在线| 一级香蕉人体视频| 久久综合色天堂av| 无码AV高清毛片中国一级毛片| 国产欧美性爱网| 亚洲国产欧美自拍| 九色视频一区| 人妻丝袜无码视频| 国产传媒一区二区三区四区五区| 中文字幕 日韩 欧美| 99re66精品视频在线观看| 精品国产网站| 九九九久久国产精品| 色综合久久无码网| 园内精品自拍视频在线播放| 这里只有精品在线| 精品小视频在线观看| 极品国产在线| 精品国产欧美精品v| 东京热一区二区三区无码视频| 日韩福利在线视频| 天堂亚洲网| 亚欧成人无码AV在线播放| 91久久国产热精品免费| 99久久精品无码专区免费| 青青草a国产免费观看| 久久综合丝袜长腿丝袜| 欧美亚洲国产精品久久蜜芽| 国产成人亚洲无吗淙合青草| 99久久99这里只有免费的精品| 999国产精品永久免费视频精品久久| 人妻一区二区三区无码精品一区 | 欧美一级黄色影院| 色噜噜中文网| 国产精品综合色区在线观看| 在线观看免费人成视频色快速| 亚洲高清在线播放| 亚洲成人动漫在线| 免费va国产在线观看| 少妇极品熟妇人妻专区视频| 国产激情影院| 日本欧美一二三区色视频| 国产专区综合另类日韩一区| 欧美一级99在线观看国产| 国产精品女人呻吟在线观看| 午夜高清国产拍精品| 亚洲成年人片| 伊人久久精品亚洲午夜| 91精品国产一区自在线拍| 国产成人精品三级| 亚洲视频四区| 国产精品女同一区三区五区| 日韩在线永久免费播放| 欧美日韩亚洲综合在线观看| 免费人成又黄又爽的视频网站| 日本在线国产| 日本午夜精品一本在线观看| 国产69精品久久久久妇女| 国产成人精品一区二区三区| 久久综合色播五月男人的天堂| 综合天天色| 亚洲精品高清视频| 亚洲一区二区三区香蕉| 91精品人妻一区二区| 亚洲综合中文字幕国产精品欧美| 亚洲中文精品久久久久久不卡| 影音先锋丝袜制服| 在线日韩日本国产亚洲| 一区二区三区在线不卡免费| 亚洲精品福利视频| 伊人大杳蕉中文无码| 国产高清不卡视频| 亚洲人成网站色7777| 潮喷在线无码白浆| 亚洲综合九九| 欧美国产综合色视频| 亚洲无码在线午夜电影| 亚洲无码免费黄色网址|