999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

剪枝優(yōu)化的文本區(qū)域檢測(cè)算法*

2022-11-09 02:35:00周翔宇高仲合趙镥瑤魏家豪
關(guān)鍵詞:方向文本檢測(cè)

周翔宇 高仲合 趙镥瑤 魏家豪

(1.曲阜師范大學(xué)軟件學(xué)院 曲阜 273100)(2.南京理工大學(xué)自動(dòng)化學(xué)院 南京 210014)

1 引言

隨著計(jì)算機(jī)視覺領(lǐng)域的飛速發(fā)展,近年來出現(xiàn)了諸多基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法[1~2]應(yīng)用于圖像檢測(cè)領(lǐng)域。OCR技術(shù)[3]作為圖像檢測(cè)的重要分支,能夠快速?gòu)膱D像、視頻等非結(jié)構(gòu)化數(shù)據(jù)中提取文本內(nèi)容信息,被廣泛應(yīng)用于RPA工作系統(tǒng)、圖像文本解析系統(tǒng)、自動(dòng)信息錄入等業(yè)務(wù)場(chǎng)景下。

場(chǎng)景文本檢測(cè)在國(guó)內(nèi)外都有著廣泛的研究,基于紋理的方法將圖像中的文本區(qū)域看作一種特殊的紋理,進(jìn)行紋理特征[4]的提取。基于連通域的方法通過顏色、亮度聚類或極值提取等方法得到的候選連通域,常用的方法有MSER[5]等。混合方法結(jié)合兩類方法中的優(yōu)點(diǎn),具有較好的性能。Jain等[28]提出一種通過在輸入圖像上使用顏色聚類算法對(duì)候選連通域進(jìn)行分割的方法。該算法對(duì)于顏色特征依賴度過高,不適用于復(fù)雜的自然場(chǎng)景的文本區(qū)域定位。近年來,深度學(xué)習(xí)技術(shù)飛速發(fā)展,出現(xiàn)了Faster R-CNN[6]、SSD[7]、YOLO[8~10]等目標(biāo)檢測(cè)算法,并基于這些方法改進(jìn)出一系列文本檢測(cè)算法,如Jiang等提出的R2CNN[29]是基于Faster R-CNN針對(duì)文本區(qū)域?qū)ο蟮拈L(zhǎng)寬比變化大的問題提出的檢測(cè)方法。

當(dāng)下許多行業(yè)與文本檢測(cè)密不可分,如車牌識(shí)別、證件識(shí)別、票據(jù)識(shí)別等,都是文本檢測(cè)技術(shù)的應(yīng)用[11~13]。近年來隨著智能手機(jī)和相機(jī)等設(shè)備的發(fā)展,自然場(chǎng)景圖片數(shù)量飛速增長(zhǎng),其中的文本包含了豐富的信息[14~15],對(duì)自然場(chǎng)景圖片中的文本信息進(jìn)行檢測(cè)與識(shí)別有非常重要的意義[16]。

針對(duì)實(shí)際應(yīng)用場(chǎng)景中輸入圖片的多方向與檢測(cè)效果問題,本文提出了一種基于剪枝優(yōu)化的多方向文本區(qū)域檢測(cè)算法。該算法首先通過混合剪枝的方法改進(jìn)VGG16[17]進(jìn)行文本方向預(yù)測(cè)任務(wù),并使用OpenCV操作將輸入圖片調(diào)整為統(tǒng)一方向,然后通過級(jí)聯(lián)淺層信息的方法改進(jìn)YOLO實(shí)現(xiàn)文本區(qū)域定位任務(wù),得到文本區(qū)域,實(shí)現(xiàn)端到端的文本檢測(cè)任務(wù)。

2 圖片方向預(yù)測(cè)模型

VGG16是一個(gè)具有圖像分類功能的深度網(wǎng)絡(luò)模型,經(jīng)過實(shí)驗(yàn)驗(yàn)證對(duì)于本文的分類任務(wù)其遷移學(xué)習(xí)后具有良好的泛化性能,因此本文基于VGG16進(jìn)行優(yōu)化和改進(jìn)實(shí)現(xiàn)對(duì)圖片的文字方向預(yù)測(cè)。

由于VGG16具有較多的參數(shù)和較高的模型復(fù)雜度,而圖片方向預(yù)測(cè)時(shí)的分類任務(wù)相對(duì)簡(jiǎn)單,只需將待檢測(cè)圖片分成文本方向?yàn)?°、90°、180°、270°,如圖1所示。因此本文提出一種混合剪枝的方法,對(duì)VGG16進(jìn)行輕量化改進(jìn),在保證檢測(cè)準(zhǔn)確率的前提下有效減少模型的復(fù)雜度,使模型具有更快的計(jì)算速度和更小的訓(xùn)練開銷。

圖1 車牌檢測(cè)系統(tǒng)輸入圖片示例

2.1 混合剪枝算法

卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)成規(guī)模龐大,使用單一的模型壓縮方法雖然可以有效地在特定方面減少網(wǎng)絡(luò)模型的參數(shù)數(shù)量,但不具有通用性。通過混合使用多種類型的剪枝方式可以使模型壓縮率更高且具有較好的泛化性能,因此本文設(shè)計(jì)并實(shí)現(xiàn)了一種混合剪枝策略。

混合剪枝方法的算法流程如圖2所示。與多數(shù)剪枝算法僅是對(duì)層間、通道[18]或卷積核[19]進(jìn)行單一目標(biāo)修剪不同的是,本文同時(shí)對(duì)通道和卷積核進(jìn)行剪枝。本文方法對(duì)VGG16的三個(gè)全連接層進(jìn)行修剪。這是由于大型卷積神經(jīng)網(wǎng)絡(luò)模型中卷積層主要作用是提取圖像特征,對(duì)VGG16的卷積層部分進(jìn)行參數(shù)權(quán)重凍結(jié),從而減少了參數(shù)學(xué)習(xí)計(jì)算量,加速模型的訓(xùn)練效率和推斷效率。

圖2 混合剪枝流程圖

算法首先凍結(jié)VGG16的卷積層并進(jìn)行預(yù)剪枝。通過引入縮放因子的方法[18],將BN層的縮放因子λ與每一個(gè)通道關(guān)聯(lián)起來進(jìn)行訓(xùn)練,定義比例系數(shù)公式如下:

其中(x,y)表示訓(xùn)練輸入的樣本數(shù)據(jù),W表示需要訓(xùn)練的模型權(quán)重,g(γ)表示懲罰項(xiàng),本文使用的懲罰項(xiàng)定義為g(λ)=|γ|,即使用L1范數(shù)作為懲罰項(xiàng)進(jìn)行優(yōu)化。在訓(xùn)練的過程中,對(duì)比例系數(shù)逐漸變小的通道進(jìn)行修剪。

然后對(duì)網(wǎng)絡(luò)進(jìn)行二次剪枝,具體流程如算法2所示。此時(shí)的工作是懲罰排名低于閾值的卷積核,可表示為需要在全連接層(FC)中找到當(dāng)損失ΔC最小時(shí)對(duì)應(yīng)的卷積核參數(shù)子集W′。使用泰勒展開的標(biāo)準(zhǔn)[19]對(duì)網(wǎng)絡(luò)全連接層神經(jīng)單元的重要程度進(jìn)行驗(yàn)證,使用一階泰勒公式在參數(shù)i的輸出hi=0處展開求近似ΔC(hi),去掉高階項(xiàng),得到修剪后的特征圖,由此對(duì)全連接層卷積核參數(shù)的重要程度進(jìn)行驗(yàn)證,找出一組最優(yōu)參數(shù)子集。具體流程如算法1所示。

2.2 實(shí)驗(yàn)結(jié)果與分析

本文硬件實(shí)驗(yàn)環(huán)境為兩顆Intel Xeon CPU E5-2620,內(nèi) 存64G,GPU使 用 兩 張NVIDIA Ge-Force GTX 1080 Ti進(jìn)行加速運(yùn)算,每張顯存為11GB,軟件實(shí)驗(yàn)環(huán)境為Ubuntu 16.04及Python 3.7.1。

使用的數(shù)據(jù)集為ICDAR2013和自行采集的場(chǎng)景文本數(shù)據(jù)集TDS。相關(guān)信息如表1所示。劃分訓(xùn)練集和測(cè)試集,圖像按照文本方向分別為0°、90°、180°、270°四個(gè)類別進(jìn)行樣本生成。

表1 數(shù)據(jù)集信息

1)VGG16剪枝訓(xùn)練曲線分析

設(shè) 置epoch為500分 別 訓(xùn) 練VGG16、剪 枝VGG16模型,在多方向文本圖片數(shù)據(jù)集上訓(xùn)練,生成對(duì)應(yīng)的訓(xùn)練過程中準(zhǔn)確率(acc)和損失函數(shù)(loss)的變化圖像,如圖3所示。

圖3可以看出,VGG16訓(xùn)練600輪后收斂,loss值約為0.4,而剪枝后的VGG16經(jīng)過少數(shù)輪次訓(xùn)練后即可趨于收斂,loss值約為0.2,且準(zhǔn)確率可以達(dá)到95%,相比于原模型精度損失較少。剪枝后VGG16模型的準(zhǔn)確率接近VGG16且訓(xùn)練達(dá)到收斂用的輪次更少,因此剪枝后的VGG16的訓(xùn)練效率更高。

圖3 訓(xùn)練acc loss對(duì)比圖

2)與基礎(chǔ)方法對(duì)比與分析

綜合對(duì)比VGG16模型、文獻(xiàn)[18~19]中兩種模型、幾種主流模型與剪枝后的VGG16模型在本文數(shù)據(jù)集上的分類準(zhǔn)確率、模型文件大小、單圖推斷時(shí)間指標(biāo),如表2所示。

表2 VGG16剪枝前后對(duì)比

表2可以看出,文獻(xiàn)[18]中的方法雖然能夠大幅度縮減模型大小和單圖推斷時(shí)間,但分類準(zhǔn)確率受影響較大。文獻(xiàn)[19]中的方法能夠在準(zhǔn)確率影響范圍較小的前提下提升模型的性能,但單圖推斷時(shí)間較長(zhǎng)。本文提出混合剪枝策略優(yōu)化后的VGG16的模型文件大小顯著壓縮,推斷時(shí)間有明顯提升,且準(zhǔn)確率良好,對(duì)之下綜合性能優(yōu)于其他模型。

2.3 小結(jié)

本節(jié)實(shí)現(xiàn)一個(gè)適用于文本方向預(yù)測(cè)的經(jīng)過剪枝優(yōu)化后的VGG16四分類模型。相比于原模型,在預(yù)測(cè)精度差別不大的前提下,達(dá)到有效壓縮模型參數(shù),提高模型效率的作用。

3 文本區(qū)域定位模型

使用YOLO目標(biāo)檢測(cè)算法進(jìn)行文本區(qū)域定位任務(wù)。針對(duì)YOLO v3的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,對(duì)網(wǎng)絡(luò)的淺層信息利用不充分問題進(jìn)行改進(jìn),使網(wǎng)絡(luò)的訓(xùn)練效率提升,并通過實(shí)驗(yàn)結(jié)果分析說明改進(jìn)方法的有效性和可行性。

3.1 YOLO v3模型分析

YOLO v3的特征提取網(wǎng)絡(luò)模型龐大而豐富,前面0~74層為卷積層和Res層組合,用來進(jìn)行特征提取,后面75~105層為yolo層,具備檢測(cè)功能。在檢測(cè)層中,采用特征金字塔(FPN)[20~21]的思想,用于檢測(cè)的三個(gè)不同尺度(Scale1、2、3)的特征圖均來自殘差結(jié)構(gòu)的后三組殘差塊,并且后三組殘差塊在網(wǎng)絡(luò)結(jié)構(gòu)中的的使用數(shù)量大于前兩個(gè)殘差塊,造成網(wǎng)絡(luò)中的淺層空間信息丟失嚴(yán)重,從而存在對(duì)淺層信息利用不充分的問題。由此,淺層信息的大量丟失勢(shì)必會(huì)影響到整體的檢測(cè)效率與準(zhǔn)確率。

針對(duì)YOLO中存在的由于淺層信息丟失影響檢測(cè)性能這一問題進(jìn)行改進(jìn),提出一種基于級(jí)聯(lián)淺層信息的新模型,用于本文的檢測(cè)任務(wù)。

3.2 改進(jìn)的YOLO模型

在網(wǎng)絡(luò)的特征提取過程中,為了使淺層信息利用更加充分、在整個(gè)卷積操作過程中丟失較少的特征信息,本文采用了級(jí)聯(lián)(Concat)操作。級(jí)聯(lián)操作的具體數(shù)學(xué)原理,如下公式所述:

其中,X1,X2,…XC和Y1,Y2,…YC分別為兩路輸入的通道,“*”代表卷積操作。卷積之后的特征圖有三個(gè)維度:寬、高和通道,本文將級(jí)聯(lián)應(yīng)用在通道維度,保證原本存儲(chǔ)在寬度和高度中的深層與淺層信息不受影響。

具體地,將第一個(gè)殘差塊卷積出來的特征圖和第二個(gè)殘差塊卷積出來的特征圖分別和最后一個(gè)殘差塊卷積出來的特征圖、倒數(shù)第二個(gè)殘差塊卷積出來的特征圖做級(jí)聯(lián),使最后輸出的特征圖包含深層文本信息和淺層空間信息。級(jí)聯(lián)操作的使用避免了直接相加對(duì)內(nèi)存產(chǎn)生的壓力和對(duì)信息造成的負(fù)面影響,并且逐元素加和的方式要求不同層的特征圖具有完全一致的通道數(shù)量。C-YOLO模型中采用的級(jí)聯(lián)是將淺層卷積出來的特征圖和深層的卷積出來的特征圖在通道維度進(jìn)行拼接,這樣保證級(jí)聯(lián)之后的特征圖具備:1)淺層特征圖具備更豐富的空間信息;2)深層特征圖具備更豐富的文本信息。

如此,網(wǎng)絡(luò)模型中的Scale1和Scale2在原本具有大感受野和豐富的文本信息的基礎(chǔ)上也同時(shí)具備淺層的空間信息,方便實(shí)現(xiàn)對(duì)文本的精確定位,為接下來的檢測(cè)操作提供支撐,提高檢測(cè)的準(zhǔn)確率。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 C-YOLO網(wǎng)絡(luò)結(jié)構(gòu)

3.3 實(shí)驗(yàn)結(jié)果與分析

分別對(duì)原始YOLO v3和本節(jié)改進(jìn)后的YOLO v3進(jìn)行訓(xùn)練,通過訓(xùn)練過程中損失函數(shù)來衡量實(shí)驗(yàn)結(jié)果。

1)C-YOLO訓(xùn)練曲線分析

訓(xùn)練設(shè)置epoch數(shù)量為300,batch_size大小為32,學(xué)習(xí)率為0.001。圖5(a)是原始YOLO模型訓(xùn)練的loss曲線,圖5(b)是C-YOLO模型訓(xùn)練的loss曲線。

分析圖5可知,由曲線橫軸可以看出,C-YOLO模型在訓(xùn)練150輪左右收斂,而未改進(jìn)的網(wǎng)絡(luò)在190輪左右收斂,C-YOLO網(wǎng)絡(luò)模型收斂速度更快。由曲線縱軸可以看出,改進(jìn)后的網(wǎng)絡(luò)收斂后loss在8.7左右,而未改進(jìn)的網(wǎng)絡(luò)在12左右,改進(jìn)后的網(wǎng)絡(luò)模型訓(xùn)練loss值更小。

圖5 訓(xùn)練loss曲線

3.4 小結(jié)

本節(jié)使用提出的C-YOLO模型實(shí)現(xiàn)了文本區(qū)域定位任務(wù)。選擇YOLO v3網(wǎng)絡(luò)作為基礎(chǔ)特征提取網(wǎng)絡(luò),通過級(jí)聯(lián)淺層信息的方法優(yōu)化原網(wǎng)絡(luò)結(jié)構(gòu),得到一個(gè)高效準(zhǔn)確的改進(jìn)模型。相比于原方法,訓(xùn)練效率明顯提升,結(jié)果準(zhǔn)確率和召回率較好。

4 組合方向預(yù)測(cè)及區(qū)域檢測(cè)方法

4.1 檢測(cè)流程

聯(lián)接剪枝VGG16文本方向預(yù)測(cè)模型和C-YOLO文本區(qū)域定位模型實(shí)現(xiàn)端到端的文本區(qū)域檢測(cè)流程圖像處理邏輯如圖6所示。

圖6 圖像處理邏輯

使用者上傳圖像至預(yù)先啟動(dòng)的檢測(cè)服務(wù)中,首先通過文本方向預(yù)測(cè)模型進(jìn)行圖像方向的預(yù)測(cè),調(diào)用剪枝VGG16模型預(yù)測(cè)出文本的方向,并使用OpenCV對(duì)于非正向的圖像進(jìn)行旋轉(zhuǎn)操作,輸出文字方向?yàn)檎虻膱D像處理結(jié)果。然后將經(jīng)過旋轉(zhuǎn)處理后的正向圖片進(jìn)行臨時(shí)存儲(chǔ),同時(shí)調(diào)用文本區(qū)域定位的函數(shù),最后調(diào)用C-YOLO文本區(qū)域定位模型并輸出最終的文本區(qū)域檢測(cè)結(jié)果。

4.2 檢測(cè)結(jié)果展示

圖7為本文方法在ICDAR2013和TDS數(shù)據(jù)集上的部分檢測(cè)結(jié)果。數(shù)據(jù)集中圖片均按四種方向相同比例調(diào)整,通過基于耦合改進(jìn)VGG16和YOLO的文本檢測(cè)方法后可以得到較為準(zhǔn)確的檢測(cè)效果。

圖7 系統(tǒng)在ICDAR2013 TDS數(shù)據(jù)集上的部分檢測(cè)結(jié)果

4.3 小結(jié)

本節(jié)將剪枝后的VGG16與C-YOLO模型進(jìn)行耦合,得到一種適用于多場(chǎng)景的文本檢測(cè)方法。輸入的多方向圖片首先通過剪枝后的VGG16進(jìn)行快速高效的方向分類任務(wù),并使用OpenCV操作調(diào)整為正向,然后通過C-YOLO模型進(jìn)行高效的文本區(qū)域定位,最終完成了一個(gè)端到端的高效文本檢測(cè)流程。

5 結(jié)語(yǔ)

文本檢測(cè)技術(shù)的應(yīng)用日益廣泛,多數(shù)文本檢測(cè)算法不僅完成了文本區(qū)域定位這一單一任務(wù),而實(shí)際的應(yīng)用系統(tǒng)中還存在輸入圖片方向混亂的問題。因此本文設(shè)計(jì)并實(shí)現(xiàn)了一種端到端的適用于多種場(chǎng)景的文本檢測(cè)方法,使用剪枝算法優(yōu)化后的VGG16網(wǎng)絡(luò)進(jìn)行圖片分類任務(wù),C-YOLO網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取與定位任務(wù),實(shí)現(xiàn)了圖片方向預(yù)測(cè)和文本區(qū)域定位的任務(wù),并通過耦合兩個(gè)算法模塊實(shí)現(xiàn)了一個(gè)完整的多方向文本區(qū)域檢測(cè)流程。實(shí)驗(yàn)結(jié)果表明,提出的方法可以應(yīng)用于多數(shù)場(chǎng)景下的文本檢測(cè),且效果較好。此外,在傾斜文本檢測(cè)方面還需進(jìn)一步優(yōu)化,這也是本文的下一步研究方向。

猜你喜歡
方向文本檢測(cè)
2022年組稿方向
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
2021年組稿方向
2021年組稿方向
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 青青久在线视频免费观看| 亚洲国产天堂久久综合226114| 国产清纯在线一区二区WWW| 在线va视频| 国产精品制服| 无码中文AⅤ在线观看| 无码在线激情片| 免费中文字幕一级毛片| 午夜不卡视频| 黄色免费在线网址| 欧美午夜网站| 一级毛片免费观看不卡视频| 欧美不卡在线视频| 亚洲精品片911| 一级毛片在线播放免费| 国产91丝袜在线播放动漫| 欧美激情伊人| 色欲色欲久久综合网| 72种姿势欧美久久久大黄蕉| 婷婷色一二三区波多野衣| a级毛片免费看| 日韩小视频网站hq| 一级做a爰片久久毛片毛片| 中文无码精品a∨在线观看| 全免费a级毛片免费看不卡| 亚洲精品午夜天堂网页| 在线va视频| 五月激情综合网| 久久久久青草大香线综合精品| 免费一极毛片| 欧美一级大片在线观看| 精品国产网站| 国产麻豆精品在线观看| 国产精品亚洲一区二区三区z| 亚洲欧美日韩色图| 国产黄色片在线看| 日韩人妻无码制服丝袜视频| 日韩午夜伦| 青青操视频在线| 国产97视频在线| 国产一区二区三区在线观看视频 | 国产欧美中文字幕| 国产在线观看一区二区三区| 国产色婷婷| 五月天综合网亚洲综合天堂网| 国产美女91呻吟求| 日韩国产高清无码| 国产成人精品无码一区二| 亚洲第一极品精品无码| 成人在线观看不卡| 国产在线精品香蕉麻豆| 国产黑丝视频在线观看| 污网站在线观看视频| 九色视频一区| 99久久国产综合精品女同| 精品久久久久久中文字幕女| 欧美19综合中文字幕| 青青青伊人色综合久久| 波多野结衣中文字幕一区二区| lhav亚洲精品| 亚洲性影院| 最新痴汉在线无码AV| v天堂中文在线| 国产成人高清精品免费5388| 99热这里只有精品免费国产| 爽爽影院十八禁在线观看| 国产一区二区三区夜色| 亚洲系列中文字幕一区二区| 国产一区二区三区夜色| 日本不卡在线播放| 亚洲香蕉在线| 欧美日本在线观看| 国产精品视频a| a级毛片毛片免费观看久潮| 婷五月综合| 国产三级a| 在线观看免费人成视频色快速| 色综合久久88| 国产青榴视频在线观看网站| 91久久性奴调教国产免费| 国产农村1级毛片| 在线观看国产精品第一区免费|