999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本檢測與識別在細粒度圖片分類中的應用①

2020-11-13 07:12:34倩,劉
計算機系統應用 2020年10期
關鍵詞:分類文本檢測

姜 倩,劉 曼

(北京工業大學 信息學部,北京 100124)

1 概述

隨著互聯網技術發展的越來越成熟,人們進行交流和傳遞信息變得更加方便快捷,可使用的方式也變得多樣化,更多的人使用圖片或者視頻來傳遞信息.而文字作為人們交流對話的媒介,是圖片和視頻中信息的主要表達形式,所以文本識別的重要性不言而喻.目前,文本識別已廣泛應用到地圖搜索,運單識別,證件識別等各種應用中,文本的智能化識別在帶來極大的便利的同時也極大的提高了工作的效率.在圖片分類領域中,細粒度分類作為圖片分類任務中的一個極其重要的分支,雖然圖片分類技術日趨成熟,利用深度學習卷積神經網絡的技術在ImageNet[1]比賽中圖片分類準確率可以達到99%.但是在細粒度的圖像分類中,由于不同種類的特征比較相似,常用的特征提取方法得到的準確率還沒有達到最優,仍有需求來打破瓶頸,使得其準確率能夠比肩成熟的圖片分類.因此,本論文中研究了文本識別在細粒度分類中的應用,我們將文本檢測與識別的算法應用于Con-text[2]數據集.Con-text是一個建筑物類圖片的數據集,包含咖啡店,洗衣店,餐廳等各類建筑物.從外觀上觀察這些建筑物并無太大差別,常用的提取圖片特征方法不能進行有效的區分,但建筑物外觀上的文字卻能夠很好的表征特點,通過分析文字可以得到該建筑物的類別,所以考慮將外觀上的文字信息作為特征的一部分.本文提出對該數據集進行文本識別,將自然場景下的文本識別技術應用到圖片分類中,有效的聯合文本信息和視覺信息,在很大程度上提高圖片識別的準確率.

在本文中,我們結合圖片分類和文本識別技術來完成圖像的細分類任務.使用卷積神經網絡對非文本圖片進行圖片分類,同時應用改進后的EAST[3]檢測算法對有文本圖片進行處理,得到文本的位置后使用CRNN[4]結合CTC[5]的方法進行文本的識別,再將識別到的文字進行分析后分類得到對應的建筑物類別,在一定程度上提升了分類的準確率.如圖1是本文的算法流程圖.

圖1 算法流程圖

本文后續的內容結構如下:第2 節介紹文本檢測與識別和圖片分類中常用的算法;第3 節介紹本文結合文本識別和圖片分類技術對Con-text 數據集進行細分類的算法;第4 節進行實驗結果的比較,展示文本識別在圖片細分類應用的效果.

2 相關研究

本文研究中,文本識別在圖片細分類中的應用包含文本檢測技術,文本識別技術,圖片分類技術,以及文本分類技術.

2.1 基于深度學習的文本檢測方法

在深度學習領域中,常用于文本檢測的方法一般分為3 種:基于邊界框回歸的方法,基于圖像分割的方法以及結合回歸和分割的方法.在邊界框回歸方法中,核心思想是將文本當成目標進行目標檢測的過程,和常見的目標檢測方法一樣,分為Two-stage 和One-stage兩種方法.Two-stage 方法有R2CNN[6],CTPN[7],RRD[8],IncepText[9],LOMO[10]等.One-stage 方法有:Seglink[11],Textboxes[12],Textboxes++[13],DMPNet[14],EAST 等.包含PSENet[15]以及CRATD[16]等基于分割方法的核心思想是將文本和背景切割開來,而回歸和分割組合方法的核心思想類似于Mask RCNN[17].以上3 種類型的算法都各有其特點和優勢,但為了權衡各方面的性能,基于邊界框回歸的方法是常用的方法.

2.2 基于深度學習的文本識別方法

在文本檢測完成后,根據預測得到的文本位置將文本區域提取出來識別.文本識別可分為單字符識別和行識別.在單字識別中,切割文本行得到單個字符送到卷積神經網絡訓練的單字符分類器中進行預測,連接單字符可得到目標區域識別的結果.在行識別中,文本檢測得到的文本框從圖片中截取出來后,利用卷積循環神經網絡CRNN 訓練得到一個基于文本行的預測模型.在行文本識別的訓練過程中,有兩種常用的方法,CRNN 結合CTC 的方法以及CRNN 結合Attention[18]的方法.由于在單字符切割中有可能會出現字符粘連以及字符被切斷的情況,后續會直接影響字符識別的效果,所以我們使用行文本識別的方法.

2.3 基于深度學習的圖片分類方法

圖片分類是深度學習計算機視覺領域中一個常見的任務.從2010~2017年間出現大量基于深度學習卷積神經網絡的算法來處理大規模的圖片分類.從最先出現的Lenet[19]到Alexnet[20],GoogleNet[21],VGGNet[22],以及ResNet[23]在ImageNet 比賽中獲得冠軍,圖片分類方法的發展在近幾年發展的相當迅速,越來越多的人投身到深度學習方向的研究上來.目前的深度學習模型的識別能力已經超過了人眼,圖像分類中使用的算法帶來的效果已經滿足了預先的期望,但實際應用中面臨著比大賽中更加復雜和現實的問題,在細粒度分類問題中,還未超越人類,仍有很大的發展空間.

2.4 常見的細粒度圖片分類方法和應用

細粒度圖片分類在圖片分類中是一個重要的研究方向,是在區分出基本類別的基礎上,對基本類別劃分得到更加精細的子類,是處理得到一個更精確分類的任務,如區分花的品種,鳥的種類、狗的品種和車的款式等,其業務需求和應用場景在工業界和實際生活中分布廣泛.現在通常使用的細粒度分類方法分為4 種,基于常規圖像分類網絡的微調方法,基于細粒度特征學習的方法,基于目標塊的檢測和對齊的方法以及基于視覺注意力機制的方法.

3 結合文本識別與圖片分類的細粒度圖片分類算法

在本文的研究中,我們使用的細粒度圖片分類方法中融合了文本檢測和識別與圖片分類的方法.具體流程可參考圖1,在流程圖中可以看出,研究中對有文本圖像的圖片進行文本檢測得到包含文本區域的圖片,利用識別算法進行圖像文本的行文本識別,后處理識別得到的結果進行文字分析并分類,同時對沒有文字的圖片進行圖片分類,經過以上的識別流程后圖片的分類正確率有大幅提高.在我們的研究中,文本檢測算法中改進了EAST 方法,使其檢測結果更加準確,在文本識別中改進CRNN 結合CTC 的方法,和單字識別相比有更好的識別效果,并設計文本分類的邏輯來優化分類結果,同時利用ResNet 進行非文本圖片的分類,最后疊加兩個結果得到最終的正確率.

3.1 文本檢測

在本文中采用優化EAST 的方法來進行文本檢測.EAST 將文本檢測轉換成一個目標檢測的任務,能夠實現對自然場景下傾斜文本的檢測,可以對單詞級別,行級別以及任意形狀的四邊形文本進行檢測.在EAST中,使用全卷積網絡(FCN[24])能夠直接回歸文本位置,得到文本框的位置以及其角度后,利用基于NMS[25]改進的Locality-Aware NMS 設置合適的閾值對候選區域進行篩選,過濾掉score 較低和重復的文本框,保留下來的就是經過EAST 檢測器得到的預測文本框.EAST因為能夠直接回歸文本框,所以速度相對較快,而且準確率也有提高,可以又快又好的檢測文本.

如圖2是EAST 的網絡結構,從圖中可以看出我們替換PVANet[26]為 ResNet,使用ResNet 進行特征提取.在卷積部分,經過4 層卷積后可以得到不同尺度的特征圖,這些多尺度的特征圖對實際場景中文本行的精準定位變得更魯棒.其中ealy stage 用來檢測小的文本行,late stage 用來檢測大的文本行.第二部分是特征融合層,使用U-net[27]的方法來進行特征融合,該部分的每一個層都進行上采樣操作,將上采樣得到的特征和特征提取層中卷積后與之得到的相同尺寸特征進行融合,通過此操作可以得到更多特征的信息.最后是網絡輸出層,輸出文本得分score 和預測框 RBOX的信息.

圖2 EAST 結構圖

但是由于EAST 在制作polygon 的時候采用了shrink_poly 的思想用于緩解標注帶來的誤差,制作mask 時對邊緣有shrink 的操作,在一定程度上避免了不可預測的誤差,采用的方法如下:

其中,lw表示mask 寬的長度,表示mask 縮放后寬的長度.

但隨之也會帶來邊界框預測不準的情況,所以我們針對邊緣的處理進行優化.短邊我們保持原來0.3 shrink 的比例,長邊保持0.1 shrink 的比例,方法如下:

通過此項改進后長邊邊緣字符被截斷的情況有所改善.并且我們在訓練集中加入任意角度的數據,加大對角度的學習,讓檢測模型更加魯棒,同時使得在提取特征時的效果更好.經過以上的優化后,EAST 的檢測效果相比之前有大幅提高.從表1中可以看出以上本文基于EAST 作出的兩個部分改進給文本檢測的效果帶來了明顯的提升.

表1 EAST 方法效果對比

3.2 文本識別

在本文中使用CRNN 結合CTC 的方法來進行文本識別.在該結構中,先使用卷積神經網絡CNN 來提取圖片的特征序列,然后使用RNN 對序列進行預測,最后利用CTC 轉錄層,將預測變為最終的標簽序列.需要注意的是,在將圖片輸入進模型之前,需要將圖片縮放到統一的高度.在CRNN 模型中,一般采用標準的CNN 網絡模型中的卷積層和最大池化層來構造卷積層網絡結構,用于從圖像中提取可以表征該類特征的序列,這些特征序列作為循環層的輸入.在CRNN 模型中使用深度雙向循環神經網絡LSTM[28],該循環網絡與卷積層連接,能夠得到不同的序列特征以及單個字符的序列信息,且使用的雙向的LSTM 能夠得到前后的的上下文信息,可以實現對任意長度的序列進行預測.最后的CTC 轉錄層用來接收循環層的輸出,即根據每幀預測找到具有最高概率的標簽序列,進而將標簽信息映射成字符信息.通過分析實際應用場景來訓練數據,本文訓練了一個針對英文分類的CRNN 模型,具體結構如圖3所示.

圖3 CRNN 結構圖

3.3 圖片分類

本文中使用ResNet 為baseline 進行非文本圖片的分類,ResNet 網絡的一個最大的特點就是引入了殘差塊,通過殘差網絡,我們構建很深的網絡出現過擬合的情況大大減少,而且其分類精度隨之提升.ResNet 中的殘差塊是與其他網絡結構最不相同的部分,其學習到的是目標值和輸入值的差值,即殘差.這種跳躍式的結構,打破了網絡結構的局限性,不再是傳統的神經網絡結構中前一層的輸出作為后一層的輸入,而是使得網絡結構中某一層的輸出可以直接跨過連續的幾層作為后面某一層的輸入,其意義在于使用多層網絡而使得整個學習模型的錯誤率不降反升的難題提供了新的方向.至此,神經網絡的層數可以不再受限于傳統網絡帶來的約束,除掉了局限性,其網絡層數可以達到幾十層、上百層甚至千層,且出現過擬合的情況大幅降低,一方面提高了精度另一方面為高級語義特征提取和分類提供了可行性.

3.4 文本分類

通過文本識別后得到的文本需要進行處理后才能進行分類.具體步驟如下:

1)分析和理解數據.分類之前要對不同建筑分類中出現的單詞進行統計,找到能夠代表該類建筑物的關鍵性詞語,即總結出每一類的主要關鍵詞.

2)改善識別后詞語的分類邏輯.除了完全匹配外,根據實驗結果分析得到,認定只要識別得到的字符按順序匹配,能達到關鍵字的50%就判定關鍵詞對應的分類即為該詞的分類.

3)若一張圖中有多處文字從而得到多個分類結果,取出現次數最多的分類,若出現的次數相同,取匹配占比最高的關鍵字對應的分類.

4 實驗結果和分析

4.1 數據集

為驗證算法的有效性,我們使用了Con-text 數據集,該數據集包含28 類街邊常見建筑物,共24255 張圖片,其中訓練集19404 張,測試集4851 張.數據集上有文字信息能夠很好的表征建筑物的分類,例如常見的“干洗店”,“咖啡店”,“餐館”,“折扣店”等這些建筑物上面都會有明顯的文字信息來區分.這28 類分別是:bakery,barbershop,bistro,bookstore,cafe,theatre,dry cleaner,computer store,country store,diner,discount house,pharmacy,funeral,hotspot,massage parlor,medical center,repair shop,motel,pawnshop,pet shop,pizzeria,tavern,repair shop,restaurant,school,steakhouse,teahouse 和tobacco shop.這些數據均為自然場景下拍攝的圖片,因為街邊建筑物必須要醒目,所以建筑物上面的文字字體較大且間隔也大,這給文字檢測帶來了一定的難度.同時,這些文字帶來的文字并非所有的都是有效信息,所有這也給文本分類帶來了一定的難度.

4.2 參數設置

在文本檢測訓練中,使用EAST 為baseline,使用隨機梯度下降訓練,其中動量和權值衰減系數分別設置為0.9 和5×10–4,最大迭代次數為10 萬次,學習率初始設置為10–3.該實驗在tensorflow 中訓練完成,訓練和測試圖像的尺寸都為512×512.

在文本識別的訓練中,使用CRNN 結合CTC 的方法,利用RMSProp 優化隨機梯度下降訓練,其中動量和權值衰減系數分別設置為0.9 和5×10–4.最大迭代次數為100 次,學習率初始設置為10–2.該實驗在Pytorch中訓練完成,訓練圖像的尺寸都為256×32.

在圖像分類的訓練中,使用RMSProp 優化隨機梯度下降訓練,其中動量和權值衰減系數分別設置為0.9 和5×10–4,最大迭代次數為10 萬次,學習率(learning rate)初始設置為10–2.該實驗在Pytorch 中訓練完成,訓練和測試圖像的尺寸都為224×224.

表2 各個分類的AP

4.3 性能指標

在常見的評價指標中,一般用3 個評價指標,分別為P(precision,準確率),R(recall,召回率)和mAP.其中mAP中AP表示任意一個種類的平均值,mAP為所有類的平均值.如式 (3),式(4),式(5)分別表示了P,R以及的AP的計算方式.

其中,P(i)和R(i)表示在當前數據中的指定類的P和R,n表示數據集中圖片的數量.

4.4 實驗結果分析

針對Con-text 數據集的測試,我們的結果與visual result 以及[2]進行對比,看表2可看出本文算法在在各個分類中的mAP,看表3可以得到單純的圖片分類算法結果以及結合文本檢測與識別的聯合算法得到的結果.從表2中可以看出,文字信息較少分類的mAP會比其他分類低,例如tea house,bistro 等.從表3中可以看出我們的方法和文獻[2]相比有明顯的提高,說明我們改進的方法有成果.但是從總體上來看,結合文本識別后的聯合算法比通常的圖片分類算法的mAP高,能夠將結果融合到更高的精度.這表示文本信息在分類中起到了重要的作用,在圖片的細分類任務中起到了強輔助作用.

表3 整體分類的mAP

雖然從結果上來看,準確率有了一定的提升,但是仍然還有上升空間.在文本檢測和識別中,我們采用的是two-stage 方法,識別強依賴于檢測結果,未來可采用one-stage 端到端的方法盡可能的規避中間誤差帶來的影響,或許能在一定程度上提升mAP.

5 結論

在此研究中,我們研究了文本檢測和識別的相關方法,并將其應用到了在圖片細分類中,將OCR 應用到了圖片分類中,提高了圖片分類的準確率,但是準確率仍舊不是很高,還有很大的提升空間.相信在未來會有更好的方法將文本檢測與識別和圖片分類算法結合來細分類圖片.

猜你喜歡
分類文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 国产成人综合久久| 高清无码不卡视频| 九九久久精品国产av片囯产区| 永久成人无码激情视频免费| 免费毛片全部不收费的| 日韩在线影院| 亚洲色图欧美视频| 日本高清在线看免费观看| 日本免费新一区视频| 青青久视频| 亚洲精品福利视频| 国产在线精品美女观看| 亚洲视频免费播放| 久久这里只有精品国产99| 91成人在线观看| 四虎国产精品永久在线网址| 不卡无码h在线观看| 在线99视频| 国产国产人在线成免费视频狼人色| 欧美福利在线播放| 国产一区成人| 澳门av无码| 中文一区二区视频| 欧美区日韩区| 精品国产一二三区| 中文字幕伦视频| 亚洲69视频| 日韩精品视频久久| 日本成人一区| 精品国产免费人成在线观看| 国产成人久久777777| 热久久国产| 手机看片1024久久精品你懂的| 欧美爱爱网| 亚洲欧美不卡视频| 日本道中文字幕久久一区| 无码aⅴ精品一区二区三区| 欧美亚洲第一页| 国产精品第一区在线观看| 久久精品无码专区免费| 1024国产在线| 色爽网免费视频| 中文字幕无码中文字幕有码在线| 热思思久久免费视频| 日本一区二区三区精品国产| 露脸国产精品自产在线播| 国产福利在线免费| 91极品美女高潮叫床在线观看| 中文字幕伦视频| 久久精品一卡日本电影| 国产精品视频猛进猛出| 国产精品99一区不卡| 久久国产高潮流白浆免费观看| 1024你懂的国产精品| 99热这里只有精品免费| 波多野吉衣一区二区三区av| 亚洲香蕉在线| 一级毛片免费不卡在线视频| 欧美日在线观看| 最新日本中文字幕| 久操线在视频在线观看| 国产精品一区在线麻豆| 国产国拍精品视频免费看| 天天综合网站| 蜜臀AV在线播放| 91精品视频网站| 国产综合另类小说色区色噜噜 | 中文字幕在线日韩91| 国产偷国产偷在线高清| 亚洲av片在线免费观看| 97在线观看视频免费| 国精品91人妻无码一区二区三区| a毛片基地免费大全| 亚洲无码37.| 久久精品丝袜| 免费全部高H视频无码无遮掩| 久久天天躁狠狠躁夜夜躁| 成人国产免费| 午夜性刺激在线观看免费| 青青草原国产免费av观看| 91无码人妻精品一区二区蜜桃| 国产美女精品在线|