999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本與視覺信息的細粒度圖像分類

2019-08-08 07:40:16袁建平陳曉龍陳顯龍何恩杰張加其高宇豆
圖學學報 2019年3期
關鍵詞:分類特征文本

袁建平,陳曉龍,陳顯龍,何恩杰,張加其,高宇豆

基于文本與視覺信息的細粒度圖像分類

袁建平1,陳曉龍1,陳顯龍1,何恩杰1,張加其2,高宇豆2

(1. 北京恒華偉業科技股份有限公司,北京 100011;2. 華北電力大學控制與計算機工程學院,北京 102206)

一般細粒度圖像分類只關注圖像局部視覺信息,但在一些問題中圖像局部的文本信息對圖像分類結果有直接幫助,通過提取圖像文本語義信息可以進一步提升圖像細分類效果。我們綜合考慮了圖像視覺信息與圖像局部文本信息,提出一個端到端的分類模型來解決細粒度圖像分類問題。一方面使用深度卷積神經網絡獲取圖像視覺特征,另一方面依據提出的端到端文本識別網絡,提取圖像的文本信息,再通過相關性計算模塊合并視覺特征與文本特征,送入分類網絡。最終在公共數據集Con-Text上測試該方法在圖像細分類中的結果,同時也在SVT數據集上驗證端到端文本識別網絡的能力,均較之前方法獲得更好的效果。

計算機視覺;細粒度圖像分類;場景文本識別;卷積神經網絡;注意力機制

圖像分類是計算機視覺領域的一個經典研究課題,其中細粒度圖像分類是一項極具挑戰的研究任務。不同于一般粗粒度圖像分類任務,細粒度圖像的類別精度更加細致,類間差異更加細微,往往只能借助于微小的局部差異才能區分出不同的類別。與人臉識別等對象級分類任務相比,細粒度圖像的類內差異更加巨大,存在著姿態、光照、遮擋、背景干擾等諸多不確定因素,分類任務難度較大。而細粒度圖像分類無論在學術界還是工業界都有著廣泛的研究需求與應用場景[1]。例如在生態保護中,需要有效識別不同種類生物,之前都只能依賴專家知識,研究成本大。如果能實現低成本細粒度圖像分類,那么無論對學術界還是工業界都有非常重要的意義。

對于細粒度圖像,能夠幫助圖像分類的信息往往只存在于很細小的局部區域中。因此,如何找到并有效利用有用的局部區域信息,成為了決定細粒度圖像分類算法成功與否的關鍵所在。早期的方法嚴重依賴人工標注信息,包括標注框(bounding box)和局部區域位置(part locations)等,同時使用了人工提取的圖像特征,很大程度上制約了該算法的實用性。近年來,深度學習日益發展,使得之前很多研究問題有了新的解決方法。越來越多的研究不使用標注信息,僅僅使用圖像標簽來進行圖像分類,并且從深度卷積神經網絡(deep convolution neural network,DCNN)中提取特征,比人工特征擁有更強大的描述能力[2]。之后DONAHUE等[3]提出DeCAF,將大數據集上訓練的深度神經網絡遷移到小數據集上再訓練,結果在鳥類數據庫圖像細分類任務中表現不錯。在使用深度學習方法基礎上,一些圖像細分類問題中,局部信息包含大量與圖像類別之間有關聯關系的文字,因此本文將圖像視覺信息與圖像中局部文字信息結合,共同參與細粒度圖像分類。同時圖像文本之間有一定的語義信息,而該信息能夠更好地反映圖像的類別。

本文設計了一個端到端的訓練模型,幫助進一步提升圖像細分類的效果。模型首先使用DCNN提取圖像的視覺信息,再利用基于注意力機制的文本識別網絡從圖像局部區域(圖像的文字區域)提取文字信息,然后使用雙向循環神經網絡學習文本之間信息,計算文本行與圖像相關性,剔除不相關文本串,最后結合視覺特征信息與文本特征信息獲得圖像最終的分類結果。

1 相關工作

1.1 圖像分類

由于卷積神經網絡(convolution neural network,CNN)在圖像問題上具有天然優勢,加上最近幾年DCNN的快速發展,出現了很多優秀的卷積網絡模型,使得基于DCNN的圖像分類算法效果越來越好。雖然CNN模型對于粗粒度的圖像分類可以獲得很好的分類效果,但是對于細粒度圖像分類目前仍然是一個具有挑戰性的任務。目前對于細粒度圖像分類問題,主要分為基于強監督信息和弱監督信息2類模型。其中基于強監督信息的細粒度分類模型,如:基于部分的區域卷積神經網絡模型(part-based regions with convolution neural network,Part-based R-CNN)4],該模型利用R-CNN算法對細粒度圖像進行物體級別(如鳥)與其局部區域(頭、身體等部位)的檢測,但Part-based R-CNN在訓練和測試時都需要借助邊界框和標注點,限制了其在實際場景中的應用。基于弱監督信息的細粒度圖像分類模型,如:基于整體與部分兩層的注意力模型(two level attention model)[5],主要關注物體主體和部分2個不同層次的特征,同時模型并不需要數據集提供標注信息,完全依賴于本身的算法來完成物體和局部區域的檢測。最近提出的一種基于弱監督信息分類模型(object-part attention driven discriminative localization for fine-grained image classification,OPADDL)[6]不需要大量邊界框與標注點即可檢測到目標區域,同時保持了對象主體與部分之間的關聯性,防止生成的多個部分包含大量背景區域的同時,又防止區域之間互相嚴重重疊。這些工作對細粒度對象分類有一定的幫助,但并未考慮將圖像中的文本信息用于圖像分類。文獻[7]雖然將視覺信息與文本信息結合應用到圖像細分類問題中,并提出一個端到端的分類網絡獲得較好的效果,但是只考慮到圖像中單詞與圖像之間的關系。本文在其模型基礎上做出改進,將圖像中的文字之間的關系考慮進來,進一步提升模型細分類的能力。

1.2 文本檢測與識別

文本檢測與識別問題在深度學習方法出現之前,手工提取特征為主要解決問題的思路。期間組件級別(如筆畫寬度變換,stroke width transform,SWT[8]),最大極致穩定區域(maximally stable extremal regions,MSER[9])、字符級別[10]都是通過手工定義特征,包括基于連通區域的方法,以及基于方向梯度直方圖(histogram of oriented gradient, HOG)特征的檢測框描述方法。而深度學習方法之后,擺脫了手工定義特征繁瑣的工作,使得效率獲得很大的提升。目前文本檢測模型在深度學習中主要基于建議區間與基于圖像分割2種方向。其中前者使用比較廣泛。

在基于建議區間的方法中,如:基于聯結主義的文本區間建議網絡(connectionist text proposal network,CTPN)[11]、基于快速區域卷積神經網絡(faster regions with convolution neural network,Faster R-CNN)的方法,針對文字形狀和一般物體形狀的區別,實現了文字水平方向上非常好的識別效果。文獻[12]實現了文本端到端的識別,提出了針對文字串的對稱性特征,與傳統方法不同,不通過檢測字符、筆畫來確定文字區域,而是直接檢測文字串,但該方法速度很慢。而文獻[13]將Faster R-CNN中的感興趣區域池化層(regions of interest,RoI pooling)替換為可快速計算任意方向的模塊,對文本進行自動處理,提升了檢測速度。另有文獻[14]考慮到文本在圖像中更多的是不規則多邊形輪廓,提出在生成建議框之后回歸一個任意多邊形而不是去回歸一個矩形框,并且在單方向多框架檢測(single shot multi box detector,SSD)[15]的框架基礎上,將回歸邊界框和匹配都加入到網絡結構中,取得了較好的識別效果并且兼顧了速度。基于圖像分割的方法中,同樣有很多不錯的方法。比如,文獻[16]將文本行視為一個需要分割的目標,通過分割得到文字的顯著性區域(salience map),獲取到文字大概位置、整體方向及排列方式,再結合其他特征進行高效的文字檢測。同時CNN可以同時預測字符的位置及字符之間的連接關系,這對定位文字具有很好的幫助。在實現文本端到端的識別問題中,目前文獻[17]獲得了較先進的結果,其基于Faster R-CNN將文本檢測網絡與文本識別網絡整合到一起,實現端到端的文本識別,同時將注意力機制[18]用于自己的文本識別網絡中。本文在文 獻[17]提出的識別模型基礎上,將文本檢測網絡CTPN與基于注意力(attention)的序列到序列文本識別網絡整合設計,提出一種端到端的文本識別網絡,用于提取圖像中的文本信息。

1.3 注意力機制

在引入注意力機制之前,圖像識別或語言翻譯都是直接把完整的圖像或語句直接輸入,然后給出輸出結果。如果圖像縮放成固定大小,便會引起信息的丟失,為此引入注意力機制使得模型關注更加感興趣的地方[19]。注意力機制廣泛應用于多個領域,如自然語言處理、語音識別、機器翻譯、文本識別等,目前大多數注意力模型都附著在編碼-解碼(encoder-decoder)框架下,如文獻[20]將注意力機制用于文本識別方面,使用的就是這樣的架構。在文本處理和語音識別方面,encoder 部分通常采用循環神經網絡(recurrent neural network,RNN)模型,圖像處理方面一般采用 CNN 模型。同時注意力機制也在計算機視覺領域中引起越來越多的關注。在計算機視覺領域,注意力機制有各種不同形式的實現,可以大致分為軟注意力機制(soft attention)和硬注意力機制(hard attention)。Soft attention如文獻[18],其是可微的,可以通過反向傳播訓練。而Hard attention 需要預測關注的區域,通常使用強化學習來訓練。在文獻[7]中引入注意力機制自動分析文本與圖像之間的相關性,有助于選擇圖像中相關性最大的單詞來進行細粒度的分類。本文在文本識別網絡與文本相關性計算都應用注意力機制,在文本識別中,主要目的是快速學習文本序列,而文本與圖像關系中,主要是學習與圖像相關度最大的文本,去除圖像本身或文本識別過程中的噪音。

2 視覺與文字信息融合分類模型

本文模型主要分為視覺特征提取、端到端文本識別與基于注意力機制的文本相關性計算3個模塊。模型主要架構圖如圖1所示。

圖1 模型主架構圖

(1) 使用預訓練的DCNN提取圖像的視覺特征,同時為了最大程度減少計算量,該視覺特征又共享到文本識別網絡與最后的分類網絡中。其中在視覺特征提取模塊中,本文使用預訓練的DCNN模型,但只保留特征提取部分。

(2) 視覺特征傳輸到端到端的文本識別網絡(end-to-end recognition network),不同于一般的文本識別網絡將文本檢測與文本識別分開,在本文中使用一種端到端的網絡結構。該網絡以CPTN[11]網絡結構為基礎,添加基于注意力的文字識別網絡,完成對圖像文字的端對端識別。文本檢測網絡(text detection network,TDN)模塊主要實現圖像的文本檢測,RoI pooling主要將檢測到的文本區域與視覺特征結合,并送入文本識別網絡(text recognition network,TRN)模塊進行文本識別。

(3) 將識別到的文本行信息送入相關性計算模塊(correlation calculation)中,模塊給出文本與圖像的相關權重,同時去除識別噪聲。

(4) 將圖像視覺信息與文本信息共同送入分類網絡,獲得最終的圖像分類結果。

2.1 深度卷積神經網絡提取視覺特征

視覺幾何組網絡(visual geometry group net,VGGNet)是從亞歷克斯網絡(Alex-net)發展而來,其在基礎的DCNN上做了改進,使用更小的濾波器尺寸和間隔,同時在整個圖片和多尺度上訓練和測試圖片。其中使用多個小尺寸濾波器組合相比一個大尺寸濾波器效果要好。主要表想在:

(1) 多個卷積層與非線性的激活層交替的結構,比單一卷積層的結構更能提取出深層的更好的特征。

(2) 若所有的數據有個通道,那么單獨的7×7卷積層將會包含7×7×=49個參數,而3個3×3的卷積層的組合僅有個3×(3×3×)=27個參數。由此可以看出選擇小濾波器的卷積組合更能表示特征。

(3) VGGNet中使用了1×1的濾波器,能在不影響輸入輸出維數的情況下,對輸入線進行線性形變,然后通過Relu進行非線性處理,進而增加網絡的非線性表達能力。

正是由于其在少量參數下模型優秀的表征能力,本文使用預訓練的VGGNet16網絡模型提取圖像的表示特征,并同時舍棄VGGNet網絡模型中的全連接層,主要由于VGGNet模型中全連接層參數占很大一部分,而去掉全連接層又對模型表征能力沒有什么影響。通過DCNN提取的特征在本文模型后續計算中有很大的幫助,一方面圖像表示特征被送入文本檢測與識別網絡,用來確定圖像中的文字區域以及識別文本,另一方面特征又被送入相關度度量模塊計算圖像文本與圖像的相關度,最后又送入分類網絡進行信息融合分類。

2.2 構建TDN

TDN以Faster RCNN網絡為基礎,參考CTPN網絡結構。CTPN模型是第一個將RNN引入檢測問題,使得對圖像的檢測結果不是在字符級別,而是在行級別,對于學習圖像中的文本語義信息更有幫助。檢測網絡的主要結構圖如圖2所示。

圖2 文本區域檢測模型圖

(1) 使用VGGNet16網絡獲得卷積層輸出的特征圖(××,對應寬度×高度×通道數)。在輸出特征圖的每個位置上取3×3×的窗口的特征,用于預測該位置k(本文設置k=10)個anchor(anchor的定義和Faster RCNN類似)對應的類別信息、位置信息。

(2) 將每行的所有窗口對應的3×3×的特征(×3×3×)輸入到雙向長短期記憶網絡(bidirectional long short-term memory,BLSTM)中,得到×256的輸出。將BLSTM的×256輸入到512維的全連接層。

(3) 全連接層再將特征輸入到3個分類層中。2k scores表示的是k個anchor的類別信息(不同于Faster RCNN,本文只有2類,字符與非字符)。2k vertical coordinate和k side-refinement是用來回歸k個anchor的位置信息。2k vertical coordinate表示邊界框的高度和中心點軸坐標(以此決定上下邊界),個side-refinement表示邊界框的水平平移量。本文只用了3個參數表示回歸的bounding box,因為本文默認了每個anchor的寬度是16,且不再變化。

(4) 將文本/非文本分數大于0.7作為正錨點,得到固定寬度的小規模文本建議框,再利用文本行構造算法[11],將多個相鄰的文本建議合并成一個文本行用于后續的文本識別。

2.3 構建TRN

首先RoIpooling模塊依據回歸之后的文本建議框與卷積層輸出的特征圖得到要識別文本的特征;之后將高度固定、長度不同的文本特征送入BLSTM中獲取到固定長度()的文本特征表示,適應不同長度的文本識別;將統一長度的文本特征送入圖3所示的文本識別模型中。

圖3 文本識別模型圖

文本識別模型主要基于軟注意力機制檢測窗口中的文本信息,其不用預先對文字進行分割,并且可以通過反向傳播的方式優化損失函數。模型具體流程如圖3。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲无码视频喷水| 黄色污网站在线观看| 久久黄色视频影| 亚洲A∨无码精品午夜在线观看| a毛片在线免费观看| 国产黄在线免费观看| 亚洲AV一二三区无码AV蜜桃| 亚洲av无码成人专区| 免费a在线观看播放| 欧美另类一区| 99热这里只有精品5| 有专无码视频| 国内丰满少妇猛烈精品播| 久久精品最新免费国产成人| 亚洲视频免费播放| 欧美日韩一区二区在线免费观看 | 无码'专区第一页| 亚洲天堂2014| 91色在线观看| 亚洲h视频在线| 日a本亚洲中文在线观看| 日韩精品亚洲一区中文字幕| 亚洲永久色| 99热这里只有精品2| 少妇精品网站| 国产理论最新国产精品视频| 日韩成人午夜| 综合久久久久久久综合网| 国产国模一区二区三区四区| 色综合天天操| 全色黄大色大片免费久久老太| 99re免费视频| 五月天在线网站| 国产亚洲欧美日韩在线一区二区三区| 中文字幕1区2区| 毛片三级在线观看| 伊人欧美在线| 777国产精品永久免费观看| 22sihu国产精品视频影视资讯| 国产欧美精品一区aⅴ影院| 亚洲av中文无码乱人伦在线r| 国产95在线 | 国产精品白浆在线播放| 毛片免费在线视频| www.精品国产| 四虎免费视频网站| 国产乱子伦精品视频| 日韩精品亚洲人旧成在线| 福利一区在线| 亚洲男人的天堂网| 亚洲欧洲日产国码无码av喷潮| 亚洲中文无码av永久伊人| 久久青草精品一区二区三区 | 熟女成人国产精品视频| 99在线免费播放| 国产黑丝视频在线观看| 久久久久九九精品影院 | 四虎亚洲国产成人久久精品| 日韩东京热无码人妻| 欧美成a人片在线观看| 国产成人综合日韩精品无码不卡| 久久久精品无码一二三区| 97精品伊人久久大香线蕉| 日韩毛片视频| 欧洲精品视频在线观看| 亚洲日本一本dvd高清| 亚洲人成成无码网WWW| 日本道综合一本久久久88| 免费国产高清视频| 国产熟女一级毛片| 欧美日韩中文国产va另类| 国产第八页| 香蕉伊思人视频| 国产区福利小视频在线观看尤物| 四虎影视永久在线精品| 欧美日本视频在线观看| 日本黄色a视频| 第九色区aⅴ天堂久久香| 日本精品视频| 日韩经典精品无码一区二区| 四虎永久免费地址在线网站| 欧美日韩国产在线人|