999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙塔結構的場景文字檢測模型

2022-02-24 12:36:54施漪涵仝明磊姚宏揚
計算機工程與應用 2022年3期
關鍵詞:特征融合實驗

施漪涵,仝明磊,張 魁,姚宏揚

上海電力大學 電子與信息工程學院,上海 200090

在自然場景中,文字通常能傳遞重要的視覺信息,通過對圖像中文字區域的檢測和識別,能更有效地獲取場景中的語義信息,并應用于圖像搜索、無人駕駛、工業自動化等領域,文字區域檢測作為文字識別的前期工作,其結果將直接影響后期識別的精準度。不同于傳統OCR(optical character recognition)字符識別,自然場景中的背景較復雜,且受文字本身及其他干擾因素的影響,較印刷制品而言,檢測難度更大。因此文字區域檢測的研究仍有較大的提升空間[1-2]。

文字檢測的方法通常分為兩大類:基于傳統方法和神經網絡。在傳統方法分類中,一類是基于滑動窗口的方法,根據圖像的紋理隨機生成不同大小的窗口,使其在原圖像中滑動,再用分類模型判斷該窗口內是否含有文字區域,其典型算法有文獻[3];另一類是基于連通域的方法,根據圖像的低級特征,比如光強、顏色等,將圖像的像素分為不同的連通域,再用分類模型對其進行判斷,較為典型的方法有筆畫寬度變換[4](stroke with transform,SWT)和最大穩定極值區域[5](maximally stable extremal regions,MSER)。傳統方法雖簡單、易于設計,但對于傾斜、彎曲文字或不均勻照明區域文字的檢測效果不佳[6-7],因此很難應用于含自然場景的圖像。

目前,主流的場景文字檢測大多基于深度神經網絡,其中,基于目標檢測技術的算法采用整體性思想,將文字區域視為待檢測目標。一些方法如R-CNN[8](regions with CNN features),先提取一系列的候選區域,再對其邊界框進行調整、分類及回歸;也可直接使用回歸算法,如YOLO[9](you only look one)和SSD[10](single shot multibox detector),得到物體的類別概率和具體位置。基于目標檢測技術的算法雖在運算速度上較有優勢,但其錨點位置估計不夠精確,無法得到最準確的檢測結果。另一類算法主要針對自然場景中的非水平文字,利用圖像分割技術,提高檢測準確度。其方法主要是將文字區域視為一個需要被分割的類別,通過語義分割[11]或實例分割[12]方法,生成像素級別的文字/非文字圖像,最后通過圖像后處理技術,準確定位文字區域,其典型算法有CCTN[13](cascaded convolutional text network)、PixelLink[14]、InceptText[15]等。基于分割技術的文字區域檢測,其實質是對像素的分類工作,雖然準確度較高,但耗時較長。

本文使用圖像分割技術檢測文字區域,在PixelLink算法基礎上,增加具有雙金字塔結構的特征融合模型,并在損失函數設計中,擴大負樣本選取量,通過γ參數調整正負樣本權重。算法能在不增加運算速度的同時,優化文字檢測的各項實驗評估指標。

1 PixelLink檢測算法

PixelLink算法整體實現過程如下,首先利用深度學習網絡提取特征,并生成2通道的像素預測和16通道的連接預測,即對每個像素點進行文字/非文字的像素分類;接著判斷該像素點的8個鄰域是否存在文本像素連接,以此得到文本實例分割圖;最后提取文本實例的邊界框,得到最終檢測區域。

該算法的特征融合模塊如圖1所示,主要基于FPN[16](feature pyramid network),即特征金字塔網絡,該網絡是目前各類圖像處理任務中最常見的特征融合網絡。左側通道可視為神經網絡普通的前向傳播過程,右側通道將更加抽象、語義更強的高層特征圖經上采樣輸出,并通過橫向卷積與左側通道中相同大小的特征圖融合。這類特征融合網絡能很好地傳遞高層特征中的語義信息,但忽略了由于多次深度卷積造成的特征信息缺失。本文針對特征融合模塊,綜合考慮網絡深度、運算速度、檢測效果等多方面因素,對FPN網絡補充和改進,提出一種具有雙塔結構的特征融合模型。

圖1 PixelLink算法的特征融合模塊Fig.1 Feature-fusion structure of PixelLink

2 網絡結構

本文的整體算法框架采用圖像分割思想,其框架流程如圖2所示,該算法主要由三個部分組成:特征融合網絡、生成實例分割圖和圖像后處理。

圖2 場景文字檢測整體框架圖Fig.2 Overall frame of scene text detection

首先將輸入圖像送入特征提取模型,利用VGG16[17]的前向傳播通道,提取網絡中的文字特征層,并輸送至特征融合模塊,如圖2虛線框所示,該模塊包含雙金字塔型結構,通過融合更多層網絡的特征映射,得到更精細的特征細節,優化輸出的特征信息;然后獲取相應通道的文字/非文字預測及連接預測后,生成實例分割圖;最后在圖像后處理部分中,利用傳統數字圖像處理技術如圖像濾波、去噪處理等優化圖像分割效果,同時調整一些參數如滑動平均衰減率、正則化衰減率等,提升被檢出文本行的準確率,并對分割出的文本區域進行邊界框劃定。

2.1 特征融合網絡

在對原始圖像的特征不斷濃縮的過程中會損失一定的圖像信息,并且邊界區域像素的特征相對較弱,極易造成分辨率低、邊界分割錯誤等后果,因此經特征融合模塊輸出的特征信息會直接影響最終的檢測準確度。

FPN網絡僅通過一次自下而上的融合路徑,傳遞最高層特征圖的強語義信息,經PANet[18](path aggregation network)啟發,本文提出一種特征融合方式,具體網絡結構如圖3所示,主要由三個部分組成:第一,利用FPN網絡的融合結果,并增加一條自上而下的新路徑。首先通過1×1卷積操作保持左側四層特征圖的尺寸大小不變,即在不損失分辨率的前提下大幅度提高非線性特性;接著使用上采樣對上述四層特征圖自下而上地進行第一次融合;然后重復對其融合結果做1×1卷積;最后使用降采樣將相同尺寸的特征圖進行自上而下的第二次融合。這部分網絡包含形如金字塔和倒金字塔的組合結構,通過增加網絡深度,加強網絡對語義信息的獲取和提煉。第二,在卷積操作的過程中,利用膨脹卷積,擴大像素的感受野。膨脹卷積起源于語義分割,是為了解決普通卷積神經網絡容易存在內部數據結構丟失或空間層級化信息丟失的問題,而使用池化操作容易損失部分信息,膨脹卷積的提出讓圖像尺寸在不縮減的情況下仍保持其泛化特征,通過將第一次融合結果后的橫向卷積替換為膨脹卷積,令卷積輸出結果包含更大范圍的信息,以更好地保存內部數據結構。第三,在網絡中新增一條路徑縮短較底層與最高層特征之間的距離。

圖3 具有雙塔結構的特征融合模塊Fig.3 Feature-fusion module with double tower structure

將特征融合的最后一次融合結果Fuse Piont5,與VGG16網絡中選取的初層特征Conv3_3相加,以解決在主流特征融合模塊中,由于定位信息的丟失,而造成特征無法精準傳遞的缺陷,充分利用淺層特征層,將特征圖的位置信息和語義信息更好地結合并輸出。

輸入圖像的尺寸為512×512,在VGG16網絡中提取的各層特征層中,Conv1_1及Conv2_2雖包含更準確的位置信息,但由于其尺寸較大,內存占用較多,會直接影響網絡的運行速度,因此僅選取Conv3_3、Conv4_3、Conv5_3進行后續融合工作。特征圖尺寸分別為輸入圖像的1/4、1/8、1/16,第四層卷積層Fc_7被替換為全連接層,大小為輸入圖像的1/16。

在本文中,簡單將該特征融合網絡稱為“雙塔結構”,主要用于改善特征融合結果。傳統金字塔結構的網絡模型經過較多網絡層的傳遞,特征信息丟失情況較明顯,而淺層網絡層往往具有較多邊緣、形狀、定位等特征,對于分割結果意義較大,具有雙塔結構的網絡模型可以充分補充網絡各級特征信息,聚合出更好的特征融合結果。

2.2 損失函數

損失函數用于評價模型中預測值和真實值的差異程度。在圖像中,文字通常占據較小的空間,面積越小的文字區域,檢測難度越大。為準確檢測文字區域,在損失函數的設計過程中需要考慮其特殊性。

文字/非文字的判別,簡單來說就是一個二分類任務,但由于文本實例的尺寸各不相同,若對每個像素賦予相同的權重會造成網絡檢測偏向大面積的文本行,而忽略小面積的文字區域。針對上述問題,本文引用Focal Loss[19]的平衡參數,對正負樣本失衡的圖像進行損失計算,計算公式如式(1)所示:

其中,y為真實值數據,y′為預測區域經過激活函數的輸出,其值在0到1之間。對于普通交叉熵函數,正樣本的輸出概率越大則損失值越小,反之負樣本的輸出概率越小則損失值越大。γ參數的引入使得函數不同于普通交叉熵損失函數,能更關注困難、易錯分的樣本。本文令γ=2,則對于正樣本而言,(1-y′)γ的值很小,那么損失函數值也很小;對于負樣本而言,預測概率為0.1的結果遠比預測概率為0.7的樣本損失值小很多,γ參數的引入,令損失函數更加關注難以區分的困難樣本。

Pixel Link算法中采用的OHEM[20](online har d example mining)對正負樣本數量按1∶3選取并進行訓練,僅保留損失值較大的負樣本,將一些損失值較小的簡單負樣本置零,而focal loss的設計將這類損失值也融入到整體損失函數中計算,雖然這些簡單樣本的損失值較小,但數量較多,其值對最終損失函數具有一定的影響力。通過新增參數對困難樣本進行權重分配,滿足令損失函數更關注困難樣本的要求,并通過對困難樣本的不斷訓練,優化整體網絡模型的性能。

在對每個像素進行文字/非文字判別后,分別對其8領域的連接像素進行損失計算。對于連接預測,僅計算判別結果為正的樣本損失值,這種判別問題仍是簡單的二分類任務,因此選用最基礎的交叉熵函數,如式(2)所示。y為真實值數據,y′為預測區域經激活函數的輸出。

3 實驗結果與分析

3.1 實驗環境

本文算法使用的實驗系統為配置1個GPU型號為GTX Titan X的Ubuntu16.04,顯存為12 GB,核心頻率為1 075 MHz,CPU型號為Intel Xeon E5-1620@3.6 GHz×8,學習框架選用Tensorflow1.1.0,與PixelLink論文實驗環境中含3個同型號的GPU相比,配置較低。根據顯存大小將每次迭代輸入圖像的數量設置為4,該值過小會使網絡收斂不穩定,影響實驗結果。

3.2 實驗用數據集

本算法使用的數據集ICDAR2015及ICDAR2017-MLT均屬于ICDAR基準數據集[21],是ICDAR魯棒性閱讀比賽的官方數據集,其中包括文字定位數據庫、文字分割數據庫、單詞識別數據庫、端對端識別數據庫等。ICDAR2015數據集為自然場景中含文字區域的圖片,共有1 000張訓練圖片與500張測試圖片,文字語言為英文,其文字尺度與方向任意,ICDAR2017-MLT數據集同為含自然場景的圖片,共有7 200張訓練圖片和1 800張測試圖片,是目前語種最多且包含真實場景噪聲的數據集,該數據集較ICDAR2015難度較大。ICDAR數據集在場景文字區域檢測的領域中較為流行,因此本文測試結果具有較強的參考意義。

3.3 評估指標

文字區域檢測領域內有三項重要評估指標,分別是準確率(Precision,P)、召回率(Recall,R)和綜合指標(F-score,F)[22]。其中,準確率為可匹配真值框的預測框占所有預測框的比例,簡而言之就是表示預測為正的樣本中有多少是真正的正樣本,其定義式如式(3)所示:

召回率是指可以與預測框匹配的真值框占所有真值框的比例,該評估指標是針對原來的樣本,其含義是樣本中的正例有多少被正確預測了,其定義式如式(4)所示:

F-score作為綜合評估指標,其定義式如式(5)所示,通常,該數值越高,則表示該算法模型越穩定。

準確率與召回率是相對制衡的,隨著準確率的增加,召回率會降低,而當召回值增加時,準確率會有所降低。在這類情況下,F-score的引入就顯得十分必要,該項指標能直接判斷算法的有效性。

3.4 實驗參數

本文訓練過程不使用預訓練模型,設置前100次迭代的學習率為10-3,之后的學習率設置為10-4,使其能在訓練初期擁有較大的學習率,加速收斂過程,而后通過較小的學習率,讓收斂過程變慢,使網絡在最優值附近的一個很小的區域里擺動,以此來優化因訓練圖像過少而易產生過擬合的問題。

其次,設置滑動平均衰減率為0.999 9,對網絡進行滑動平均操作,使其得到的值在圖像上更加平緩光滑,避免因某次異常取值而出現較大的波動。對于采用隨機梯度下降算法的訓練網絡,滑動平均在一定程度上能提升最終模型的檢測效果。其余的一些參數設置如表1所示。

表1 詳細訓練參數Table 1 Detailed training parameters

3.5 實驗結果分析

相同實驗環境和相同實驗平臺下,在兩種數據集上進行測試,為驗證各改進點的有效性,在ICDAR2015數據集上逐步對各項改進方法進行疊加測試,并將該實驗結果分為三個部分分析,然后將經過不斷補充優化的完整算法在ICDAR2017上進行補充實驗,最后與目前較為流行的模型進行對比。本文方法的訓練過程,未調用上一級實驗模型及其他預訓練模型,均對網絡初始化后,訓練相同步數進行對比。

逐步測試結果如表2所示,其中PixelLink*為該算法在本文實驗設備環境中復現的實驗結果。首先在FPN網絡的基礎上增加第二次融合路徑得到本文方法實驗數據,準確度達82.25%,較PixelLink*提升2%,F值也相繼提高至79.43%;接著,將網絡中后部分的橫向卷積替換為膨脹卷積,并新增一條路徑將低層強定位信息與高層強語義信息融合得到本文方法+實驗數據,召回率提升至78.76%,較改進前提升3%,F值相應提高1.7%,網絡穩定性更高;最后,在損失函數的設計中引用γ參數得本文方法++實驗數據,準確率提高3.8%,召回率提高1.4%,F值提高2.5%。PixelLink*模型的運算速度為0.54 s/步,本文方法的運算速度為0.42 s/步,并且三次實驗數據均優于PixelLink*模型,綜合指標逐次提高,因此綜合以上在ICDAR2015數據集上的測試對比,本文提出的各項改進方法均有效,且本文方法++在各項評判指標上均優于PixelLink算法,且整體檢測效果最好。

表2 數據集ICDAR2015實驗數據Table 2 Experimental data on ICDAR2015%

為驗證本文方法的普適性,在數據集ICDAR2017-MLT上進行驗證對比,結合數據集ICDAR2015的實驗數據分析,僅對測試結果最優的本文方法++進行測試。如表3所示本文方法的準確率為71.56%,召回率為67.8%,F值為70.1%,數據值較低是由于ICDAR2017數據集的數量、語言種類及圖像尺寸更豐富,相比ICDAR2015數據集,難度較大,但各項評價指標分別提高3.6%、4.6%、4.8%,因此本文提出的改進算法在ICDAR2017數據集上的優化效果更好。

表3 數據集ICDAR2017實驗數據Table 3 Experimental data on ICDAR2017%

將本文方法與近年來其他同類型文字檢測方法在ICDAR2015數據集上的測試結果進行對比,進一步驗證本文方法的有效性,為加強實驗結果對比的公正性,這些方法都采用VGG16作為特征提取器,比對結果如表4所示。其中CTPN算法[23]、SegLink算法[24]及EAST[25]算法[23]均為文字檢測領域中較為經典的算法,本文方法的F值分別提高31.6%、6.9%、4.9%,準確度及召回率方面的優勢也較明顯。PSENet*[26]為目前該算法在TensorFlow框架下訓練與測試的最優結果,本文方法準確度提高2.7%,召回率提高3.8%,F值提高3.3%。然而與CARFT[27]算法相比,本文方法在各項指標上還有進一步提升的空間,實驗數據差較大的主要原因是CARFT算法的實驗過程,使用了經SynthText數據集訓練的預訓練模型,而本文方法未使用預訓練模型。綜合以上數據對比,本文方法具有較強的競爭力。

表4 各類文字檢測方法實驗結果對比Table 4 Experimental results of various text detection methods %

實驗可視化結果表明,本文算法對于粘連單詞的檢測和對錯誤樣本的誤判程度均優于原PixelLink算法。如圖4所示,對于右上角粘連文字,本文算法能清晰地將其分離成兩個單詞,圖5所示為原算法將非文字區域檢測為正樣本的誤判情況,在使用雙塔結構算法的測試結果中得到明顯改善。通過對測試圖片可視化的對比可得,本文算法提出的利用具有雙塔結構的特征融合模型并改進損失函數進行文字區域檢測,在準確度和召回率上都有很好的表現,能有效提高自然場景下的文字區域檢測準確度,該算法有效可行。

圖4 測試圖片可視化文字粘連情況對比圖Fig.4 Visualization about adhesion of text area

圖5 測試圖片可視化誤判情況對比圖Fig.5 Visualization about misjudgment of text area

4 結束語

針對自然場景中的文字區域檢測任務,本文提出一種具有雙塔結構的特征融合模型,該算法包含兩個金字塔型的網絡通道,并利用膨脹卷積擴大像素的感受野,同時新增一條路徑加強對定位信息和語義信息的融合;在損失函數設計中引入γ參數,增強模型對困難樣本的學習能力。實驗表明,本文算法能有效提升文字檢測準確度,但該方法仍有不足:對中文及彎曲文字區域檢測準確率不高。在未來的研究工作中,將進一步考慮對多語言及彎曲文字區域的檢測能力,并將本文提出的特征融合模型應用于其他任務,例如行人重識別、立體匹配等,以進一步驗證其有效性。

猜你喜歡
特征融合實驗
記一次有趣的實驗
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产亚洲欧美在线人成aaaa| 亚洲欧美自拍视频| 无码中文字幕乱码免费2| 国产在线无码av完整版在线观看| 久久狠狠色噜噜狠狠狠狠97视色| 99久久精品国产麻豆婷婷| 亚洲精品777| 色135综合网| 国产成人亚洲日韩欧美电影| 国产精品护士| 亚洲日韩久久综合中文字幕| 3D动漫精品啪啪一区二区下载| 国产美女主播一级成人毛片| 欧洲高清无码在线| 国产幂在线无码精品| 精品福利视频导航| 久久久久久国产精品mv| 日本手机在线视频| 国产69精品久久久久孕妇大杂乱| 午夜a视频| 国产JIZzJIzz视频全部免费| Aⅴ无码专区在线观看| AV在线天堂进入| 欧美在线天堂| 97在线免费| 国产精品欧美激情| 欧美在线综合视频| 亚洲人成网7777777国产| 中文字幕调教一区二区视频| 久久香蕉国产线看观看式| 色婷婷成人| 精品久久久久成人码免费动漫| 香蕉网久久| 伊人婷婷色香五月综合缴缴情| 久久久久亚洲精品成人网 | 国产成人盗摄精品| 欧美a级在线| 免费看美女自慰的网站| 免费黄色国产视频| 久草视频中文| 日本欧美午夜| 日韩精品亚洲人旧成在线| 成人一级免费视频| 青青青国产视频手机| 精品久久香蕉国产线看观看gif| 超碰色了色| 亚洲一区精品视频在线| 亚洲第一在线播放| 亚洲二区视频| 成人精品免费视频| av在线无码浏览| 国产亚洲精久久久久久无码AV| 狠狠色香婷婷久久亚洲精品| 中文字幕在线免费看| 久久99热66这里只有精品一| 五月婷婷导航| 国国产a国产片免费麻豆| 日韩视频福利| 亚洲天堂网在线播放| 欧美高清日韩| 日本高清成本人视频一区| 国产精品密蕾丝视频| 国产欧美成人不卡视频| 国产地址二永久伊甸园| 国产精品白浆在线播放| 91娇喘视频| 成人字幕网视频在线观看| 国产自在自线午夜精品视频| 国产精品无码久久久久久| 老色鬼欧美精品| 99中文字幕亚洲一区二区| 东京热高清无码精品| 午夜啪啪福利| 2021国产v亚洲v天堂无码| 成年午夜精品久久精品| 亚洲第一区欧美国产综合| 中文国产成人久久精品小说| 色噜噜狠狠色综合网图区| 日本精品视频一区二区| 午夜精品区| 精品国产毛片| 一本久道久综合久久鬼色|