999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進CRNN的導彈編號識別算法研究

2021-06-30 12:44:48何偉鑫鄧建球叢林虎
計算機測量與控制 2021年6期
關鍵詞:特征文本模型

何偉鑫,鄧建球,叢林虎

(海軍航空大學 岸防兵學院,山東 煙臺 264001)

0 引言

隨著智能化時代的發(fā)展,大多數(shù)行業(yè)均向著人工智能化方面發(fā)展。部隊也在積極尋求著人工智能方面的應用。海航機載彈藥大隊任務繁忙,彈庫裝備出入庫次數(shù)較多,而每一次進出均需進行出入庫的登記。而目前卻還是人工登統(tǒng)計的方式進行著工作,浪費時間與人力,這與我軍的發(fā)展目標背道而馳。隨著深度學習的發(fā)展,可利用自然場景文字識別技術(shù)識別裝備上的編號,實現(xiàn)彈庫自動化登統(tǒng)計方式[1-4]。

識別自然場景中的文字意指從圖片中定位到文字部分,而后得出具體文字內(nèi)容的過程。該過程不僅可單獨用于文字的實際識別,同時也可與場景文字檢測算法組合成為一個連續(xù)的端到端場景文字識別系統(tǒng)。場景文字識別技術(shù)是一項難度系數(shù)較大的任務,因為自然場景中不僅存在光照的變化以及圖像的復雜背景,同時文字存在的多角度、多維、文字的長度等也影響著場景文字識別的準確度。所以,不同于傳統(tǒng)圖像分類技術(shù),自然場景文字識別技術(shù)[5-9]尋求的是從圖像中識別出非固定長度序列。

傳統(tǒng)文本識別方法局限太大,如模板匹配法在一些應用很湊效,如身份證號碼識別,其只存在阿拉伯數(shù)字、字體統(tǒng)一清晰,識別難度較低。然而較復雜的場景,傳統(tǒng)方法難以滿足需求。而OCR的通用方法:設計特征,提取特征而后進行分類,得出最終識別結(jié)果,但效果也很難達到應用需求。針對傳統(tǒng)OCR的不足,使得基于深度學習的OCR大放異彩[10-13]。

深度學習的出現(xiàn),讓文字識別技術(shù)有了新突破,識別率有了質(zhì)的提升,同時不需耗費較長時間對字符特征進行設計。在文字識別模型中,神經(jīng)網(wǎng)絡的任務是提取圖像特征并歸類,得到文本的具體結(jié)果。其中,在眾多基于深度學習的文本識別算法中,CRNN[14]算法無疑是性能最為優(yōu)秀的,文獻[14]表明了該算法在多個數(shù)據(jù)集中的識別準確率遙遙領先于其他算法,且該算法支持多方向文本識別,對復雜場景下的文本等也擁有較高的識別率[15-20]。

針對包含航空導彈編號的文本識別,介紹基于CRNN的導彈編號識別模型AA-CRNN。AA-CRNN增加了非對稱卷積(asymmetric convolution)和注意力機制(attention),可以提取更豐富的語義信息[21-23]。而基于深度學習的文字識別算法需大量文本圖片數(shù)據(jù)集,而在海軍某機載彈藥大隊中獲取到的裝備編號數(shù)據(jù)集數(shù)據(jù)量不足會使得模型存在過擬合,而文本圖像不能夠?qū)ζ溥M行簡單的數(shù)據(jù)增強,因此本課題研究人工合成裝備編號文本數(shù)據(jù)集供訓練使用[24-25]。

1 基于改進CRNN的文本識別算法

CRNN對于圖像的序列識別任務具有較好效果,特別是場景文字識別問題。圖1為CRNN結(jié)構(gòu)圖,可看出共可分為3個大層:卷積層、遞歸層和翻譯層[14]。

圖1 CRNN結(jié)構(gòu)圖

CNN層提取輸入圖像的特征序列。CNN卷層之后為RNN層,用以預測CNN層輸出的特征序列的每幀。翻譯層將RNN層的單幀預測轉(zhuǎn)換為標簽序列。雖然CRNN是由不同類型的網(wǎng)絡體系結(jié)構(gòu)組成的,但是該網(wǎng)絡可用一個損失函數(shù)聯(lián)合訓練CNN和RNN。

1.1 CNN結(jié)構(gòu)

CNN部分采用的是VGG的結(jié)構(gòu),并且對VGG網(wǎng)絡做了一些微調(diào),如表1所示。

從表1看出,對VGG的調(diào)整如下:為了將CNN提取的特征作為輸入,輸入到RNN網(wǎng)絡,將第三和第四個maxpooling的步長從2*2改為了1*2,這樣做可以使得特征圖的寬度可以被更好地保留。為了加速網(wǎng)絡的訓練,在第五和第六個卷積層后面加上了BN層。

表1 CRNN網(wǎng)絡參數(shù)表

該網(wǎng)絡的輸入為W*32單通道灰度圖,亦即網(wǎng)絡對輸入圖片的寬度無特殊的要求,但高度必須為32。如一張包含10個字符的圖片大小為100*32,經(jīng)上述的卷積神經(jīng)網(wǎng)絡后得到的特征尺度為25*1,這樣得到一個序列,每一列特征對應原圖的一個矩形區(qū)域(如圖2所示),這樣就很方便作為RNN的輸入進行下一步的計算了,而且每個特征與輸入有一個一對一的對應關系,而且1*2的pooling stride使得感受野具備較窄的寬度,有助于識別”i”,”1”等較窄的字符。

圖2 CNN序列圖

由于卷積神經(jīng)網(wǎng)絡中的CNN層以及pool層都存在局部性,所以其提取的特征序列同樣存在局部性。在圖2中,每一序列均與輸入圖像的某一區(qū)域相對照。所以CRNN的CNN層提取圖像的序列特征。

對于不同類型的視覺識別任務,深度卷積特征具有魯棒性、豐富性和可訓練性。以前的一些方法已經(jīng)使用DCNN來學習類序列對象的魯棒表示。然而,這些方法通常通過DCNN提取整個圖像的整體表示,然后收集局部深度特征來識別類序列對象的每個分量。由于DCNN要求將輸入圖像縮放到固定大小,以滿足其固定的輸入維數(shù),因此不適合于類序列對象,因為它們的長度變化很大,另一方面,文字的局部細節(jié)容易丟失。在CRNN中,將深層特征傳遞到序列表示中,以便對類序列對象的長度變化不變。

與普通圖像識別相比,文本識別的任務是識別整個文本行,因此輸入的圖像寬度一般比高度數(shù)值大得多。然而,普通卷積的感受野具有相同的寬度和高度,可能無法很好地提取文本圖像的特征[22]。因此,引入了非對稱卷積(asymmetric convolution),用于適應文本的特征。本文中的非對稱卷積運算如圖3所示。在卷積層中加入 和 非對稱卷積核進行卷積運算。該操作相當于增加了圖像中水平文本區(qū)域的接受野,使得網(wǎng)絡增強了從水平文本區(qū)域提取特征的能力。

圖3 不對稱卷積運算

1.2 RNN結(jié)構(gòu)

在卷積層的頂部建立了一個深度雙向遞歸神經(jīng)網(wǎng)絡。遞歸層對每個幀都預測一個標簽的概率分布。循環(huán)層有三個優(yōu)點。首先,RNN具有在序列中捕獲上下文信息的強大能力。利用上下文線索進行基于圖像的序列識別比獨立處理每個符號更加有效。如寬字符需要多個幀進行處理。此外,一些模棱兩可的字符在觀察其上下文時會更容易區(qū)分,例如,通過對比字符高度來識別“il”比單獨識別它們中的每一個更容易。其次,RNN可以反向傳播誤差至卷積層,使得網(wǎng)絡可以進行端到端地訓練。第三,RNN能夠預測隨機長度的序列。

經(jīng)典RNN單元的輸入及輸出層間存在一自連接的隱藏層。在序列接收幀時,該層會用一個非線性函數(shù)來更新其內(nèi)部狀態(tài),該函數(shù)同時以當前輸入和過去狀態(tài)作為輸入:,而后其對當前幀做出預測。所以值由過去以及現(xiàn)在的輸入決定,所以能夠?qū)⑶拔男畔⑦M行利用。

但經(jīng)典RNN可能產(chǎn)生梯度消失的情況[20],這影響其可存儲的上下文區(qū)間,且加深訓練難度。長短期記憶[23](LSTM)是一種特殊的RNN,專門解決梯度消失問題。LSTM (圖4)由一個內(nèi)存單元以及輸入門、輸出門還有忘記門組成。內(nèi)存單元對過往上下文進行儲存,輸入和輸出門允許單元格存儲很長一段時間的上下文。同時,細胞中的內(nèi)存可以通過忘記門進行更新。LSTM的特殊設計使它能夠在多次訓練中保持穩(wěn)定,從而能夠獲得長距離的上下文。

圖4 LSTM結(jié)構(gòu)

LSTM是定向的,它只使用過去的上下文。 然而,在基于圖像的序列中,來自兩個方向的上下文均有用,因此,CRNN使用兩個LSTM,分別向前以及向后,組合雙向LSTM(BiLSTM)。此外,堆疊多個BiLSTM,形成深層BiLSTM。如圖4(b)所示。

誤差通過時間反向傳播算法在圖4(b)所示的箭頭的相反方向上傳播。在RNN的底部,傳播的誤差序列被連接成圖,將特征圖轉(zhuǎn)換成特征序列,并反饋到卷積層,這一步驟是通過“Map-to-Sequence”的自定義網(wǎng)絡層實現(xiàn)的,該層是卷積層和循環(huán)層之間的橋梁。

在文本識別中,RNN可以作為解碼模塊對CNN中的特征序列進行解碼,并輸出最終預測結(jié)果。如果使用固定長度的向量對句子進行編碼,會導致嚴重的過擬合問題,特別是對于長輸入序列。這是因為輸入序列被編碼為一個固定長度的向量表示,不管它有多長,但是由于輸入的固定長度向量,解碼器在解碼過程中將受到限制[22]。然后,針對這一問題提出了注意機制。研究將注意力機制添加到雙向LSTM中。因此,注意機制使得雙向LSTM能夠接收到與當前輸出相關的特征序列,并對那些重要的特征序列給予更多的關注,以獲得更好的識別結(jié)果。本文采用加權(quán)注意力機制,根據(jù)相關性對特征序列進行加權(quán)平均,得到一個上下文向量作為雙向LSTM的輸入。其結(jié)構(gòu)如圖5所示。其中ci表示為上下文向量,xj表示特征序列,aij表示在時間i時向量xj的相應權(quán)重,Tx表示特征序列的數(shù)目,aij表示xj被選中的概率,因為aij的和為1。所以有:

圖5 加入注意力機制的BiLSTM

(1)

其中:aij根據(jù)RNN的隱藏狀態(tài)si-1和特征序列xj計算。公式如下:

aij=f(si-1,xj)

(2)

其中:f是計算特征序列相關性的函數(shù),f需要用神經(jīng)網(wǎng)絡建模,因此我們采用三層神經(jīng)網(wǎng)絡來建模,其中tanh函數(shù)作為激活函數(shù)。計算過程是:

hij=tanh(w11×xj+w12×si-1+b)

(3)

eij=hij×w21

(4)

其中:hij表示特征序列xj和si-1的第一層輸出向量,w11和w12分別表示第一層的權(quán)重,b和w21分別表示偏差項,第二層的權(quán)重和eij表示神經(jīng)網(wǎng)絡的第二層得分。然后在eij上施加softmax層以獲得aij,如公式:

(5)

然后將每個注意模塊輸出的上下文向量輸入到雙向LSTM中,得到性能幀預測,并將預測結(jié)果反饋給CTC層。改進后的網(wǎng)絡結(jié)構(gòu)如圖6所示。

圖6 改進的網(wǎng)絡結(jié)構(gòu)

1.3 翻譯層

翻譯層是將RNN所做的每幀預測轉(zhuǎn)換成標簽序列的過程。從數(shù)學上講,翻譯層是根據(jù)每幀預測找到概率最高的標簽序列,其共有兩種不同模式:無字典及基于詞庫[23]。無字典的情況下,預測是在沒有任何詞庫的情況下進行的。在基于詞庫的模式下,通過選擇后驗概率最高的標簽序列進行預測。CRNN標簽序列概率采用Graves等人提出的連接時續(xù)分類(CTC)進行計算[24]。

1.3.1 序列合并機制

RNN對時序進行預測時,不可避免地會產(chǎn)生多余信息,可能單一字符被接連預測多次,這需一種去冗余機制。

圖7 RNN預測示意圖

如識別圖6文本,RNN中有5個時間步,在正常情況下t0,t1,t2映射為“a”,t3,t4映射為“b”,然后將這些字符序列連接起來得到“aaabb”,而后將連續(xù)重復的字符合并成一個,得最終結(jié)果“ab”。但如是look,hello等存在連續(xù)相同字母的詞,則得到 lok 和 helo,產(chǎn)生錯誤,因此 CTC 提出blank機制解決該問題。

以“-”符號代表blank,RNN 輸出序列時,在文本標簽中的重復的字符之間插入一個“-”,比如輸出序列為“l(fā)looo-ookk”,則映射輸出“l(fā)ook”,也就是如果有blank字符隔開,連續(xù)相同字符不合并。即對序列先去掉連續(xù)相同字符,接著去掉“-”字符,這個稱為解碼過程,而編碼則是由神經(jīng)網(wǎng)絡來實現(xiàn)。引入blank機制,可以很好地解決重復字符的問題。相同的文本標簽一定幾率具有不同的字符組合如,“11-2”、“1122”及“-122”均表示“12”。也就是說一個文本標簽存在一條或多條的路徑。

1.3.2 訓練階段

在訓練階段,根據(jù)這些概率分布向量和相應的文本標簽得到損失函數(shù),從而訓練神經(jīng)網(wǎng)路模型。

圖8表示時序為2的字符識別,有兩個時間步長和三個可能的字符為“a”,“b”和“-”,可得兩個概率分布向量,如采取最大概率路徑解碼的方法,則“--”的概率最大,即真實字符為空的概率為0.6*0.6=0.36。但是為字符“a”的情況有多種對齊組合,“aa”, “a-“和“-a”都是代表“a”,所以,輸出“a”的概率應該為三種之和:0.4 * 0.4 + 0.4 * 0.6 + 0.6 * 0.4 = 0.16 + 0.24 + 0.24 = 0.64,因此“a”的概率比空“”的概率高。如果標簽文本為“a”,則通過計算圖像中為“a”的所有可能的對齊組合(或者路徑)的分數(shù)之和來計算損失函數(shù)。所以最后映射為標簽文本的總概率為:

圖8 文本標簽概率分布圖

(6)

其中:B-1(l)代表從序列到序列的映射函數(shù)B變換后是文本l的所有路徑集合,而π則是其中的一條路徑。每條路徑的概率為各個時間步中對應字符的分數(shù)的乘積。類似普通的分類,CTC的損失函數(shù)O定義為負的最大似然,為方便計算,對似然函數(shù)取對數(shù)。

(7)

通過對損失函數(shù)的計算,就可以對之前的神經(jīng)網(wǎng)絡進行反向傳播,神經(jīng)網(wǎng)絡的參數(shù)根據(jù)所使用的優(yōu)化器進行更新,從而找到最可能的像素區(qū)域?qū)淖址_@種通過映射變換和所有可能路徑概率之和的方式使得 CTC 不需要對原始的輸入字符序列進行準確的切分。定義為負的最大似然,為方便計算,對似然函數(shù)取對數(shù)。

1.3.3 測試階段

在測試階段,過程與訓練階段有所不同,用訓練好的神經(jīng)網(wǎng)絡來識別新的文本圖像。事先不知道任何文本,如過與之前一樣計算每一可能文本的所有路徑,這樣長時間步和長字符序列將產(chǎn)生龐大的計算量。RNN在每一個時間步的輸出為所有字符類別的概率分布,即一個包含每個字符分數(shù)的向量,取概率最大字符當做該時間步的輸出字符,接著所有時間步的輸出組合得一序列路徑,即最大概率路徑,再根據(jù)合并序列方法獲得文本的預測。在輸出階段經(jīng)過 CTC 的翻譯,即將網(wǎng)絡學習到的序列特征信息轉(zhuǎn)化為最終的識別文本,就可以對整個文本圖像進行識別。

如圖9所示,有5個時間步,字符類別為“a”、“b”和“-”(blank),對于每個時間步的概率分布,取分數(shù)最大的字符,得序列路徑“aaa-b”,先移除相鄰重復的字符得到“a-b”,然后去除blank字符得到最終結(jié)果:“ab”。

圖9 文本預測圖

2 數(shù)據(jù)集合成

由于軍隊航空導彈裝備的特殊性,當前未有用于導彈編號識別的數(shù)據(jù)集,而如果僅僅使用通用的文本識別數(shù)據(jù)集,得到的預測結(jié)果準確率將不夠高。因此,本課題結(jié)合航空導彈編號的文本特征,人工合成可應用于導彈編號識別的文本圖像,追求較高的識別準確率。圖10為人工合成文本數(shù)據(jù)集的流程。

圖10 識別數(shù)據(jù)集合成流程

2.1 導彈編號背景

為了盡可能真實地獲得航空導彈編號的圖像場景,實地在海航某部機載彈藥大隊所拍攝數(shù)據(jù)集。對于所收集整理到的導彈編號數(shù)據(jù)集,覆蓋海航某部機載彈藥大隊各項型號裝備的不同背景。值得注意的是,CRNN模型對于輸入數(shù)據(jù)的高度要求是固定的,所以在截取背景時應注意背景圖像的大小,否則會影響到訓練。而如果通過縮放等圖像處理方法來將圖像進行或大或小的縮放,可使得背景的像素與真實值產(chǎn)生偏差,從而影響最終的精度。因此在截取航空導彈編號背景圖像時,確保其能夠滿足CRNN輸入圖像的尺寸要求。同時,在實際的航空導彈業(yè)務工作中,計算機識別編號的時候并非嚴格正對編號,或多或少存在一定角度傾斜,因此在截取背景圖像時也按照一定角度進行傾斜。圖11為背景圖示例。

圖11 導彈編號背景圖

2.2 字體

文本的字體對于在識別任務中占據(jù)較高地位。不同字體間的風格存在著差異,航空導彈編號識別模型為了適應不同的裝備,也需不同的字體特征,針對已經(jīng)采集到的航空導彈編號,對其進行分析,得出大體所需字體為:微軟雅黑、新羅馬以及Vanta,如圖12所示。

圖12 字體示意圖

2.3 文本尺寸大小

文本圖像上的文本尺寸特征對模型非常重要。盡管相同型號航空導彈的編號尺寸相同,但不同型號上的編號大小存在差異,所以在合成圖像時,針對性的采用不同尺寸的字符以豐富特征。且2.2中背景截取使用相同大小的背景,所以不同文本大小能夠匹配相應文本長度,可更加合理粘貼于背景圖像上。

2.4 字典

在合成識別數(shù)據(jù)集時,利用字典檢索的方式對生成的背景圖像貼上文本內(nèi)容。字典中包含英文字母以及阿拉伯數(shù)字。每一個字符在字典中單獨一行,程序可更容易檢索到該字符。隨機生成一段4~10個字符的文本后,檢索該文本所有字符在字典中的位置,而后利用該索引位置可獲得字符類別,進而可以產(chǎn)生該文本段的標簽。

2.5 數(shù)據(jù)合成

準備工作過后,隨機組合航空導彈編號、背景圖以及不同的字體,將航空導彈編號文本粘貼到背景圖像上。這一步驟主要使用了Pillow,在進行合成的時候需設置將航空導彈編號靠近于背景左上角。合成后的航空導彈文本編號圖像如圖13所示。

圖13 合成圖像示例

2.6 圖像變換

由于在航空導彈業(yè)務當中,工作場所變換較多,伴隨因素影響較大,一些噪聲對識別產(chǎn)生干擾的情況無可避免。所以在訓練CRNN模型過程中需對這種情況進行學習,以提高模型對不同環(huán)境的適應能力。所以對合成的數(shù)據(jù)集應用高斯模糊、灰度拉伸以及透視變換的方式對航空導彈編號文本圖像進行增強[25]。

高斯模糊取圖像中每個像素周圍像素的平均值,使用正態(tài)分布對周圍像素值權(quán)重進行分配。而目標點像素即為正態(tài)分布中心,因此靠近該點則權(quán)重較大,遠離則小,式(8)為其計算公式:

(8)

由于不確定的環(huán)境因素可能會影響后續(xù)識別過程中文本特征的提取。航空導彈編號文本圖像灰度拉伸將圖片的灰度值在更大區(qū)間內(nèi)進行擴展以增強圖片對比度。提取圖的最大以及最小灰度值Imax和Imin,MAX和MIN表示目標灰度最大以及最小值,式(9)表示映射過程:

(9)

透視變換將圖像映射到一個新平面,首先將圖像從二維平面映射到三維空間,接著映射到另一二維平面,如式(10)所示:

(10)

3 實驗結(jié)果與分析

對航空導彈編號文本識別模型進行實驗。對比在航空導彈編號識別數(shù)據(jù)集中CRNN算法與其它文本識別算法訓練得到深度學習模型的識別效果。

識別實驗在Ubuntu16.04系統(tǒng)下進行,CPU:酷睿i5-8400 2.80 GHz,顯卡為GTX1080Ti,顯存為11 GB,計算機內(nèi)存為16 G;python 3.6,使用pycharm作為實驗平臺,同時配套tensorflow,tensorboard支持實驗進行。使用Momentum優(yōu)化器進行優(yōu)化,初始學習率為0.01,按訓練次數(shù)衰減,圖15為學習衰減曲線圖,訓練次數(shù)為8萬。

圖15 學習率衰減曲線

3.1 合成數(shù)據(jù)集以及評價指標

3.1.1 數(shù)據(jù)集

本實驗的訓練數(shù)據(jù)集為前文所合成識別數(shù)據(jù)集與人工新增入阿拉伯數(shù)字圖像的公開數(shù)據(jù)集Synth90K。本文合成數(shù)據(jù)集一共3萬張,包括實地拍攝、合成以及圖像增強,標注數(shù)據(jù)集只需在實地拍攝數(shù)據(jù)集中按照Synth90K數(shù)據(jù)集進行標注,合成以及圖像增強均可以代碼形式進行標注。

3.1.2 評價指標

實驗中以測試數(shù)據(jù)的字符識別準確率以及平均編輯距離作為評估標準。字符識別準確率指正確識別的字符數(shù)量占總數(shù)量的比重,而后對每張圖像求得該比重去平均,即為總的字符識別準確率。平均編輯距離是一種度量兩個序列(字符串)差異大小的方法。平均編輯距離越小說明識別率越高,可以同時反應識別錯,漏識別和多識別的情況。

假設現(xiàn)在兩個字符串A和B,其中A的長度為a,B的長度為b,現(xiàn)要計算A與B之間的Levenshtein distance可用動態(tài)規(guī)劃的思想解決這個問題:假設Ai和Bi分別為字符串A、B的前i,j個字符組成的子串,現(xiàn)將Ai:A[1] A[2] … A[i-1] A[i]修改為Bj:B[1] B[2] … B[j-1] B[j]需要的最少編輯次數(shù),即兩個子串的編輯距離,下面分別討論三種操作的操作次數(shù):

1)插入操作:假設將A[1…i]修改為B[1…j-1]需要操作數(shù)為k1,那么在A[i]后插入一個字符B[j],這樣就可以將A[1…i]修改為B[1…j],這時所需要的操作數(shù)為k1+1。

2)刪除操作:假設將A[1…i-1]修改為B[1…j]需要操作數(shù)k2,那么刪除A[i]就可以將A[1…i]修改為B[1…j],此時所需要的操作數(shù)為k2+1。

3)修改操作:假設將A[1…i-1]修改為B[1…j-1]需要操作數(shù)為k3,這時要將A[1…i]修改為B[1…j]則分為兩種情況:一是當A[i]≠B[j]時,則將A[i]替換成B[j]即可完成修改,此時操作數(shù)為k3+1;另一種情況是當A[i]==B[j]時,則將不需要進行修改操作,操作數(shù)仍然為k3。最后可得狀態(tài)轉(zhuǎn)移方程:

(11)

其中:1ai≠bj表示ai≠bj表達式取0,否則取1。

3.2 實驗結(jié)果評價與分析

首先模型AA-CRNN上進行了實驗,然后與其他經(jīng)典的文本識別算法CRNN,CNN+CRF以及ESIR[25]為對比對象,三者均為當前較為先進的文本識別算法。對訓練得到的各個模型逐一測試,使用前文所提的兩個評價指標進行評估,結(jié)果如表2所示。

表2 不同模型效果對比

由表2可以明顯看出AA-CRNN的字符準確率以及平均編輯距離均優(yōu)于另外的算法,因此說明本課題改進的AA-CRNN算法作為航空導彈編號識別的算法是較優(yōu)的。圖16以及圖17表示訓練過程中AA-CRNN的train loss曲線以及val loss。

圖16 AA-CRNN train LOSS曲線

圖17 AA-CRNN val LOSS曲線

由表2以及圖16、17可以看出AA-CRNN模型具備較好的性能,接下來使用圖像對其進行測試,如圖18所示,該模型均準確地將導彈編號識別出來。

圖18 模型測試

因此,本課題改進的CRNN模型在合成的航空導彈編號數(shù)據(jù)集上訓練能夠得到性能較好的模型,在實際圖片測試中均可將導彈編號準確的識別出來,說明本課題對航空導彈編號識別的研究是可行的。

4 結(jié)束語

文章首先分析了文本識別模型在航空導彈業(yè)務應用中的地位,介紹了AA-CRNN模型。由于缺乏航空導彈編號數(shù)據(jù)集,因此對照實際編號進行人工合成數(shù)據(jù)集。通過訓練對比,發(fā)現(xiàn)AA-CRNN的模型性能能夠由于當前較為優(yōu)秀的深度學習模型,且實際測試均正確識別出航空導彈編號,因此AA-CRNN模型應用于航空導彈編號識別應用中可行且優(yōu)秀。

但是同樣存在巨大的繼續(xù)研究的空間,因為工作人員需手持攝像頭對準導彈編號進行操作。在未來的時間里,筆者將研究檢測與識別結(jié)合,且是端到端的訓練,而非文本檢測與識別分開,如此使得模型運行速度更快,且進一步減輕彈庫工作人員的工作量。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品久久久久久搜索| 久久久亚洲色| 午夜欧美在线| 日韩美毛片| 美女无遮挡拍拍拍免费视频| 97免费在线观看视频| 亚洲第一香蕉视频| 亚瑟天堂久久一区二区影院| 国产爽歪歪免费视频在线观看| 亚洲欧洲AV一区二区三区| 欧美中文一区| 成人va亚洲va欧美天堂| 国产原创第一页在线观看| 日韩av无码DVD| 视频二区国产精品职场同事| a级毛片免费看| 国产理论一区| 日韩精品毛片| 国产波多野结衣中文在线播放| 亚洲成人动漫在线观看| 国产男女XX00免费观看| 国产九九精品视频| 亚洲国产第一区二区香蕉| 多人乱p欧美在线观看| 免费看美女毛片| 狠狠久久综合伊人不卡| 亚洲有码在线播放| 精品视频在线观看你懂的一区 | 国产精品欧美亚洲韩国日本不卡| 国产欧美日韩视频怡春院| 欧美日韩精品综合在线一区| 青青青视频91在线 | 午夜毛片免费观看视频 | 婷婷综合缴情亚洲五月伊| 91精品国产一区| 玖玖免费视频在线观看| 中文字幕 欧美日韩| 999精品在线视频| 香蕉eeww99国产在线观看| 亚洲精品无码专区在线观看| 精品视频一区二区三区在线播| 亚洲精品无码专区在线观看 | 国产高清不卡视频| 男女精品视频| 亚洲视频在线观看免费视频| 亚洲最大看欧美片网站地址| 999国产精品| 色综合天天视频在线观看| 四虎永久免费网站| 国产va欧美va在线观看| 亚洲一区精品视频在线| 国产精品福利导航| 欧美另类视频一区二区三区| 国产精品永久不卡免费视频| 亚洲热线99精品视频| 91视频99| 亚洲成aⅴ人片在线影院八| 青青草综合网| a毛片基地免费大全| 亚洲a免费| 99九九成人免费视频精品| 亚洲免费人成影院| 日本尹人综合香蕉在线观看 | 草草线在成年免费视频2| 亚洲国产AV无码综合原创| 玖玖精品在线| 精品视频免费在线| 丁香亚洲综合五月天婷婷| 精品国产电影久久九九| 永久在线精品免费视频观看| 国产精品第一区| 美女视频黄频a免费高清不卡| 狠狠干欧美| 日韩精品久久无码中文字幕色欲| 亚洲精品国偷自产在线91正片| 午夜啪啪福利| 久久人搡人人玩人妻精品| 中文成人在线视频| 亚洲日韩AV无码一区二区三区人| 亚洲人成影院午夜网站| 亚洲午夜国产精品无卡| 国产精品不卡片视频免费观看|