一、前言
在人工智能的時(shí)代背景下,文本檢測(cè)與識(shí)別作為深度學(xué)習(xí)研究領(lǐng)域中的一個(gè)重要分支,已經(jīng)展現(xiàn)出其廣泛的應(yīng)用價(jià)值和潛力[1。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單靈活且便于訓(xùn)練,逐漸被應(yīng)用到場(chǎng)景文本的識(shí)別中[2]。自然場(chǎng)景中的文本檢測(cè)識(shí)別[3具有廣泛的應(yīng)用場(chǎng)景。然而,由于文本圖像中存在背景、信息復(fù)雜等問(wèn)題,影響了模型的文本識(shí)別精度。基于FasterRCNN模型求出圖像中所有文本區(qū)域的方法[4,在處理文本數(shù)量不確定的場(chǎng)景時(shí),其識(shí)別性能往往不盡如人意,表現(xiàn)出較低的魯棒性。深度學(xué)習(xí)的飛速發(fā)展也讓自然場(chǎng)景文本檢測(cè)識(shí)別模型、算法的性能有了顯著的提高。主流方法是開(kāi)始使用RNN(RecurrentNeuralNetwork)[5]對(duì)序列特征進(jìn)行建模,通常以字符序列的形式出現(xiàn)。
二、實(shí)驗(yàn)部分
(一)數(shù)據(jù)集構(gòu)建
本文選擇了ICDAR2017數(shù)據(jù)集。ICDAR2017數(shù)據(jù)集是文本檢測(cè)與識(shí)別領(lǐng)域的經(jīng)典數(shù)據(jù)集,主要包含水平文本和較為簡(jiǎn)單的背景。該數(shù)據(jù)集的設(shè)計(jì)初衷是為了評(píng)估模型在標(biāo)準(zhǔn)化場(chǎng)景中的表現(xiàn),因此非常適合用于基準(zhǔn)測(cè)試。在實(shí)驗(yàn)中,每張圖像首先進(jìn)行預(yù)處理,以適應(yīng)TLDN和TRN模型的輸入要求。對(duì)于TLDN模型,圖像被縮放至固定尺寸,經(jīng)過(guò)VGG-16網(wǎng)絡(luò)提取特征后,進(jìn)入Bi-LSTM網(wǎng)絡(luò)進(jìn)行序列編碼,并通過(guò)RPN生成候選文本區(qū)域。這些區(qū)域隨后被輸人TRN模型中,TRN通過(guò)卷積層提取這些圖像片段的特征,再利用雙向LSTM進(jìn)行序列化處理,最后通過(guò)CTC層輸出文本標(biāo)簽。
1.TLDN模型的參數(shù)設(shè)置
為了確保模型能夠在多樣化的自然場(chǎng)景中穩(wěn)定工作,本文對(duì)TLDN的多個(gè)關(guān)鍵參數(shù)進(jìn)行了優(yōu)化。首先,VGG-16網(wǎng)絡(luò)作為T(mén)LDN的基礎(chǔ)特征提取網(wǎng)絡(luò),其前五個(gè)卷積層的卷積核大小統(tǒng)一設(shè)置為 3 × 3 ,步長(zhǎng)為1。這樣的設(shè)置能夠在提取到足夠的細(xì)節(jié)信息的同時(shí),保持特征圖的高分辨率,對(duì)于后續(xù)的文本檢測(cè)步驟至關(guān)重要,因?yàn)楦叻直媛实奶卣鲌D能夠更精確地描述文本區(qū)域的邊界。在Bi-LSTM層的參數(shù)設(shè)置上,本研究選擇了256個(gè)隱藏單元作為最優(yōu)配置。Bi-LSTM層的任務(wù)是對(duì)VGG-16提取的特征序列進(jìn)行編碼,將其轉(zhuǎn)換為能夠反映文本區(qū)域上下文關(guān)系的特征向量。256個(gè)隱藏單元的設(shè)置既保證了編碼信息的豐富性,又避免了計(jì)算成本的急劇增加。在實(shí)驗(yàn)中,這一設(shè)置表現(xiàn)出良好的平衡,既能捕捉到文本的全局信息,又能有效處理局部特征。RPN層的設(shè)計(jì)是TLDN模型中最為關(guān)鍵的一部分。RPN層用于生成候選文本區(qū)域,這些區(qū)域?qū)⒈贿M(jìn)一步處理以確定其是否包含文本。本文在RPN層中設(shè)置了10個(gè)錨點(diǎn)(anchors),這些錨點(diǎn)用于候選區(qū)域的定位。錨點(diǎn)的大小和比例經(jīng)過(guò)實(shí)驗(yàn)調(diào)整,使得模型能夠更好地適應(yīng)自然場(chǎng)景中文本區(qū)域的多樣性。特別是在處理不同方向和大小的文本時(shí),錨點(diǎn)的合理設(shè)置能夠顯著提高文本檢測(cè)的精度。在訓(xùn)練過(guò)程中,TLDN模型的學(xué)習(xí)率被設(shè)定為 0 . 0 1 。這一學(xué)習(xí)率是在多次實(shí)驗(yàn)基礎(chǔ)上得出的,它能夠確保模型在訓(xùn)練過(guò)程中穩(wěn)定收斂,同時(shí)防止出現(xiàn)過(guò)擬合現(xiàn)象。
2.TRN模型的參數(shù)設(shè)置
TRN模型卷積層的配置參考了VGG網(wǎng)絡(luò)的架構(gòu),卷積核大小為 3 × 3 ,池化層采用最大池化策略,以減少特征圖的尺寸并增加感受野。與傳統(tǒng)的卷積網(wǎng)絡(luò)不同,TRN的卷積層后不接全連接層,而是直接將特征圖輸入LSTM層進(jìn)行序列化處理。這種設(shè)計(jì)大大減少了模型的參數(shù)數(shù)量,提高了計(jì)算效率。LSTM層的設(shè)置在TRN模型中至關(guān)重要。本文選擇了雙向LSTM(Bi-LSTM)作為序列編碼器,每個(gè)LSTM層包含512個(gè)隱藏單元。這一配置能夠在處理長(zhǎng)文本序列時(shí),捕捉到足夠的上下文信息,從而提高模型的識(shí)別準(zhǔn)確性。Bi-LSTM的雙向傳遞機(jī)制使得模型能夠同時(shí)考慮到前后文的關(guān)系,對(duì)于識(shí)別具有復(fù)雜排列結(jié)構(gòu)的自然場(chǎng)景文本尤為重要。在TRN模型中,CTC層的損失函數(shù)用于解決文本序列的對(duì)齊問(wèn)題。CTC損失函數(shù)的優(yōu)化目標(biāo)是最大化正確標(biāo)簽序列的概率,從而確保模型能夠輸出準(zhǔn)確的文本標(biāo)簽。本文使用Adam優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)定為0.001,并在訓(xùn)練過(guò)程中根據(jù)CTC損失值的變化動(dòng)態(tài)調(diào)整學(xué)習(xí)率。這種優(yōu)化策略能夠有效防止模型陷人局部最優(yōu)解,同時(shí)加速收斂過(guò)程。
(二)文本定位網(wǎng)絡(luò)
TLDN模型首先通過(guò)VGG-16網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取。VGG-16網(wǎng)絡(luò)由13個(gè)卷積層和3個(gè)全連接層組成,通過(guò)多層卷積操作逐步提取圖像的高層次特征。VGG-16的卷積核較小( 3 × 3 ,使得它能夠在保持圖像分辨率的同時(shí),捕捉更多的細(xì)節(jié)信息。通過(guò)這些特征提取,使模型能夠有效應(yīng)對(duì)自然場(chǎng)景中多樣化的文本特征。本研究網(wǎng)絡(luò)由13個(gè)卷積層和3個(gè)全連接層組成,本研究的圖像特征的輸出是第29層的ReLu激活層,通過(guò)多層卷積操作逐步提取圖像的高層次特征。通過(guò)這些特征提取,TLDN模型能夠有效應(yīng)對(duì)自然場(chǎng)景中多樣化的文本特征。為了進(jìn)一步處理這些特征,TLDN引入了雙向LSTM(Bi-LSTM)網(wǎng)絡(luò)。Bi-LSTM是一種能夠同時(shí)從前向和后向捕捉序列信息的循環(huán)神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)的單向LSTM相比,Bi-LSTM能夠利用更豐富的上下文信息。在文本檢測(cè)中,文本區(qū)域往往具有較強(qiáng)的上下文相關(guān)性,前一個(gè)字符的出現(xiàn)往往能預(yù)測(cè)后續(xù)字符的位置。Bi-LSTM通過(guò)在兩個(gè)方向上傳遞信息,有效增強(qiáng)了模型對(duì)文本區(qū)域的敏感性和準(zhǔn)確性。滑動(dòng)窗口機(jī)制是TLDN的另一個(gè)創(chuàng)新點(diǎn),傳統(tǒng)的文本檢測(cè)方法通常依賴于固定大小的檢測(cè)窗口,這種方法在面對(duì)不同大小的文本時(shí),往往需要對(duì)窗口大小進(jìn)行頻繁調(diào)整。TLDN通過(guò)將圖像分割成多個(gè)固定寬度(16像素)的滑動(dòng)窗口,每個(gè)窗口都進(jìn)行獨(dú)立的回歸分析,從而預(yù)測(cè)文本區(qū)域的位置和大小。這種方法不僅提高了檢測(cè)的精度,還大大減少了計(jì)算開(kāi)銷(xiāo)。TLDN模型還引入了RPN(RegionProposalNetwork)層,這一層用于生成候選文本區(qū)域。RPN層通過(guò)在每個(gè)滑動(dòng)窗口上生成多個(gè)錨點(diǎn),并使用softmax函數(shù)對(duì)這些錨點(diǎn)進(jìn)行分類,確定文本區(qū)域的候選位置。不同于Faster-RCNN中的RPN,TLDN的RPN采用了更小的滑動(dòng)窗口和更精細(xì)的錨點(diǎn)設(shè)計(jì),使得模型能夠更靈活地適應(yīng)不同的文本排列方式,從而在處理復(fù)雜背景和多方向文本時(shí),展現(xiàn)出更強(qiáng)的魯棒性。
(三)TRN模型的集成與優(yōu)化
TRN(TextRecognitionNetwork)模型用于解決自然場(chǎng)景中長(zhǎng)序列文本的識(shí)別挑戰(zhàn)。與傳統(tǒng)的字符級(jí)別識(shí)別方法不同,TRN通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),能夠直接處理整個(gè)文本行,從而避免了字符切分帶來(lái)的復(fù)雜性和誤差。
在TRN模型中,卷積層(CNN)首先用于提取圖像的空間特征。TRN采用了一種輕量化的卷積網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)類似于VGG網(wǎng)絡(luò),但去掉了全連接層,減少了模型的參數(shù)數(shù)量,從而提高了計(jì)算效率。在卷積操作中,TRN通過(guò)一系列的卷積層和池化層,將輸入圖像轉(zhuǎn)換為特征圖。特征圖的高度固定為1,意味著特征圖的每一列都代表輸入圖像中的一個(gè)水平切片。通過(guò)這種方式,卷積網(wǎng)絡(luò)不僅提取了圖像的局部特征,還保留了文本的全局結(jié)構(gòu)信息。在特征提取之后,TRN利用雙向LSTM對(duì)特征序列進(jìn)行編碼。與TLDN模型中的LSTM相似,通過(guò)從左到右和從右到左兩個(gè)方向傳遞信息,雙向LSTM能夠捕捉文本序列中的上下文關(guān)系,從而在識(shí)別不規(guī)則排列的自然場(chǎng)景文本時(shí),提供更加精準(zhǔn)的預(yù)測(cè),因?yàn)槲谋拘兄械拿恳粋€(gè)字符都可能影響整個(gè)序列的輸出。
CTC(Connectionist Temporal Classification)層是TRN模型中的核心部分,負(fù)責(zé)將LSTM的輸出序列轉(zhuǎn)換為文本標(biāo)簽。CTC通過(guò)計(jì)算輸出序列與目標(biāo)序列之間的最大似然估計(jì),從而避免了字符級(jí)別的對(duì)齊問(wèn)題,因?yàn)樗试S輸出序列的長(zhǎng)度不同于輸入序列的長(zhǎng)度。CTC不僅能夠有效減少字符重疊和冗余信息,還能自動(dòng)校正模型在識(shí)別過(guò)程中可能產(chǎn)生的錯(cuò)位,從而大幅提升了識(shí)別準(zhǔn)確性,通過(guò)最大化模型生成的輸出序列與目標(biāo)序列之間的對(duì)數(shù)似然來(lái)進(jìn)行訓(xùn)練。它的關(guān)鍵在于處理輸入和輸出序列長(zhǎng)度不一致的情況,并且不要求逐字符對(duì)齊。CTC的核心思想是對(duì)所有可能的對(duì)齊路徑求和,通過(guò)這種方式計(jì)算目標(biāo)序列的總似然。
假設(shè)輸入序列長(zhǎng)度為T(mén),U是目標(biāo)序列長(zhǎng)度。CTC引入了一個(gè)特殊的“空白”符號(hào)(通常記為e,允許在輸出中插入空白符號(hào)或重復(fù)字符來(lái)匹配輸入序列。這樣,對(duì)于一個(gè)給定的目標(biāo)序列S,可以生成多個(gè)不同的對(duì)齊路徑,每個(gè)路徑都表示為 Z 。
每條路徑的概率是該路徑中每個(gè)時(shí)間步的概率的乘積,公式如下:
其中, 是時(shí)間步t的輸出字符。
目標(biāo)序列的總概率是所有可能路徑的概率之和:
為了訓(xùn)練模型,CTC最大化對(duì)數(shù)似然,即最小化負(fù)對(duì)數(shù)似然損失:
$\begin{array} { r l } { L ( X , S ) { = } { - } \log \left( \sum _ { z \in a l l p a t } } amp; { { } P ( Z | X ) \right) } \end{array}$
在整個(gè)識(shí)別過(guò)程中,輸入圖像無(wú)需經(jīng)過(guò)復(fù)雜的預(yù)處理或字符切分,模型能夠直接從輸入圖像生成最終的文本標(biāo)簽。這種端到端的方式不僅簡(jiǎn)化了識(shí)別流程,還提高了系統(tǒng)的效率和魯棒性。
在自然場(chǎng)景中文本檢測(cè)與識(shí)別的任務(wù)中,單一模型往往難以兼顧檢測(cè)與識(shí)別的雙重要求。TLDN與TRN模型各自擅長(zhǎng)于不同的任務(wù):TLDN能夠準(zhǔn)確定位復(fù)雜背景中的文本區(qū)域;而TRN則能夠高效處理長(zhǎng)序列文本。該融合模型的核心思想是先通過(guò)TLDN模型對(duì)輸入圖像進(jìn)行文本檢測(cè),定位出可能的文本區(qū)域,然后將這些區(qū)域的圖像切片輸人TRN模型中進(jìn)行識(shí)別。通過(guò)這種先檢測(cè)后識(shí)別的策略,模型不僅能夠準(zhǔn)確定位文本,還能有效識(shí)別復(fù)雜的文本內(nèi)容。
在具體實(shí)現(xiàn)中,TLDN模型首先對(duì)輸入圖像進(jìn)行處理,生成多個(gè)候選文本區(qū)域。每個(gè)候選區(qū)域的圖像片段經(jīng)過(guò)裁剪和歸一化處理后,作為T(mén)RN模型的輸入。TRN模型通過(guò)卷積層提取這些圖像片段的特征,再利用雙向LSTM進(jìn)行序列化處理,最后通過(guò)CTC層輸出識(shí)別結(jié)果,如圖1所示。這種融合策略的一個(gè)顯著優(yōu)勢(shì)在于,它能夠?qū)z測(cè)與識(shí)別兩個(gè)任務(wù)有機(jī)結(jié)合,減少了單一模型在處理復(fù)雜場(chǎng)景時(shí)可能遇到的問(wèn)題。例如,在傳統(tǒng)的OCR系統(tǒng)中,文本檢測(cè)和文本識(shí)別往往是獨(dú)立進(jìn)行的,可能導(dǎo)致信息丟失或誤差累積。而通過(guò)將TLDN與TRN模型融合,這些問(wèn)題得到了有效緩解。TLDN能夠?yàn)門(mén)RN提供準(zhǔn)確的文本區(qū)域,確保識(shí)別階段的輸入質(zhì)量,從而提高整個(gè)系統(tǒng)的識(shí)別準(zhǔn)確性和魯棒性。
此外,TLDN與TRN模型的融合還具有較高的計(jì)算效率。在實(shí)際應(yīng)用中,TLDN的滑動(dòng)窗口機(jī)制和RPN層能夠迅速定位文本區(qū)域,減少了TRN需要處理的圖像區(qū)域數(shù)量,不僅提高了識(shí)別速度,還減少了計(jì)算資源的消耗,使得該方法更適合實(shí)時(shí)應(yīng)用場(chǎng)景。
三、結(jié)果與討論
(一)實(shí)驗(yàn)結(jié)果與對(duì)比分析
實(shí)驗(yàn)結(jié)果顯示,本文提出的TLDN與TRN融合模型在多個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于現(xiàn)有的主流方法。在ICDAR2017數(shù)據(jù)集上,TLDN與TRN融合模型的檢測(cè)準(zhǔn)確率達(dá)到 8 5 % 、召回率為 82 % ,F(xiàn)-measure超過(guò)60 % ,本文模型在檢測(cè)精度和召回率上均有顯著提升。特別是在有干擾背景或文本排列不規(guī)則的復(fù)雜自然場(chǎng)景下,本文模型展現(xiàn)了更好的魯棒性。TLDN與TRN的組合策略在處理多方向文本和彎曲文本時(shí)展現(xiàn)出色的適應(yīng)性和穩(wěn)定性。以上說(shuō)明,TLDN的文本檢測(cè)能力和TRN的序列識(shí)別能力在復(fù)雜場(chǎng)景下能夠相互補(bǔ)充,從而實(shí)現(xiàn)更好的檢測(cè)與識(shí)別效果。
(二)參數(shù)敏感性與實(shí)驗(yàn)數(shù)據(jù)分析
在本文的實(shí)驗(yàn)過(guò)程中,研究人員對(duì)TLDN與TRN模型的多個(gè)關(guān)鍵參數(shù)進(jìn)行了敏感性分析。首先是TLDN模型的學(xué)習(xí)率,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)學(xué)習(xí)率設(shè)置為0.01時(shí),模型的檢測(cè)準(zhǔn)確率達(dá)到了最佳水平。進(jìn)一步分析RPN錨點(diǎn)數(shù)量對(duì)檢測(cè)性能的影響,發(fā)現(xiàn)增加錨點(diǎn)數(shù)量可以有效提高檢測(cè)的精度,但同時(shí)也增加了計(jì)算成本,因此選擇10個(gè)錨點(diǎn)作為最佳配置。對(duì)于TRN模型,batch_size和epoch數(shù)是兩個(gè)重要的調(diào)優(yōu)參數(shù)。在本實(shí)驗(yàn)中,研究人員將batch_size設(shè)置為32,并將訓(xùn)練的epoch數(shù)設(shè)置為20。實(shí)驗(yàn)結(jié)果表明,較小的batchsize能夠使模型在每次迭代中更快地收斂,同時(shí),較長(zhǎng)的訓(xùn)練時(shí)間(即更多的epoch)則能夠讓模型更好地適應(yīng)復(fù)雜的文本排列方式,從而在最終的測(cè)試中表現(xiàn)出色。除了敏感性分析,還對(duì)不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)的數(shù)據(jù)分析。以ICDAR2017數(shù)據(jù)集為例,本文模型在水平文本檢測(cè)上的表現(xiàn)尤為出色,準(zhǔn)確率高達(dá) 8 5 % ,但在處理復(fù)雜背景或傾斜文本時(shí),檢測(cè)精度有所下降。
四、結(jié)語(yǔ)
通過(guò)詳細(xì)的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析,驗(yàn)證了TLDN與TRN融合模型在自然場(chǎng)景文本檢測(cè)與識(shí)別中的優(yōu)勢(shì)。通過(guò)對(duì)關(guān)鍵參數(shù)的敏感性分析,確定了最佳的模型配置。綜上所述,TLDN通過(guò)在FasterR-CNN基礎(chǔ)上的一系列改進(jìn),尤其是針對(duì)文本檢測(cè)任務(wù)的優(yōu)化設(shè)計(jì),使其在處理自然場(chǎng)景中的文本檢測(cè)任務(wù)時(shí),展現(xiàn)出了顯著的優(yōu)勢(shì)。這些改進(jìn)使TLDN在面對(duì)復(fù)雜背景、細(xì)長(zhǎng)文本以及不規(guī)則排列的文本行時(shí),能夠提供更加精確和可靠的檢測(cè)結(jié)果。
參考文獻(xiàn)
[1]李振業(yè).基于深度學(xué)習(xí)的自然場(chǎng)景文本實(shí)時(shí)檢測(cè)和識(shí)別算法研究[D].濟(jì)南:山東建筑大學(xué),2024.
[2]呂艷輝,劉明鑫.面向文本識(shí)別的CRNN模型的改進(jìn)[J].沈陽(yáng)理工大學(xué)學(xué)報(bào),2024,43(04):27-31.
[3]ZhuY,Yao C,BaiX.Scene textdetectionand recognition: recent advancesand future trends[J].Frontiers of Computer Science,2016,10(01):19-36.
[4]LiH,WangP,ShenC.Towards End-to-End Text Spotting withConvolutionalRecurrentNeuralNetworks[C]//2o17IEEE International Conference on Computer Vision (ICCV).IEEE,2017.
[5]劉建偉,宋志妍.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].控制與決策,2022,37(11):2753-2768.
基金項(xiàng)目:1.農(nóng)業(yè)農(nóng)村部重大信息化平臺(tái)運(yùn)維專項(xiàng)“食物營(yíng)養(yǎng)信息管理咨詢平臺(tái)運(yùn)維”(項(xiàng)目編號(hào):102125191610420009001);2.中國(guó)農(nóng)業(yè)科學(xué)院基本科研業(yè)務(wù)費(fèi)專項(xiàng)院級(jí)統(tǒng)籌項(xiàng)目“食物營(yíng)養(yǎng)健康科普信息監(jiān)測(cè)與創(chuàng)作模式研究”(項(xiàng)目編號(hào):Y2024XK11)
作者單位:吳金聰,黑龍江八一農(nóng)墾大學(xué);朱大洲,農(nóng)業(yè)農(nóng)村部食物與營(yíng)養(yǎng)發(fā)展研究所;屠振華,中國(guó)食品工業(yè)發(fā)酵研究院有限公司
■責(zé)任編輯:張津平尚丹