陳太陽



摘要:近年來,計算機視覺領域的一個研究熱點就是基于深度學習的文字識別。通過在深度網絡中融合對字符圖像采用K均值和PCA提取的特征信息,本文提出一種基于卷積神經網絡多特征融合的復雜背景字符識別方法。該方法對測試集進行分組實驗,實驗結果表明該方法對復雜背景字符識別有較高的正確率。
關鍵詞:卷積神經網絡;多特征融合;復雜背景;字符識別
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)10-0192-02
Abstract: In recent years, the text recognition based on deep learning is one of the hot spots in the field of computer vision. The paper propose a complex background character recognition method based on convolutional neural network and multi-feature fusion by fuzing the character images feature information which extracted by the ways from K-means and PCA in deep network. This method picks brigade laboratory for test dataset, the results proved that this method has a higher recognition accuracy for complex background character.
Key words: Convolutional neural network; Multi-feature fusion; Complex background; Text recognition
1 引言
文字識別作為計算機視覺領域的熱門研究課題之一[1],在人們的日常學習生活中具有重要的意義。傳統的光學字符識別通常適用于具有特定格式的掃描文檔[2],傳統的光學字符難以對復雜背景字符有很好的識別效果。
隨著深度學習的發展,卷積神經網絡[3]在計算機視覺領域取得了很大的成功,但是目前的工作對復雜背景字符的識別研究還比較少。本文針對復雜背景字符識別問題,提出了一種多特征融合卷積網絡模型(MFF)。該網絡模型有三個輸入通道來分別提取復雜背景字符的原圖、K均值[4]及PCA[5]的特征信息,并將獲取的相應特征進行融合,然后再將融合得到的特征放入后續網絡[6]進行訓練。本文用該方法來提高識別復雜背景字符的精度。
2 MFF網絡模型
MFF網絡模型的構建主要分為數據預處理模塊、特征提取與融合模塊、優化模塊。數據預處理模塊是為了提供足夠的復雜背景字符圖像來訓練網絡。特征提取和融合模塊是MFF網絡的核心部分,該部分將復雜背景字符的三個特征提取整合。優化模塊是為了提高復雜背景字符的識別率。本文MFF網絡模型的構建分為以下六個步驟,具體流程如圖1所示。
1)輸入訓練字符進行復雜背景融合;
2)得到復雜背景字符圖片后用K均值算法和PCA算法進行圖片處理;
3)將相應圖片集輸入到網絡中;
4)將獲取的特征進行融合;
5)對得到的融合特征進行訓練優化;
6)Softmax分類得出訓練結果。
2.1 數據預處理模塊
為了提高MFF網絡的識別準確率,本文采用數據增廣[7]的方式來支撐網絡的訓練。先對訓練字符用不同復雜場景的圖片進行背景融合,再對得到的圖片用K均值算法進行處理,最后再用PCA算法對K均值算法得到的圖片進行處理得到三類圖片,確保網絡有足夠的數據進行訓練。
2.2特征提取與融合模塊
通過數據預處理模塊處理后得到三類復雜背景字符圖像,本文就要對其進行特征提取。通過K均值算法處理后,我們把復雜背景圖像進行聚類,這樣就能把復雜背景的干擾降低,凸顯原本字符的特征。再對K均值算法得到的圖片進行PCA處理,通過降維得到更便于理解的特征。將三類圖片一起輸入到網絡中進行卷積池化提取特征,再將這三種特征進行融合。因為經過K均值算法和PCA算法處理后的特征是正向有利于識別的特征,所以融合后的特征比單獨放入原圖的特征更有利于網絡的訓練。得到融合后的特征,再進一步用卷積網絡進行特征提取與處理,得到網絡的輸出。MFF網絡Flatten層前的實現參數細節在表1中,按照網絡層級順序列出。其中原圖,k均值和PCA輸入通道用下標r,k和p標記.TF.concat[8]層對三個輸入通道得到的特征進行融合,之后經過三次卷積一次池化的操作輸入Flatten層。再將得到的結果輸入全連結層進行優化處理。
2.3 優化模塊
通過特征提取與融合模塊得到了特征圖后就可以將其輸入到dropout層,該層可有效地避免過擬合的發生,達到正則化的效果。隨機梯度下降法[9]可以加速收斂時的速度,減少計算梯度時候的冗余。最后就可以通過Softmax分類獲得MFF網絡的輸出。
3 實驗結果與分析
通過2.1數據預處理模塊,本文在自定義數據37800張復雜背景字符圖片下進行實驗,測試數據與訓練數據的比例為2:8。本文提出的方法對測試集進行三次分組實驗對比分析,每組實驗取五次測試集準確率的平均值。通過表2得出的測試結果可以看出,本文提出的MFF網絡模型在復雜背景字符識別上可以通過提取不同的特征進行融合的方式來得到較好的識別效果。
4 結論
對復雜背景字符的識別對生活有實際的意義。文字識別作為計算機領域的研究熱點,目前對復雜背景字符識別的關注度比較低。本文基于復雜背景字符的特征提出了一種針對字符的多特征融合卷積網絡模型(MFF),這為復雜背景字符識別問題提供了一種解決思路。通過多次實驗對比結果表明,MFF網絡模型能夠在復雜背景字符識別上取得較好的效果。
參考文獻:
[1]王德清,吾守爾·斯拉木,許苗苗.場景文字識別技術研究綜述[J].計算機工程與應用,2020,56(18):1-15.
[2] 郝亞男,喬鋼柱,譚瑛.面向OCR文本識別詞錯誤自動校對方法研究[J].計算機仿真,2020,9(37):333-337.
[3] 周飛燕,金林鵬,董軍.卷積神經網絡綜述[J].計算機學報,2017,40(6):1229-1252.
[4] 焦志成,李潔,王穎,等.淺層模糊K均值圖像分類網絡[J].計算機科學與探索,2015,9(08):1018-1024.
[5] 安俊峰,劉海冬,潘雷,等.基于PCA和灰度直方圖特征融合的交通標志的分類研究[J].公路,2018,4(4):178-185.
[6] Krizhevsky A,Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017,60(6):84-90.
[7] 汪權彬,譚營.基于數據增廣和復制的中文語法錯誤糾正方法[J].智能系統學報,2020,1(15):99-106.
[8] SZEGED C,VANHOUCKE V,IOFFE S,et al。Rethinking the inception architecture for computer vision[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2016,2818-2826.
[9] 王功鵬,段萌,牛常勇.基于卷積神經網絡的隨機梯度下降法[J].計算機工程與設計,2018,39(2):441-463.
【通聯編輯:唐一東】